Rozpoznawanie mowy: refleksje na temat jego mocnych i słabych stron

Muszę przyznać, że od dłuższego czasu nie korzystałem z żadnego rodzaju rozpoznawania mowy, kiedy poproszono mnie o zrobienie samouczków. Ostatnim razem, gdy próbowałem rozpoznawania mowy, używałem Dragon Dictate(Dragon Dictate) , który był nowy, gdy Windows 98 był również nowy. Bardzo dawno temu w latach komputerowych!

Z przyjemnością poruszyłem ten temat, ponieważ bardzo ciekawiło mnie, jak poprawiło się rozpoznawanie mowy. I chłopcze, czy to się poprawiło! Nawet podstawowa, wbudowana aplikacja, taka jak ta, wykonała zadziwiająco dobrą robotę „od razu po wyjęciu z pudełka”. W ostatnim artykule na temat rozpoznawania mowy(Speech Recognition) chciałbym opowiedzieć o tym, czego się nauczyłem, ponownie poznając cuda rozpoznawania mowy i dokąd zmierzam.

Nie jesteś jeszcze gotowy na Star Trek

Jestem pewien, że wielu z nas widziało załogę statku kosmicznego(Starship Enterprise) , mówiącą "Computer!"i otrzymanie natychmiastowej odpowiedzi. Nie mamy jeszcze komputerów Gwiezdnej Floty(Starfleet) , ale począwszy od systemu Windows Vista(Windows Vista) i kontynuując w systemie Windows 7(Windows 7) , mamy komputery, które będą nas słuchać i reagować na to, co im powiemy – i odpowiedzą nam, jeśli „Co to było?” ("What was that?")jest uważana za odpowiedź.

Rozpoznawanie mowy

Miałem problemy, kiedy po raz pierwszy próbowałem użyć funkcji Rozpoznawanie mowy(Speech Recognition) , a rozwiązywanie problemów nie było szczególnie proste. Pliki pomocy nie zawsze są wystarczająco pomocne. Udało mi się znaleźć odpowiedzi na stronie internetowej Microsoft i na różnych forach internetowych bez zbytniego nakładu pracy. W ten sposób dowiedziałem się, że zapomniałem, że moja kamera internetowa (siedząca na wprost mnie na monitorze i dokładnie tak, jak mówię) również ma aktywny mikrofon i dodaje zamieszania. Kiedy to naprawiłem, od tej pory żeglowanie było całkiem płynne.

Próbowałem nawet mówić z różnymi akcentami ( na przykład brytyjskim(BBC British) i amerykańskim(American) wieśniakiem BBC) i udało mi się uzyskać dość dobre rozpoznanie, uwzględniając różnice w standardowej amerykańskiej(American) wymowie. Oczywiście mówiąc "Friends, Romans, countrymen, lend me your ears!"podczas gdy robienie moich najlepszych wrażeń na temat Helen Mirren i Jeffa Foxworthy'ego(Jeff Foxworthy) rozśmieszyło mnie zbytnio, aby uzyskać całkowicie dokładne wyniki.

Rozpoznawanie języka

Rozpoznawanie mowy(Speech Recognition) może być używane z różnymi językami i pomyślałem, że mogę wypróbować to z moim ograniczonym, amerykańskim(American) akcentem, hiszpańskim(Spanish) , niemieckim(German) i francuskim(French) , ale niestety nie możesz używać innych języków, chyba że twój system operacyjny jest również w tym języku. Możesz zmienić język systemu operacyjnego, instalując inny pakiet językowy firmy Microsoft , ale możesz to zrobić tylko wtedy, gdy używasz systemu Windows 7 (Windows 7) Ultimate lub Windows 7 Enterprise.

Rozpoznawanie mowy

Rozpoznawanie mowy(Speech Recognition) jest dostępne dla angielskiego amerykańskiego(US English) , angielskiego brytyjskiego(UK English) , francuskiego(French) , hiszpańskiego(Spanish) , niemieckiego(German) , japońskiego(Japanese) , chińskiego tradycyjnego(Traditional Chinese) i chińskiego uproszczonego(Simplified Chinese) i będzie można je znaleźć w tych wersjach językowych systemu Windows 7(Windows 7) (wszystkie wersje). Przykro mi, że nie mogłem tego wypróbować. Nie mam pojęcia, co stanie się z Windows 8 , ale myślę, że możliwość zainstalowania innych pakietów językowych byłaby dobrym dodatkiem do odpowiedników Windows 8 w Windows 7 Professional i nowszych.

Co działa dobrze

Jak wspomniałem, Rozpoznawanie mowy(Speech Recognition) najlepiej współpracuje z innym oprogramowaniem firmy Microsoft(Microsoft) . Dopóki eksperymentowałem z produktami Microsoftu(Microsoft) , odnosiłem sukcesy (choć jak można się było spodziewać, korzystanie z Microsoft Office Excel było zarówno ograniczone, jak i skomplikowane). W przypadku innego oprogramowania było to trafienie lub chybienie. Mógłbym całkiem dobrze korzystać z przeglądarki Google Chrome(Google Chrome) (zdecydowanie nie tak dobrze, jak z Internet Explorera(Internet Explorer) ) i mojego programu pocztowego Eudora , który jest już prawie starym oprogramowaniem. Warto poeksperymentować z własnym ulubionym oprogramowaniem, aby zobaczyć, co możesz zrobić. Polecenie „pokaż numery” było szczególnie pomocne przy wybieraniu elementów i poleceń.

Zauważyłem również, że nie trwało długo, zanim dokładność rozpoznawania uległa znacznej poprawie. Ćwiczenia treningowe przeszłam dwukrotnie, po czym rozpoznanie było prawie w 100% poprawne. Byłem w stanie mówić trochę szybciej i robić mniej pauz, aby oprogramowanie nadążyć. Naprawdę podobało mi się, gdy mój głos został przetłumaczony na słowa na ekranie. Moje wczesne doświadczenia z oprogramowaniem do rozpoznawania mowy nie były nawet tak przyjemne.

Rozpoznawanie mowy

Co nie działa dobrze

Jak wspomniałem, niektóre programy są po prostu niekompatybilne z rozpoznawaniem mowy(Speech Recognition) . Nie mogłem nawet otworzyć Adobe Readera(Adobe Reader) lub wersji Adobe AIR (Adobe AIR)TweetDeck . Odkryłem, że nie mogę zalogować się na swoje konto Google w (Google)Internet Explorerze(Internet Explorer) , aby wypróbować Dokumenty Google(Google Docs) — wydawało się, że nie ma sposobu, aby wymówić lub przeliterować moje hasło. Podejrzewam, że jest to kwestia bezpieczeństwa, która nie pozwala na wypowiadanie na głos haseł tam, gdzie ktoś inny może je usłyszeć, ale było to denerwujące.

Mogłem otworzyć iTunes i wybrać utwór do odtworzenia, ale nie mogłem go uruchomić. Mogłem otworzyć Scrivener (mój wybrany edytor tekstu), ale opcja „Pokaż liczby”("Show numbers") nie nakładała liczb na nic, czego chciałem użyć. Nie przeprowadzałem żadnych naprawdę rozległych eksperymentów z moim ulubionym oprogramowaniem — to tylko kilka, które wypróbowałem. Warto byłoby, aby każdy, kto chce używać rozpoznawania mowy(Speech Recognition) , przetestował programy, z którymi chce go używać, aby mieć pewność, że będzie on kompatybilny.

Więcej linków i zasobów

Jeśli nie widziałeś jeszcze poprzednich artykułów, możesz je znaleźć tutaj:

Co dziwne, prawie niemożliwe jest znalezienie jakichkolwiek informacji na temat rozpoznawania mowy(Speech Recognition) w witrynie internetowej Microsoft Answers bez kliknięcia łącza w wyszukiwarce Google lub Bing . Nie udało mi się uzyskać żadnych odpowiedzi, wpisując „Rozpoznawanie mowy”("Speech Recognition") w polu wyszukiwania, mimo że na forach jest kilka pytań na ten temat. Użyj tego łącza, aby uzyskać pomoc dotyczącą rozpoznawania mowy(Speech Recognition) z witryny sieci Web systemu Windows: Wyniki wyszukiwania rozpoznawania mowy(Speech Recognition search results) .

Oto krótki artykuł z Wikipedii(Wikipedia) , który opowiada o historii rozpoznawania mowy w firmie Microsoft(Microsoft) : Rozpoznawanie mowy w systemie Windows(Windows Speech Recognition) .

Oto wpis na blogu, który zawiera przemyślenia autora na temat porównania rozpoznawania mowy(Speech Recognition) z rozpoznawaniem głosu Dragon Naturally Speaking : Dragon NaturallySpeaking vs Windows 7 Voice Recognition(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition) .

Zawijanie tego

Naprawdę podobała mi się praca z Rozpoznawaniem mowy(Speech Recognition) i podziwianie ulepszeń, które zostały wprowadzone z biegiem czasu. Na pewno wystarczyłby do codziennego użytku, zwłaszcza z produktami Microsoftu(Microsoft) .

Czy nadal będę korzystać z rozpoznawania mowy(Speech Recognition) ? Tak, kiedy mogę. W tym momencie nie potrzebuję niczego bardziej wyrafinowanego. Warto było poświęcić czas, aby go wytrenować i nauczyć się go właściwie używać.



About the author

Jestem inżynierem oprogramowania z ponad 10-letnim doświadczeniem w branży Xbox. Specjalizuję się w tworzeniu gier i testowaniu bezpieczeństwa. Jestem także doświadczonym recenzentem i pracowałem nad projektami dla największych nazwisk w branży gier, w tym Ubisoft, Microsoft i Sony. W wolnym czasie lubię grać w gry wideo i oglądać programy telewizyjne.



Related posts