O autorze
Jestem profesorem AGH i dodatkowo przez ponad 30 lat byłem profesorem Uniwersytetu Ekonomicznego.

Kieruję utworzonym przeze mnie w 1973 roku Laboratorium Biocybernetyki AGH. Byłem też przez wiele lat kierownikiem Katedry Automatyki i Inżynierii Biomedycznej AGH, którą jednak w 2016 roku przekazałem w ręce jednego z moich dość licznych wychowanków, którzy dziś są już profesorami. Musiałem oddać kierownictwo Katedry ponieważ zaczęła obowiązywać na tym stanowisku kadencyjność. Ale Laboratorium nadal kieruję.

Kilka słów o mojej drodze do tego miejsca, w którym się obecnie znajduję:

Zawsze pasjonowała mnie nauka, więc zostałem naukowcem. A jak stwierdziłem, jaka ta nauka jest fajna, to zacząłem się starać przekonać o tym jak najwięcej ludzi. Przekazuję moją fascynację wiedzą, nauką i techniką moim studentom, w wyniku czego wypromowałem już ponad 300 magistrów i blisko 70 doktorów. Staram się także popularyzować wiedzę na różne sposoby: w książkach, w gazetach, w tygodnikach, w radiu, w telewizji i na odczytach. Zebrało się tego ponad 400 pozycji drukowanych i chyba drugie tyle w formie różnych wystąpień – na żywo i w mediach.

Ponieważ wiedza nieświeża jest równie niesmaczna jak nieświeża kiełbasa – więc staram się zawsze mieć dostęp do wiedzy najświeższej. A ponieważ taką świeżą wiedzę ma się wtedy, gdy się ją samemu wytwarza, więc z zapałem prowadzę badania naukowe. W badaniach tych staram się wykorzystywać moje kwalifikacje inżyniera na potrzeby biologii i medycyny oraz moją wiedzę biologiczną (po doktoracie z automatyki studiowałem na Akademii Medycznej) jako źródło inspiracji dla budowy nowych systemów technicznych. Czasem udaje mi się coś odkryć, a jak już odkryję, to wzorem wszystkich naukowców piszę publikacje. Tak mi to weszło w krew, że napisałem już tych publikacji dosyć dużo, ale jak licznik moich prac w wykazach Biblioteki Głównej AGH przekroczył tysiąc, to przestałem je liczyć.

Opierając się na nie sprawdzonym przekonaniu, że jak ktoś ma osiągnięcia naukowe, to rządzić też potrafi, społeczność mojej uczelni wybrała mnie, żebym pełnił rolę rektora AGH. Potem ten wybór powtórzono jeszcze dwa razy, więc dosyć długo paradowałem w tych królikach udających gronostaje. Potem wybrano mnie na członka Polskiej Akademii Nauk i Polskiej Akademii Umiejętności oraz kilku akademii zagranicznych. W PAN pełniłem funkcję prezesa Krakowskiego Oddziału tej Korporacji.

No a potem zaproszono mnie, żebym pisywał na tym blogu. No to pisuję - najlepiej, jak potrafię!

Inteligentne sztuczne ucho - automatyczne rozpoznawanie mowy

http://www.popsci.com/sites/popsci.com/files/styles/medium_1x_/public/ibm-researcher-talks-to-pepper-robot.jpg?itok=jini2pMp
Jedną z cech, jakiej oczekujemy od przyszłych systemów technicznych, jest zdolność do automatycznego rozpoznawania mowy. Zamiast naciskać klawisze czy manipulować myszką, chcielibyśmy móc wyrażać nasze życzenia w stosunku do różnych maszyn w postaci poleceń głosowych, oczekując, że będą one pilnie i inteligentnie wykonane. Niestety wciąż jeszcze jest to nasze oczekiwanie, a nie technika dostępna na co dzień. Spróbuję opisać, na czym polega automatyczne rozpoznawanie mowy, zaprezentować stosowane metody i wyjaśnić, czemu ciągle nie są one całkowicie skuteczne.

We wcześniejszych wpisach na tym blogu pokazałem, czym są dwa klasyczne obszary sztucznej inteligencji: rozpoznawanie obrazów oraz automatyczne rozumienie języka naturalnego. Rozpoznawanie mowy korzysta z obydwu tych obszarów, dołączając jednak dodatkowo specyficzne zagadnienia związane z fonologią.



Sygnał mowy jako nośnik informacji przekazywanych przez ludzi maszynom ma bardzo wiele zalet. Po pierwsze, jego użycie nie wymaga specjalnej nauki, bo posługiwania się mową uczymy się od wczesnego dzieciństwa.
Po drugie, za pomocą sygnału mowy można sterować pracą różnych urządzeń bez fizycznego kontaktu z nimi i mając (ewentualnie) zajęte ręce.
Po trzecie, mowy jako sygnału sterującego można użyć także w ciemności.
Po czwarte, mową mogą się posługiwać niepełnosprawni ruchowo i niewidomi - znacznie łatwiej, niż wszystkimi innymi metodami sterowania i kontroli.
Po piąte, w warunkach zagrożenia, zdenerwowania, stresu - głosowa reakcja człowieka jest szybsza i często bardziej trafna, niż jakakolwiek manipulacja urządzeniami sterującymi.
Po szóste, korzystanie z głosowego sterowania (za pomocą mowy) pozwala na wygodne działanie zdalne (sterowanie na odległość, czasem nawet z innego kontynentu), bo powszechnie dostępne są liczne telefony i sprawne sieci telekomunikacyjne.
Po siódme ...

Ale po co nadal przekonywać przekonanych? Wszak wszyscy Czytelnicy są już skłonni przyznać, że sterowanie za pomocą sygnału mowy - jest dokładnie tym, co chcielibyśmy mieć. W dodatku sterowanie za pomocą mowy jest naturalnym kolejnym krokiem na drodze do coraz bardziej wygodnego wykonywania wymaganej pracy.
Skoro wiemy już, że chcemy mieć możliwość przekazywania przez człowieka głosowych poleceń komunikatów maszynie - to zastanówmy się, jak takie urządzenie zbudować. Zauważmy przy tym, że komunikacja głosowa w drugą stronę, to znaczy przekazywanie przez maszynę informacji człowiekowi za pomocą automatycznie tworzonych komunikatów głosowych jest już dawno całkowicie opanowana. Są urządzenia czytające na głos tekst dla osób niewidomych, każdy z pewnością słyszał głosowe rady, jakich udzielają urządzenia nawigacyjne GPS, dziesiątki razy słuchaliśmy nagranych lub syntetyzowanych informacji głosowych w różnych serwisach i infoliniach. To działa.

Natomiast dobrze działającego systemu przekazywania przez człowieka komunikatów głosowych maszynie ciągle jeszcze nie mamy. To znaczy są pojedyncze rozwiązania, ale ciągle nie funkcjonuje to w pełni dobrze. Spróbuję teraz wyjaśnić, dlaczego tak jest. Przydatny będzie przy tym ogólny schemat systemu rozpoznawania mowy.
Na schemacie tym pokazano, że cały proces zaczyna się banalnie - od zarejestrowania "surowego" sygnału mowy przy pomocy mikrofonu. Potem trzeba ten sygnał przygotować do tego, by maszyna mogła próbować go rozpoznać. Pierwszym krokiem jest usunięcie zakłóceń. Do celów automatycznego rozpoznawania sygnał mowy powinien być czysty, a w praktycznych zastosowaniach z zasady jest zaszumiony - oprócz głosu człowieka, słychać tak różne odgłosy z otoczenia.
W efekcie przebieg zarejestrowanego sygnału wygląda tak, jak na górze rysunku, podczas gdy chcemy go mieć w postaci czystej, takiej jak na dole.
Na szczęście elektronicy znają mnóstwo skutecznych metod filtracji sygnałów, więc z tym problemem można sobie łatwo poradzić. Dodatkowo na etapie wstępnej obróbki sygnału mowy można dokonać jego tzw. preemfazy polegającej na zwiększeniu energii składowych o wysokich częstotliwościach, ważnych dla prawidłowego rozpoznawania, ale w sygnale dźwiękowym słabo widocznych. No i w czasie wstępnej obróbki sygnału mowy dokonuje się jego segmentacji, to znaczy podziału na odcinki odpowiadające poszczególnym głoskom (a dokładniej - tak zwanym fonemom).
Kolejnym etapem rozpoznawania jest wydobywanie cech dystynktywnych, czyli takich, które pozwalają rozpoznawać poszczególne fonemy. Przez blisko 20 lat sam prowadziłem badania naukowe w tym obszarze, więc mógłbym na ten temat napisać grubą książkę (i rzeczywiście ją napisałem, jest tutaj), ale w skrócie powiem, że obecnie w powszechnym użyciu są tak zwane parametry melowo-cepstralne.
Nie podejmę się wyjaśnienia w tym krótkim tekście użytych terminów (można je odszukać w Google), ale na użytek tego artykułu wystarczy przyjąć, że po wielu latach badań twórcy systemów automatycznego rozpoznawania sygnału mowy wiedzą już, jakie parametry dobrze opisują ten sygnał dla potrzeb jego rozpoznawania, oraz umieją skutecznie obliczać ich wartości.

Niestety od rozpoznawania elementów mowy (fonemów, difonów, trifonów itp.) do rozpoznawania mowy w sensie całych wypowiedzi - droga jest daleka. Problem jest podobny, jak przy automatycznym rozpoznawaniu pisma. Poszczególne litery (zwłaszcza drukowane, bo z pisanymi różnie bywa) potrafimy sprawnie rozpoznawać automatycznie za pomocą tak zwanych narzędzi OCR (ang. Optical Character Recognition) czyli oprogramowanie służącego do rozpoznawania znaków i całych tekstów w pliku graficznym, pochodzącym na przykład ze skanera. Natomiast dłuższego tekstu niestarannie nabazgranego ręcznie żaden komputer nie rozpozna. Podobnie trudne jest rozpoznanie dłuższej wypowiedzi, zwłaszcza niestarannie formułowanej.

Ludzkie ucho i mózg potrafią mowę rozpoznawać znakomicie. Identyfikujemy niepoprawnie wypowiedziane słowa, potrafimy domyślić się sensu zdania nawet jeśli jest ono niekompletne czy niepoprawnie zbudowane, często nie przeszkadzają nam nawet deformujące wypowiedź zniekształcenia chorobowe (chrypka, seplenienie), nie zwracamy uwagi na zmiany brzmienia wypowiedzi powodowane przez emocje (a bywają one bardzo duże!) itd. My mowę rozpoznajemy w każdych (no, może w prawie każdych) warunkach - szybko, sprawnie i bezwiednie. I tego samego oczekujemy od komputera.

A on tego nie potrafi!

Dlatego mając wypowiedź podlegającą rozpoznawaniu przekształconą do postaci ciągu lepiej czy gorzej rozpoznanych elementów trzeba odwołać się do modelu języka, który pomoże w pokonaniu tych trudności. Takie modele powstały już dla wielu języków, zwłaszcza dla języka angielskiego w jego licznych odmianach. Natomiast pełnego modelu języka polskiego nadal nie mamy. Pracują nad tym najlepsze zespoły fonetyków, w szczególności w Poznaniu zespół naukowców kierowany przez Panią Profesor Grażynę Demenko, ale droga do osiągnięcia celu jest jeszcze daleka...
Trwa ładowanie komentarzy...