Algorytmy audiowizualnego przetwarzania sygnału mowy polskiej na potrzeby interfejsu człowiek-komputer

Rozwój interfejsów komunikacji z komputerem podąża w stronę zapewnienia całkowicie nieabsorbujących narzędzi do sterowania. Wykorzystywane dotychczas urządzenia, czyli klawiatury, myszy i ekrany są wspomagane mikrofonami, kamerami i ekranami dotykowymi. Celem jest opracowanie interfejsów pozwalających na całkowicie naturalną komunikację, z wykorzystaniem ludzkich zmysłów, tj. wzroku, słuchu, dotyku oraz dodatkowo mowy. Ludzka percepcja pozwala na łączenie informacji pochodzących z wielu strumieni, zastosowanie połączenia zmysłu wzroku i podstawowej formy porozumiewania się - mowy, pozwoli na uzyskanie “wygodnych” interfejsów, szczególnie jeśli komunikacja będzie prowadzona w ojczystym języku użytkownika. Dalszy rozwój interfejsów komunikacji wymaga opracowania skutecznych systemów rozpoznawania mowy, działających także w środowiskach o dużym natężeniu szumu. Zastosowanie analizy obrazu twarzy osoby mówiącej i strumienia danych wizualnych do wspomagania rozpoznawania mowy pozwoli poprawić jego jakość i uodporni system na zakłócenia.

Niniejszy projekt ma na celu wybór i opracowanie algorytmów przetwarzania danych audiowizualnych, które mogą zostać wykorzystane w przetwarzaniu i rozpoznawaniu mowy polskiej. Różnice pomiędzy językiem polskim i angielskim powodują, że bezpośrednie wykorzystanie algorytmów skutecznych dla języka angielskiego, w rozpoznawaniu mowy, nie daje tak samo dobrych rezultatów dla języka polskiego. Podobne różnice wystąpią w przetwarzaniu danych audiowizualnych.

W ramach projektu szczególnej analizie poddane zostaną metody przetwarzania danych wizualnych na potrzeby rozpoznawania mowy polskiej: algorytmy ekstrakcji cech oraz metody określające obszary zawierające informację przydatną do przetwarzania mowy, a także sposoby parametryzacji wybranych regionów obrazu, różne techniki klasyfikacji danych wielostrumieniowych, algorytmy redukcji wymiarowości wektorów cech, w celu poprawy jakości klasyfikacji danych, strategii łączenia danych pochodzących ze strumieni audio i wideo. Dodatkowo zaproponowane zostaną algorytmy wspomagania nierównomiernej segmentacji sygnału opartej o zmiany energii w pasmach częstotliwościowych mowy, danymi pochodzącymi z analizy obrazu twarzy mówcy. Ważnym rezultatem projektu będzie opracowanie korpusu nagrań audiowizualnych mowy polskiej wraz ze szczegółowym opisem zawartości oraz dodatkowych metod wspomagania tworzenia takich korpusów.

Wyselekcjonowane algorytmy przetwarzania danych, zostaną rozszerzone o wersje uruchamiane na architekturach równoległych, ze szczególnym uwzględnieniem jednostek GPGPU i technologii CUDA, w celu zapewnienia przetwarzania danych w czasie rzeczywistym. Projekt będzie miał wpływ na rozwój badań nad audiowizualnym przetwarzaniem mowy polskiej, a także przyczyni się do rozwoju systemów rozpoznawania mowy. Osiągnięte wyniki mogą stanowić bazę do rozpoczęcia dalszych prac, mających zastosowanie w tworzeniu zaawansowanych interfejsów komunikacji człowiek - komputer.

Zapraszamy do realizacji prac dyplomowych w ramach projektu. Kilka związanych z naszymi systemami już powstało - Realizacja prac dyplomowych.

Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014