Technologia mowy
Materiały 2019/2020
- Dodatkowe, warte przeczytania materiały o uczeniu maszynowym w praktyce:
- MACHINE LEARNING YEARNING BY ANDREW NG - dostępne po rejestracji
- The Illustrated GPT-2 (Visualizing Transformer Language Models) - duży artykuł o architekturze GPT-2 i modelowaniu NLP, dla koneserów.
Pozostałe materiały
Laboratorium
- Wprowadzenie w podstawowe narzędzia programistyczne - język Python
- Akwizycja i analiza sygnału w języku Python
- Analiza podstawowych ekstraktorów cech z sygnału mowy - MFCC
- Modelowanie bazujące na sygnale mowy - Gaussian Mixture Models
- Projekt I - Zaprojektowanie własnego systemu rozpoznawania mowy o ograniczonym słownictwie
- Projekt I - Walidacja systemu rozpoznawania mowy
- Projekt I - Ocena systemu na zbiorze ewaluacyjnym
- Projektowanie interfejsów głosowych - case study
- SRGS/ABNF - systemy definiowania gramatyk, wprowadzenie w API systemów udostępnianych do projektów
- Projekt II - Planowanie i implementacja interfejsu głosowego
- Projekt II - Rozwój projektu / Testowanie
- Projekt II - Rozwój projektu / Testowanie
- Projekt II - Przygotowanie e-portfolio
- Projekt II - „Obrona” projektów
Zajęcia laboratoryjne będą się odbywały z wykorzystaniem metody e-portfolio, opracowanej w ramach projektu POWR.03.04.00-00-D002/16.
Przykłady sprawozdań z ubiegłych lat
2013
przed 2013
Ćwiczenia
- Wprowadzenie do przedmiotu Technologia Mowy
- Prezentacje (Chomsky, Gramatyki formalne, Innowacynjność i Startupy)
- Elementy probabilistyki i statystyki, klasyfikator Bayesa
- Dyskusja o rozpoznawaniu mowy na podstawie artykułu (Young 1996 - proszę go obowiązkowo przeczytać przed zajęciami)
- Sporządzanie transkrypcji fonetycznych
- Prezentacje:
- Przykładowe prezentacje studentów z ubiegłych lat:
Tematy prezentacji 2014:
- Katarzyna Sochaczewska ”Poprawa efektywności rozpoznawania mowy - audio-wizualne rozpoznawanie mowy”
- Katarzyna Janus, Michał Szywała ”Vocodery i Auto-tune”
- Mikołaj Kasprzyk ”Historia syntezatorów mowy”
- Agnieszka Słowik, Norbert Mieczkowski ”Przetwarzanie mowy dla platformy Android - przegląd dostępnych narzędzi i popularnych aplikacji”
- Damian Goworko, Zuzanna Dziewulska ”Przesył mowy przez internet”
- Magda Turakiewicz, Paweł Rolnik ”Przegląd i porównanie programów do rozpoznawania mowy na różnych systemach operacyjnych i platformach”
- Wojciech Andrzejczak, Piotr Dworak ”Fonoskopia - analiza nagrań mowy w kryminalistyce”
- Jakub Szot, Jarosław Wojtas ”Rekonstrukcja dźwięków, w tym mowy, na podstawie nagrania video drgań obiektów - Mikrofon wizualny”
- Joanna Grochal, Adam Podgórni ”Efekt McGurka”
- Kamila Krasny, Magdalena Malon ”Analiza wad wymowy i ich wpływ na koartykulację”
- Marek Wójcik, Jadwiga Klewar ”Czy można usłyszeć widmo? Samogłoski, a śpiew alikwotowy”
- Karolina Prawda, Magdalena Karpierz, ”Metody detekcji mowy (Voice Activity Detection), sposoby realizacji tego zagadnienia i jego cele”
- Anna Kosiek, Dominik Fert ”Analiza tonu krtaniowego pod kątem rozpoznania mówcy chorego”
- Mateusz Widomski, „Przegląd rynku pracy w Polsce i w Europie dla absolwentów przedmiotu technologia mowy”
- Tomasz Woźniak, Paweł Łyżwa ”Głębokie uczenie maszynowe w systemach rozpoznawania mowy”
- Elżbieta Maniakowska ”Mowa w protetyce słuchu”
- Szymon Dudziński, Tomasz Uthke ”Speech Jammer”
- Krzysztof Krzyżek, Jakub Motulewicz ”Uniwersalny translator - fikcja czy rzeczywistość”
- Krzysztof Wróbel ”Deep Neural Networks”
Tematy prezentacji 2015:
- Marek Wójcik „Hodowla strun głosowych”
- Teresa Kumor i Magda Futyma ”Proces nauki języków u dzieci w rodzinach wielojęzycznych”
- Justyna Król i Piotr Kapusta ”Analiza fonetyki języków słowiańskich - różnice i podobieństwa do języka polskiego”
- Jakub Jaworski i Michał Ziobro „Big data, Niepojęta skuteczność danych”
- Barbara Kapica, ”Analiza fonoskopijna w kryminalistyce”
- Beata Ludwińska i Joanna Nodzyńska ”Zastosowanie rozpoznawania mowy do testowania znajomości języka”
- Natalia Figiela „Zapożyczenia językowe i wpływ języków obcych na rozwój polszczyzny”
- Magdalena Teterycz ”Wpływ zaburzeń mowy na jej zrozumiałość”
- Urszula Kustra i Michał Kowalczyk ”Rozpoznawanie mowy w czujniku ruchu Kinect”
- Bartłomiej Pełka i Maciej Rymar „Metody zniekształcania mowy w celu uniemożliwienia identyfikacji mówcy”
- Zbigniew Łatka, Aleksandra Majchrzak, Monika Sobolewska ”Detekcja fałszowania w śpiewie”
- Chojnacki Bartłomiej i Maciej Jagoda ”Zastosowanie techniki kształtowania wiązki w celu zwiększenia skuteczności systemów DSR”
- Zuzanna Raciborska i Jakub Talarczk ”Wady wymowy u dzieci. Ich przyczyny i skutki”
- Grzegorz Kolusz i Martyna Jamróz ”Radość, złość, zaskoczenie, a może smutek? O podstawach rozpoznawania emocji słów kilka.”
- Weronika Sulżycka i Michał Majewski „Przegląd wybranych systemów i programów rozpoznawania mowy”
- Wojciech Wróbel i Bartosz Pieprzyca ”Interfejs głosowy - zalety i wyzwania”
- Paulina Szymanek i Kinga Rogozik „Automatyczne rozpoznawanie mowy w diagnozowaniu Alzheimera we wczesnym stadium”
- Michał Pawelec i Wojciech Musiał ”Metody obiektywnej oceny jakości usług głosowych”
- Wojciech Łukomski i Martyna Mynio ”Czy można „usłyszeć” wygląd człowieka?”
- Agnieszka Koszany i Jagna Chronowska ”Różnice w odbiorze mowy syntetycznej i naturalnej przez człowieka”
- Justyna Gogol i Adelina Horoń ”Diagnostyka wad wymowy”
- Piotr Magiera „Wpływ alkoholu na mowę ludzką”
Polecane materiały
- B. Ziółko, M. Ziółko, Przetwarzanie mowy, Wydawnictwa AGH, 2011
- D. Jurafsky, J. H. Martin, SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Second Edition”, Pearson Prentice Hall, 2008
- L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition PDF
- HMM w MIT, week #5, lecture #10: www.ocw.mit.edu
- W. Kwiatkowski, Metody automatycznego rozpoznawania wzorców, BEL Studio, Warszawa 2007 (28 zł)
- J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wyd 2., EXIT, Warszawa 2008 (45 zł)
- M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczące się, WNT, Warszawa 2008 (47 zł)
- W. Kasprzak, Rozpoznawanie obrazów i sygnałów mowy, WPW, Warszawa 2009 (28 zł)
- S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, San Diego 2009
- (!) R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, 2nd Edition, Wiley & Sons 2000
- J. P. Marques de Sa, Pattern Recognition, Springer 2001
- Andy Field, Discovering Statistics Using SPSS
- Studenckie mapy skojarzeń dla hasła Technologia Mowy (PDF) (JG).
Stara strona przedmiotu z dodatkowymi materiałami