Oprogramowanie i korpusy danych Zespołu
W ramach prac Zespołu Przetwarzania Sygnałów powstało oprogramowanie oraz bazy danych pomocne przy badaniach dotyczących technologii mowy, m.in.:
- System rozpoznawania mowy polskiej dla ustalonego zbioru wypowiedzi,
- OrtFon - program do zamiany zapisu ortograficznego na fonetyczny dla polskiego,
- Model języka polskiego dla HTK - gotowy do wykorzystania,
- 4 korpusy tekstów polskich ściągniętych z internetu (książki, czasopisma, profesjonalne transkrypcje mowy, artykuły internetowe) - około 10GB tekstu,
- dodatkowe ręczne anotacje czasowe na słowa do korpusu LUNA (w plikach MLF),
- 3 korpusy z polskimi imionami i nazwiskami (PRP, LW, ANWIL) - w sumie około 130 tys. pozycji.