NGRAM

Model n-gramowy języka polskiego jest rozbudowanym słownikiem frekwencyjnym w postaci bazy danych. Jego „rozbudowanie” polega na tym, że oprócz częstotliwości słów, zawiera także częstotliwości dwójek i trójek.

Statystyki modelu zostały zebrane z olbrzymich zbiorów tekstów z różnych źródeł (około 10 GB tekstu, ponad miliard słów). Przeprowadzono również ich półautomatyczną ręczną korektę, na którą poświęcono około 40 roboczodni. Korekty były przeprowadzane z wykorzystaniem specjalnie przygotowanego programu Fixgram.

Widok okna programu Fixgram

Model języka polskiego zawiera około 8 milionów różnych słów. Część z nich to słowa obce, a część jest wynikiem błędów literowych w analizowanych tekstach. Zawartych jest także bardzo dużo nazw własnych. Parametry statystyczne modelu dobrze oddają specyfikę występowania słów w języku polskim, zwłaszcza w zakresie 1- i 2-gramów. Model jest nadal rozwijany i korygowany.

Schemat bazy danych modelu n-gram

Więcej informacji o modelu znajduje się w dokumentacji oraz na wikipedii.

Twórcy systemu zapraszają do skorzystania z oferty techmo.pl. Techmo jest spółką spin-off która specjalizuje się w przetwarzaniu mowy i audio.

Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014