NGRAM

Model n-gramowy języka polskiego jest rozbudowanym słownikiem frekwencyjnym w postaci bazy danych. Jego „rozbudowanie” polega na tym, że oprócz częstotliwości słów, zawiera także częstotliwości dwójek i trójek.

Statystyki modelu zostały zebrane z olbrzymich zbiorów tekstów z różnych źródeł (około 10 GB tekstu, ponad miliard słów). Przeprowadzono również ich półautomatyczną ręczną korektę, na którą poświęcono około 40 roboczodni. Korekty były przeprowadzane z wykorzystaniem specjalnie przygotowanego programu Fixgram.

Widok okna programu Fixgram

Model języka polskiego zawiera około 8 milionów różnych słów. Część z nich to słowa obce, a część jest wynikiem błędów literowych w analizowanych tekstach. Zawartych jest także bardzo dużo nazw własnych. Parametry statystyczne modelu dobrze oddają specyfikę występowania słów w języku polskim, zwłaszcza w zakresie 1- i 2-gramów. Model jest nadal rozwijany i korygowany.

Schemat bazy danych modelu n-gram

Więcej informacji o modelu znajduje się w dokumentacji oraz na wikipedii.

Istnieje możliwość pozyskania licencji AGH na model n-gramowy.

Licencję na model posiada SnapKeys oraz Techmo sp. z o.o.

Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014