Audiowizualny korpus mowy

Korpus mowy jest przeznaczony do badań nad systemami wspomagania rozpoznawania mowy poprzez analizę ruchu twarzy mówiącego. Korpus zawiera nagrania audiowizualne mowy polskiej. Składa się z dobrej jakości nagrań twarzy (od frontu), 20-stu różnych osób (kobiet i mężczyzn) oraz transkrypcji ich wypowiedzi. Zawartość semantyczna nagrań każdego mówcy jest taka sama.

Łączny czas trwania nagrań wynosi 200 min (dodatkowo dołączone są nagrania testowe niejednolitej jakości 4 innych mówców – ok. 40 min).

Nagrań dokonano w przeważającej części przy naturalnym oświetleniu, a mówca usytuowany był na jasnym, jednolitym tle.

Audiowizualny korpus mowy polskiej

Dźwięk rejestrowano przy pomocy rejestratora Zoom H4N oraz mikrofonu pojemnościowego AKG C5 Vocal i dynamicznego AKG Shotgun C568. Uzyskane nagrania mają postać plików .wav o parametrach:

  • Częstotliwość próbkowania: 44 100 Hz
  • Rozdzielczość: 16 bit
  • SNR: średnio ok. 40 dB

Obraz rejestrowano za pomocą kamery JVC Everio GZ-HD500. Uzyskane nagrania mają postać plików .mts/avchd w standardzie H.264/MPEG-4 AVC o parametrach:

  • Rozdzielczość HD: 1920×1080
  • Prędkość bitowa strumienia: >14 Mbps
  • Ilość klatek: 25/50 fps

Zalecane parametry odtwarzania nagrań:

  • Monitor: najlepiej z obsługą rozdzielczości 1920×1080
  • Pamięć RAM: min. 2GB
  • Procesor: min. 3GHz
  • Karta graficzna:
    • ATI: modele z serii HD
    • NVIDIA: modele z technologią PureVideo HD
  • Kodeki: K Lite Codec Pack: v. 7.9.2 (32bit) / 5.4.0 (64bit)

A sample of the corpus:
Plugin Adobe Flash Plugin jest niezbędny do obejrzenia tej zawartości.

Korpus został zlicencjonowany Techmo sp. z o.o.

Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014