Korpus emocji w mowie

Powstały w AGH korpus nagrań jest jedynym w Polsce usystematyzowanym zbiorem nagrań emocji odgrywanych dostępnym w ramach licencji.

  • Rodzaj emocji

Korpus zawiera nagrania wyrażające pięć spośród emocji podstawowych (radość, smutek, złość, strach, zdziwienie), ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Ironia/sarkazm/drwina nie jest emocją w rozumieniu teorii emocji podstawowych, można uznawać ją za emocję złożoną, postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. W aspekcie zawartości informacji w sygnale mowy - ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści.

  • Mówcy i treść

W nagraniach wzięło udział 6 mówców w wieku 20-30 lat. Część z nich to profesjonalni aktorzy lub amatorzy, a część - studenci wolontariusze. Po uprzednim zapoznaniu się z tekstami, mówcy zostali poproszeni o przeczytanie ich kolejno w sposób wyrażający poszczególne emocje. Dla każdego mówcy zarejestrowano nagrania o tej samej treści (około 10 minut dla każdego mówcy). Treść nagrań stanowią pojedyncze słowa (cyfry, polecenia sterujące), zdania dialogowe (46 zdań z naturalnych codziennych rozmów) oraz jeden tekst ciągły. Treść dobrano tak, żeby była możliwie neutralna i nie indukowała konkretnej emocji. Treść zaprojektowano pod kątem użycia w interfejsach człowiek-komputer oraz różnorodności typów wypowiedzi. Łącznie dla każdego mówcy zarejestrowano 282 słowa, każde w 6 stanach emocjonalnych.

  • Parametry audio

Wypowiedzi nagrywano przy pomocy rejestratora Zoom H4N oraz mikrofonu pojemnościowego AKG C5 Vocal i dynamicznego AKG Shotgun C568. Uzyskane nagrania mają postać plików PCM .wav o parametrach: częstotliwość próbkowania 44 100 Hz, rozdzielczość 16 bit, SNR średnio ok. 40 dB.

  • Struktura i rozmiar bazy

Nagranie każdego mówcy zostało podzielone na części tematyczne (osobno: zdania, tekst ciągły, cyfry, polecenia) znajdujące się w osobnych plikach.

  • Metadane

W warstwie metadanych nagrania oznaczone są akronimem mówcy, informacją, czy mówca jest aktorem oraz nazwą emocji.

  • Aspekty prawne

Nagrania posiadają uregulowaną sytuację prawną, umożliwiającą ich przetwarzanie (zgoda mówców na wykorzystanie naukowe oraz przetwarzanie nagrań w systemach informatycznych technologii mowy, w tym komercyjnych) oraz prezentowanie publiczne (zgoda na anonimowe odtwarzanie na konferencjach, wykładach i prezentacjach systemów technologii mowy). Możliwe jest nabycie licencji na wykorzystanie prezentowanej bazy nagrań do celów naukowych lub komercyjnych.

Fragmenty korpusu: Plugin Adobe Flash Plugin jest niezbędny do obejrzenia tej zawartości.

Twórcy zapraszają do skorzystania z oferty techmo.pl. Techmo jest spółką spin-off która specjalizuje się w przetwarzaniu mowy i audio.

Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014