Korpus emocji w mowie

Powstały w AGH korpus nagrań jest jedynym w Polsce usystematyzowanym zbiorem nagrań emocji odgrywanych dostępnym w ramach licencji.

  • Rodzaj emocji

Korpus zawiera nagrania wyrażające pięć spośród emocji podstawowych (radość, smutek, złość, strach, zdziwienie), ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Ironia/sarkazm/drwina nie jest emocją w rozumieniu teorii emocji podstawowych, można uznawać ją za emocję złożoną, postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. W aspekcie zawartości informacji w sygnale mowy - ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści.

  • Mówcy i treść

W nagraniach wzięło udział 12 mówców (6 kobiet, 6 mężczyzn) w wieku 20-30 lat. Część z nich to profesjonalni aktorzy lub amatorzy, a część - studenci wolontariusze. Po uprzednim zapoznaniu się z tekstami, mówcy zostali poproszeni o przeczytanie ich kolejno w sposób wyrażający poszczególne emocje. Dla każdego mówcy zarejestrowano nagrania o tej samej treści (około 10 minut dla każdego mówcy). Treść nagrań stanowią pojedyncze słowa (cyfry, polecenia sterujące), zdania dialogowe (46 zdań z naturalnych codziennych rozmów) oraz jeden tekst ciągły. Treść dobrano tak, żeby była możliwie neutralna i nie indukowała konkretnej emocji. Treść zaprojektowano pod kątem użycia w interfejsach człowiek-komputer oraz różnorodności typów wypowiedzi. Łącznie dla każdego mówcy zarejestrowano 282 słowa, każde w 6 stanach emocjonalnych.

  • Parametry audio

Wypowiedzi nagrywano przy pomocy rejestratora Zoom H4N oraz mikrofonu pojemnościowego AKG C5 Vocal i dynamicznego AKG Shotgun C568. Uzyskane nagrania mają postać plików PCM .wav o parametrach: częstotliwość próbkowania 44 100 Hz, rozdzielczość 16 bit, SNR średnio ok. 40 dB.

  • Struktura i rozmiar bazy

Nagranie każdego mówcy zostało podzielone na części tematyczne (osobno: zdania, tekst ciągły, cyfry, polecenia) znajdujące się w osobnych plikach. Łączna wielkość zarchiwizowanych danych (całego korpusu) to 1.5 GB.

  • Metadane

W warstwie metadanych nagrania oznaczone są akronimem mówcy, informacją, czy mówca jest aktorem oraz nazwą emocji.

  • Aspekty prawne

Nagrania posiadają uregulowaną sytuację prawną, umożliwiającą ich przetwarzanie (zgoda mówców na wykorzystanie naukowe oraz przetwarzanie nagrań w systemach informatycznych technologii mowy, w tym komercyjnych) oraz prezentowanie publiczne (zgoda na anonimowe odtwarzanie na konferencjach, wykładach i prezentacjach systemów technologii mowy). Możliwe jest nabycie licencji na wykorzystanie prezentowanej bazy nagrań do celów naukowych lub komercyjnych.

Fragmenty korpusu: Plugin Adobe Flash Plugin jest niezbędny do obejrzenia tej zawartości.

Korpus emocji w mowie został zlicencjonowany Uniwersytetowi Adama Mickiewicza w Poznaniu, Techmo sp. z o.o., Krakowskiej Akademii im. Andrzeja Frycza Modrzewskiego oraz UMCS.

Copyright © Zespół Przetwarzania Sygnałów AGH 2011-2014