Article
Göttinger Satztest mit synthetischer Sprache
Search Medline for
Authors
Published: | September 12, 2022 |
---|
Outline
Text
Die Entwicklung und Produktion eines Sprachtests, welcher mit einem realen Sprecher aufgenommen wird, ist aufgrund der Aufnahmezeit sowie der anspruchsvollen Nachbearbeitung zeitaufwendig und kostspielig. Als Alternative zu einem natürlichen Sprecher kann heutzutage ein Sprachsynthesesystem (engl. text-to-speech, TTS) verwendet werden. Nuesse et al. [1] zeigten, dass die Sprachverständlichkeit von natürlicher und synthetischer Sprache im Oldenburger Satztest nahezu gleich ist . Mit aktuellen TTS-Systemen sollte nun die Einsetzbarkeit von TTS-Systemen bei Alltagssätzen anhand des Göttinger Satztests untersucht werden. Zunächst beurteilten 14 normalhörende Proband_innen drei verschiedene TTS-Systeme
- ACAPELADNN (Cloud Service von Acapela Group, basiert auf neuralen Netzen),
- ACAPELAUS (Virtual Speaker, Acapela Group Babel Technologies SA, basiert auf Unit Selection) und
- Google Wavenet, basiert auf der Wavenet-Technologie
mit je einem männlichen Sprecher und einer weiblichen Sprecherin hinsichtlich der Qualitätskriterien Prosodie, Natürlichkeit, Sprachfluss und Sprachverstehen mittels MUSHRA-Test (engl. multi stimulus test with hidden reference and anchor). Daraus ergab sich, dass ACAPELADNN unabhängig vom Sprechergeschlecht bei allen Qualitätskriterien am besten abschnitt. Google Wavenet erzielte insbesondere für den männlichen Sprecher zu ACAPELADNN vergleichbare Ergebnisse. Die dazugehörige weibliche Sprecherin wurde hingegen als unnatürlich bewertet. Die Bewertungen von ACAPELAUS waren signifikant am schlechtesten. Basierend auf diesen Ergebnissen wurden die Sätze des Göttinger Satztests [2] mit ACAPELADNN synthetisiert. Mit einer Online-Studie wurde die Sprachverständlichkeit und die Höranstrengung jeweils für das natürliche und synthetisierte Sprachmaterial bei verschiedenen Signal-Rausch-Verhältnissen bestimmt und gegenübergestellt. Die Ergebnisse weisen darauf hin, dass das Sprachverstehen mit den synthetischen Stimmen besser ist als mit dem natürlichen Sprecher. Bei der Höranstrengung sind keine Unterschiede ersichtlich.
Eine Langfassung des Beitrags erhalten Sie hier:
Literatur
- 1.
- Nuesse T, Wiercinski B, Brand T, Holube I. Measuring speech recognition with a matrix test using synthetic speech. Trends in Hearing. 2019; 23:1-14. DOI: 10.1177/2331216519862982
- 2.
- Kollmeier B, Wesselkamp M. Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment. The Journal of the Acoustical Society of America. 1997; 102 (4): 2412-21.