gms | German Medical Science

24. Jahrestagung der Deutschen Gesellschaft für Audiologie

Deutsche Gesellschaft für Audiologie e. V.

14.09. - 17.09.2022, Erfurt

Göttinger Satztest mit synthetischer Sprache

Meeting Abstract

Search Medline for

  • presenting/speaker Saskia Ibelings - Jade Hochschule, Institut für Hörtechnik und Audiologie, Oldenburg, DE
  • Thomas Brand - Universität Oldenburg, Oldenburg, DE
  • Inga Holube - Jade Hochschule, Institut für Hörtechnik und Audiologie, Oldenburg, DE

Deutsche Gesellschaft für Audiologie e.V.. 24. Jahrestagung der Deutschen Gesellschaft für Audiologie. Erfurt, 14.-17.09.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. Doc152

doi: 10.3205/22dga152, urn:nbn:de:0183-22dga1526

Published: September 12, 2022

© 2022 Ibelings et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Die Entwicklung und Produktion eines Sprachtests, welcher mit einem realen Sprecher aufgenommen wird, ist aufgrund der Aufnahmezeit sowie der anspruchsvollen Nachbearbeitung zeitaufwendig und kostspielig. Als Alternative zu einem natürlichen Sprecher kann heutzutage ein Sprachsynthesesystem (engl. text-to-speech, TTS) verwendet werden. Nuesse et al. [1] zeigten, dass die Sprachverständlichkeit von natürlicher und synthetischer Sprache im Oldenburger Satztest nahezu gleich ist . Mit aktuellen TTS-Systemen sollte nun die Einsetzbarkeit von TTS-Systemen bei Alltagssätzen anhand des Göttinger Satztests untersucht werden. Zunächst beurteilten 14 normalhörende Proband_innen drei verschiedene TTS-Systeme

  • ACAPELADNN (Cloud Service von Acapela Group, basiert auf neuralen Netzen),
  • ACAPELAUS (Virtual Speaker, Acapela Group Babel Technologies SA, basiert auf Unit Selection) und
  • Google Wavenet, basiert auf der Wavenet-Technologie

mit je einem männlichen Sprecher und einer weiblichen Sprecherin hinsichtlich der Qualitätskriterien Prosodie, Natürlichkeit, Sprachfluss und Sprachverstehen mittels MUSHRA-Test (engl. multi stimulus test with hidden reference and anchor). Daraus ergab sich, dass ACAPELADNN unabhängig vom Sprechergeschlecht bei allen Qualitätskriterien am besten abschnitt. Google Wavenet erzielte insbesondere für den männlichen Sprecher zu ACAPELADNN vergleichbare Ergebnisse. Die dazugehörige weibliche Sprecherin wurde hingegen als unnatürlich bewertet. Die Bewertungen von ACAPELAUS waren signifikant am schlechtesten. Basierend auf diesen Ergebnissen wurden die Sätze des Göttinger Satztests [2] mit ACAPELADNN synthetisiert. Mit einer Online-Studie wurde die Sprachverständlichkeit und die Höranstrengung jeweils für das natürliche und synthetisierte Sprachmaterial bei verschiedenen Signal-Rausch-Verhältnissen bestimmt und gegenübergestellt. Die Ergebnisse weisen darauf hin, dass das Sprachverstehen mit den synthetischen Stimmen besser ist als mit dem natürlichen Sprecher. Bei der Höranstrengung sind keine Unterschiede ersichtlich.

Eine Langfassung des Beitrags erhalten Sie hier:

https://www.dga-ev.com/fileadmin/dga2022/038.pdf


Literatur

1.
Nuesse T, Wiercinski B, Brand T, Holube I. Measuring speech recognition with a matrix test using synthetic speech. Trends in Hearing. 2019; 23:1-14. DOI: 10.1177/2331216519862982 External link
2.
Kollmeier B, Wesselkamp M. Development and evaluation of a German sentence test for objective and subjective speech intelligibility assessment. The Journal of the Acoustical Society of America. 1997; 102 (4): 2412-21.