Article
Objektive Analyse des akustischen Signals auf Basis gehaltener Vokale
Search Medline for
Authors
Published: | September 26, 2022 |
---|
Outline
Zusammenfassung
Hintergrund: Ziel des DFG-Projekts „Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie“ ist die objektive Graduierung funktioneller Dysphonie auf Basis synchroner Video- und Audioaufnahmen während der gehaltenen Phonation. Im Rahmen einer Voruntersuchung wurden Parameter aus Akustikaufnahmen des gehaltenen Vokals /a/ extrahiert und zur Unterscheidung von normalen und gestörten Stimmen eingesetzt. Hierbei lag besonders die Bestimmung relevanter quantitativer Parameter im Vordergrund.
Material und Methoden: Insgesamt wurden 610 Aufnahmen von jeweils unterschiedlichen Probanden (366 normal, 244 gestört) verwendet. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H<2 bzw. H≥2 aufweisen. Aus jeder Aufnahme wurden insgesamt 60 Parameter extrahiert, welche u.a. die Periodizität der Grundfrequenz, Signalamplitude und -energie (z.B. Mean Jitter), wie auch das Signal-Rausch-Verhältnis (z.B. CPPS) beschreiben. Zur Bestimmung relevanter Parameter wurde eine Parameterselektion unter Verwendung eines Logistischen Regressors als Klassifikationsmodell durchgeführt. Die verbliebenen Features wurden anschließend mit dem vollständigen Parametersatz hinsichtlich der Klassifikationsgüte verglichen.
Ergebnisse: Im Rahmen der Selektion konnte die Anzahl der Parameter von 60 auf 9 verringert werden. Der reduzierte Parametersatz besteht nahezu vollständig aus spektralen/cepstralen Größen, darunter u.a. die Smoothed Cepstral Peak Prominence und die spektrale Amplitudendifferenz H1A2. Durch die Reduktion der akustischen Parameter wurde ein Anstieg der Klassifikationsgenauigkeit von 78,3% (vollständig) auf 82,6% (reduziert) erreicht.
Diskussion: Das Ergebnis der Parameterreduktion zeigt, dass viele der geläufigen Akustikparameter keinen Mehrwert für die Unterscheidung gesunder und gestörter Stimmen bieten. Grund dafür ist häufig eine hohe Korrelation zwischen den einzelnen Parametern. Die erreichte Klassifikationsgenauigkeit von 82,6% stellt hinsichtlich der objektiven Bewertung funktioneller Dysphonie ein vielversprechendes Ergebnis dar.
Fazit: Bereits mit wenigen akustischen Parametern kann eine hohe Genauigkeit in der objektiven Unterscheidung von normalen und gestörten Stimmen erreicht werden. Vor allem die Berücksichtigung weiterer spektraler/cepstraler Parameter sowie die Kombination akustischer Parameter mit Features aus HSV-Aufnahmen bieten hohes Potential, um die Klassifikationsgenauigkeit weiter zu steigern und eine Graduierung der Stimmstörung zu ermöglichen.
Text
Hintergrund
Ziel des DFG-Projekts „Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie“ ist die objektive Graduierung funktioneller Dysphonie auf Basis synchroner Video- und Audioaufnahmen während der gehaltenen Phonation. Im Rahmen einer Voruntersuchung wurden Parameter aus Akustikaufnahmen des gehaltenen Vokals /a/ extrahiert und zur Unterscheidung von normalen und gestörten Stimmen eingesetzt. Hierbei lag besonders die Bestimmung relevanter quantitativer Parameter im Vordergrund.
Material und Methoden
Insgesamt wurden 610 Aufnahmen von jeweils unterschiedlichen Probanden (366 normal, 244 gestört) verwendet. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H<2 bzw. H≥2 aufweisen. Aus jeder Aufnahme wurden insgesamt 60 Parameter extrahiert, welche u.a. die Periodizität der Grundfrequenz, Signalamplitude und -energie (z.B. Mean Jitter), wie auch das Signal-Rausch-Verhältnis (z.B. CPPS) beschreiben. Zur Bestimmung relevanter Parameter wurde eine Parameterselektion unter Verwendung eines Logistischen Regressors als Klassifikationsmodell durchgeführt. Die verbliebenen Features wurden anschließend mit dem vollständigen Parametersatz hinsichtlich der Klassifikationsgüte verglichen.
Ergebnisse
Im Rahmen der Selektion konnte die Anzahl der Parameter von 60 auf 9 verringert werden (vgl. Abbildung 1 [Abb. 1]). Der reduzierte Parametersatz besteht nahezu vollständig aus spektralen/cepstralen Größen, darunter u.a. die Smoothed Cepstral Peak Prominence und die spektrale Amplitudendifferenz H1A2. Abbildung 2 [Abb. 2] stellt die Klassifikationsgüte des Modells unter Verwendung des vollständigen und reduzierten Parametersatzes anhand verschiedener Metriken dar. Durch die Reduktion der akustischen Parameter wurde u.a. ein Anstieg der Klassifikationsgenauigkeit von 78,3% (vollständig) auf 82,6% (reduziert) erreicht.
Diskussion
Das Ergebnis der Parameterreduktion zeigt, dass viele der geläufigen Akustikparameter keinen Mehrwert für die Unterscheidung gesunder und gestörter Stimmen bieten. Grund dafür ist häufig eine hohe Korrelation zwischen den einzelnen Parametern. Die erreichte Klassifikationsgenauigkeit von 82,6% stellt hinsichtlich der objektiven Bewertung funktioneller Dysphonie ein vielversprechendes Ergebnis dar.
Fazit
Bereits mit wenigen akustischen Parametern kann eine hohe Genauigkeit in der objektiven Unterscheidung von normalen und gestörten Stimmen erreicht werden. Vor allem die Berücksichtigung weiterer spektraler/cepstraler Parameter sowie die Kombination akustischer Parameter mit Features aus HSV-Aufnahmen bieten hohes Potential, um die Klassifikationsgenauigkeit weiter zu steigern und eine Graduierung der Stimmstörung zu ermöglichen.
Förderung
Deutsche Forschungsgemeinschaft (DFG) – DO 1247/8-2