h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Model-based speech enhancement exploiting temporal and spectral dependencies = Modellbasierte Sprachverbesserung unter Ausnutzung zeitlicher und spektraler Abhängigkeiten



VerantwortlichkeitsangabeThomas Esch

ImpressumAachen : Mainz 2012

UmfangXIV, 162 S. : Ill., graph. Darst.

ReiheAachener Beiträge zu digitalen Nachrichtensystemen ; 32


Zugl.: Aachen, Techn. Hochsch., Diss., 2012


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2012-01-31

Online
URN: urn:nbn:de:hbz:82-opus-40354
URL: https://publications.rwth-aachen.de/record/64091/files/4035.pdf

Einrichtungen

  1. Lehrstuhl und Institut für Nachrichtengeräte und Datenverarbeitung (613310)

Inhaltliche Beschreibung (Schlagwörter)
Störgeräusch (Genormte SW) ; Korrelation (Genormte SW) ; Sprachverarbeitung (Genormte SW) ; Kalman-Filter (Genormte SW) ; Ingenieurwissenschaften (frei) ; Sprachverbesserung (frei) ; Störgeräuschreduktion (frei) ; Kalman Filter (frei) ; künstliche Bandbreitenerweiterung (frei) ; speech enhancement (frei) ; noise reduction (frei) ; artificial bandwidth extension (frei)

Thematische Einordnung (Klassifikation)
DDC: 620

Kurzfassung
Die Benutzung des Mobiltelefons ist heutzutage aus dem alltäglichen Gebrauch der meisten Menschen nicht mehr wegzudenken. Mittlerweile ist der Informationsaustausch via Sprache zu jedem Zeitpunkt von fast jedem Ort der Welt aus möglich. Obwohl die Vision nach einer permanenten Erreichbarkeit und Konnektivität inzwischen fast weltweit realisiert worden ist, besteht weiterhin der Bedarf, die existierenden Kommunikationssysteme hinsichtlich Sprachqualität und Sprachverständlichkeit zu verbessern. Der Hörkomfort kann insbesondere bei der Sprachübertragung aus gestörten Umgebungen durch akustische Hintergrundstörungen, wie beispielsweise Verkehrslärm oder Bürogeräuschen erheblich beeinträchtigt werden. In dieser Arbeit wird ein neuartiges, modellbasiertes Sprachverbesserungssystem zur einkanaligen Störgeräuschreduktion vorgestellt. Im Gegensatz zu konventionellen Verfahren steht bei den entwickelten Algorithmen die Ausnutzung zeitlicher und spektraler Abhängigkeiten von Sprach- und Störsignalen explizit im Fokus. Zur Berücksichtigung der zeitlichen Korrelation wird ein modifiziertes Kalman-Filter im Frequenzbereich abgeleitet. Wichtigste Neuerungen bilden hierbei die Verwendung einer komplexwertigen Prädiktion zur Schätzung der aktuellen DFT-Koeffizienten von Sprache und Störung sowie der Einsatz von SNR-abhängigen MMSE-Schätzregeln, welche an die gemessenen Statistiken des Eingangssignals angepasst sind. Um zusätzlich spektrale Abhängigkeiten von Sprachsignalen auszunutzen, zeigt diese Arbeit als neue Möglichkeit auf, Techniken der künstlichen Bandbreitenerweiterung für ein breitbandiges Störgeräuschreduktionssystem zu nutzen. Das vorgestellte Konzept verwendet dabei das bereits prozessierte und verbesserte Signal von tiefen Frequenzen erneut, um die Ergebnisse einer konventionellen Störreduktion bei höheren Frequenzen zu verbessern. Darüber hinaus beschäftigt sich diese Arbeit mit wirksamen Gegenmaßnahmen zur Reduzierung von sogenannten Musical Tones und bietet eine neuartige Lösung zur Unterdrückung von zeitlich stark veränderlichen, harmonischen Störungen. Alle entwickelten Verfahren zur Sprachverbesserung wurden in der vorliegenden Arbeit anhand von instrumentellen Messungen und subjektiven Höreindrücken ausgiebig bewertet und evaluiert. Im Vergleich zu konventionellen Verfahren der Störgeräuschreduktion stellte sich dabei heraus, dass die vorgestellten Algorithmen in Bezug auf Stördämpfung und Sprachverzerrungen deutlich bessere Ergebnisse erzielten. Das neue modellbasierte System ist dabei nicht auf die Anwendung in Mobiltelefonen beschränkt. Es kann zusätzlich verwendet werden, um die Sprachqualität von Freisprecheinrichtungen, Konferenzsystemen oder digitalen Hörgeräten zu verbessern.

Mobile telephony has become an integral part of everyday life for billions of people around the world. The exchange of information via speech is nowadays possible from almost all places at anytime. However, even though the vision of permanent reachability and connectivity has been realized in the meantime nearly worldwide, there is still room for improvements when it comes to the transmission of speech under noisy conditions. The performance of any speech communication system may significantly deteriorate when the speech signal is disturbed by ambient interferences such as traffic noise or office noise, possibly leading to a poor speech quality and intelligibility. In this thesis, a novel model-based speech enhancement system is presented which performs single-channel noise reduction of degraded speech signals. In contrast to state-of-the-art noise suppression techniques, the developed algorithms explicitly exploit temporal and spectral dependencies of speech and noise signals. To account for the temporal correlation, a modified Kalman filter is derived in the frequency domain. As main novelties, the proposed solution performs complex-valued prediction of speech and noise DFT coefficients and uses SNR-dependent MMSE estimators which are adapted to measured statistics of the input signal. In order to incorporate the spectral dependencies of speech signals, a new wideband speech enhancement system is presented which utilizes techniques known from artificial bandwidth extension. The developed method re-uses the processed and enhanced signal from lower frequencies to improve the results of a conventional noise suppression technique at higher frequencies. As additional part, this work proposes effective countermeasures to reduce the occurrence of musical noise and provides a novel solution for the suppression of rapidly time-varying harmonic noise. All developed speech enhancement techniques within this thesis are thoroughly evaluated by means of instrumental measurements and auditory judgments. It turns out that the proposed algorithms achieve distinctly better results compared to state-of-the-art approaches with respect to noise attenuation and speech distortions. The novel model-based system is not restricted to the application in mobile phones. It can be used in addition to improve the speech quality of hands-free devices, conferencing systems or digital hearing aids.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-125445
Datensatz-ID: 64091

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
613310

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)