h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Combining natural language processing systems to improve machine translation of speech = Kombinieren von Sprachverarbeitungssystemen zur Verbesserung der maschinellen Übersetzung gesprochener Sprache



Verantwortlichkeitsangabevorgelegt von Evgeny Matusov

ImpressumAachen : Publikationsserver der RWTH Aachen University 2009

UmfangX, 178 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2009

Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2009-12-10

Online
URN: urn:nbn:de:hbz:82-opus-31977
URL: https://publications.rwth-aachen.de/record/51615/files/3197.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Maschinelle Übersetzung (Genormte SW) ; Sprachverarbeitung (Genormte SW) ; Informatik (frei) ; machine translation (frei) ; speech recognition (frei) ; natural language processing (frei) ; statistical machine translation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Maschinelle Übersetzung gesprochener Sprache ist eine anspruchsvolle Aufgabe, die mehrere Softwaremodule aus dem Gebiet der Sprachverarbeitung einbezieht. Das Gesprochene in einer natürlichen Sprache muss zuerst automatisch mit Hilfe eines Spracherkennungssystems transkribiert werden. Danach kann die Transkription der gesprochenen Äußerung in eine andere natürliche Sprache mit einem maschinellen Übersetzungssystem übersetzt werden. Ferner kann es notwendig sein, die Satzgrenzen und Interpunktionszeichen automatisch einzufügen. In den letzten Jahren konnte eine enorme Verbesserung der Qualität der automatischen Sprachübersetzung beobachtet werden. Besonders die statistischen Ansätze für die Spracherkennung und maschinelle Übersetzung haben sich als effektiv auf einer Vielzahl von Übersetzungsaufgaben mit kleinem und großem Vokabular erwiesen. Jedoch bleiben noch viele Probleme ungelöst. Insbesondere werden die Systeme, die in der Übersetzung gesprochener Sprache involviert sind, häufig unabhängig voneinander entwickelt und optimiert. Das Ziel dieser Dissertation ist, die Qualität der Übersetzung gesprochener Sprache zu steigern, indem die Schnittstelle zwischen den verschiedenen Sprachverarbeitungssystemen verbessert wird, die an dieser Aufgabe beteiligt sind. Die komplette Kette der Sprachübersetzung wird in Angriff genommen: automatische Spracherkennung; automatische Satzsegmentierung und Bestimmung der Satzzeichen; maschinelle Übersetzung unter Verwendung mehrerer Systeme, die entweder die beste automatisch erkannte Wortfolge oder mehrere Spracherkennungshypothesen als Eingabe nehmen und verschiedene Übersetzungsmodelle einsetzen; Kombination der Ausgabe der verschiedenen Übersetzungssysteme. Die Koppelung zwischen den verschiedenen Komponenten wird durch Kombination von Modellbewertungen und/oder Hypothesen erreicht, sowie durch Entwicklung neuer und Erweiterungen existierender Algorithmen mit dem Ziel, mehrdeutige Eingabe zu verarbeiten oder die Anforderungen der nachgeschalteten Module zu erfüllen. Außerdem werden Modelparameter der Komponenten auf die Verbesserung im Hinblick auf die Übersetzungsqualität optimiert. Der Hauptfokus dieser Arbeit ist eine engere Koppelung zwischen Spracherkennung und maschineller Übersetzung. Dafür werden zwei mit unterschiedlichen statistischen Modellen aufgebaute, phrasenbasierte Übersetzungssysteme erweitert, um die mehrdeutige Ausgabe der Spracherkennung in der Form von Wortgraphen zu verarbeiten. Ein neuartiger Algorithmus für wortgraph-basierte Übersetzung wird beschrieben, der eine umfangreiche Umordnung auf der Phrasenebene in der Suche erlaubt. Die experimentelle Ergebnisse weisen signifikante Verbesserungen der Übersetzungsqualität auf. Diese Verbesserungen kommen durch Vermeidung harter Entscheidungen im Spracherkennungssystem zustande, in dem der Pfad im Wortgraph mit der wahrscheinlichsten Übersetzung ausgewählt wird basierend auf der Kombination von Bewertungen der statistischen Erkennungs- und Überesetzungsmodelle. Die Bedingungen, bei denen solche Verbesserungen erwartet werden sollen, wurden in einer Vielzahl von Experimenten auf mehreren Übersetzungsaufgaben mit kleinem und großem Vokabular ermittelt. Ein anderer wichtiger Teil dieser Arbeit ist die Kombination von mehreren Übersetzungssystemen. Verschiedene maschinelle Übersetzungssysteme neigen dazu, verschiedene Fehler zu machen. Um diese Eigenschaft auszunutzen, wird eine Methode vorgeschlagen, die eine Konsensübersetzung aus der Ausgabe mehrerer Übersetzungssysteme berechnet. Der Ansatz ist, eine Übereinstimmung zwischen der Systeme auf Wortebene zu bestimmen. Dafür wird eine neue statistische Methode für die Alignierung und Umordnung der Übersetzungshypothesen eingesetzt. Mit Hilfe dieser Methode wird ein Confusion Network (Verwechselungsnetzwerk) für eine gewichtete Mehrheitsentscheidung aufgebaut. Eine Konsensübersetzung wird Wörter und Phrasen enthalten, auf die sich mehrere Systeme einigen und die deshalb eine hohe Wahrscheinlichkeit haben, korrekt zu sein. Das Ziel bei der Übersetzung gesprochener Sprache kann unter anderem sein, die Übersetzungssysteme zu kombinieren, die entweder nur die besten erkannten Wortfolgen oder Wortgraphen verarbeiten können. Die entwickelte Methode für die Systemkombination hatte höchstsignifikante Verbesserungen der Übersetzungsqualität zur Folge im Vergleich mit dem besten Einzelsystem auf einer Vielzahl von Text- und Sprachübersetzungsaufgaben. Dabei wurden viele dieser Verbesserungen in offiziellen Wettbewerben mit starkem internationalen Teilnehmerfeld erzielt, bei denen die Qualität der maschinellen Übersetzungen sowohl mit automatischen Fehlermaßen als auch durch menschliche Bewertungen evaluiert wurde.

Machine translation of spoken language is a challenging task that involves several natural language processing (NLP) software modules. Human speech in one natural language has to be first automatically transcribed by a speech recognition system. Next, the transcription of the spoken utterance can be translated into another natural language by a machine translation system. In addition, it may be necessary to automatically insert sentence boundaries and punctuation marks. In recent years, a tremendous progress in improving the quality of automatic speech translation could be observed. In particular, statistical approaches to both speech recognition and machine translation have proved to be effective on a large number of translation tasks with both small and large vocabularies. Nevertheless, many unsolved problems remain. In particular, the systems involved in speech translation are often developed and optimized independently of each other. The goal of this thesis is to improve speech translation quality by enhancing the interface between various statistical NLP systems involved in the task of speech translation. The whole pipeline is considered: automatic speech recognition (ASR); automatic sentence segmentation and prediction of punctuation marks; machine translation (MT) using several systems which take either single best or multiple ASR hypotheses as input and employ different translation models; combination of the output of different MT systems. The coupling between the various components is reached through combination of model scores and/or hypotheses, development of new and modifications of existing algorithms to handle ambiguous input or to meet the constraints of the downstream components, as well as through optimization of model parameters with the aim of improving the final translation quality. The main focus of the thesis is on a tighter coupling between speech recognition and machine translation. To this end, two phrase-based MT systems based on two different statistical models are extended to process ambiguous ASR output in the form of word lattices. A novel algorithm for lattice-based translation is proposed that allows for exhaustive, but efficient phrase-level reordering in the search. Experimental results show that significant improvements in translation quality can be obtained by avoiding hard decisions in the ASR system and choosing the path in the lattice with the most likely translation according to the combination of recognition and translation model scores. The conditions under which these improvements are to be expected are identified in numerous experiments on several small and large vocabulary MT tasks. Another important part of this work is combination of multiple MT systems. Different MT systems tend to make different errors. To take advantage of this fact, a method for computing a consensus translation from the outputs of several MT systems is proposed. In this approach, a consensus translation is computed on the word level and includes a novel statistical approach for aligning and reordering the translation hypotheses so that a confusion network for weighted majority voting can be created. A consensus translation is expected to contain words and phrases on which several systems agree and which therefore have a high probability of being correct. In the application to speech translation, the goal can be to combine MT systems which translate only the single best ASR output and those systems which can translate word lattices. The proposed system combination method resulted in highly significant improvements in translation quality over the best single system on a multitude of text and speech translation tasks. Many of these improvements were obtained in official and highly competitive evaluation campaigns, in which the quality of the translations was evaluated using both automatic error measures and human judgment.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-113888
Datensatz-ID: 51615

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)