h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Robust machine translation for multi-domain tasks = Robuste maschinelle Übersetzung für Multi-Domain-Tasks



Verantwortlichkeitsangabevorgelegt von Oliver Bender

ImpressumAachen : Publikationsserver der RWTH Aachen University 2010

UmfangXIII, 141 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2010

Zsfassung in engl. und dt. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2010-03-11

Online
URN: urn:nbn:de:hbz:82-opus-34068
URL: https://publications.rwth-aachen.de/record/63241/files/3406.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Sprachverarbeitung (Genormte SW) ; Maschinelle Übersetzung (Genormte SW) ; Informatik (frei) ; natural language processing (frei) ; machine translation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Arbeit untersuchen und erweitern wir den phrasenbasierten Ansatz zur maschinellen Übersetzung. Dank verbesserter Konzepte und verfeinerter Algorithmen konnte die Qualität der generierten Übersetzungen in den letzten Jahren deutlich verbessert werden. Die Übersetzungsqualität lässt dennoch zu wünschen übrig, geht man von traditionellen Aufgabenstellungen wie der Übersetzung von Zeitungsartikeln zu anspruchsvolleren Problemen über. Ziel dieser Arbeit ist, den aktuellen Stand der Technik in der phrasenbasierten Übersetzung zu verbessern und ein Übersetzungssystem zu entwickeln, welches robust ist und mehrere Domänen unterstützt. Der Fokus liegt hierbei auf Aufgabenstellungen zur Übersetzung aus dem Arabischen ins Englische. Unter Robustheit verstehen wir die Fähigkeit, treffende Übersetzungen auch für Transkriptionen automatisch erkannter Sprache und andere, potentiell verrauschte, Eingabedaten zu liefern. Wir beschreiben und analysieren das Suchproblem der phrasenbasierten, statistischen Übersetzung in allen Einzelheiten. Hierzu untersuchen wir den Effekt der einzelnen Modelle auf die Qualität der Übersetzungen. Zudem treffen wir eine explizite Unterscheidung zwischen Umordnungs- (Abdeckungs-) und lexikalischen Hypothesen während des Prunings. Wir heben die Bedeutung des Prunings der Abdeckungshypothesen hervor, um die Anzahl an Hypothesen zu steuern, die unterschiedliche Wortstellungen (Abdeckungshypothesen) und unterschiedliche lexikalische Darstellungen repräsentieren. Wir zeigen Einschränkungen, die das Umordnungsproblem in der maschinellen Übersetzung lösen. Um unser Übersetzungssystem an mehrfache Domänen anzupassen und um die Robustheit des System zu verbessern, adaptieren wir die Sprachmodelle an die jeweilige Domäne. Mit Hilfe geeigneter Modelle bewerten wir die Hypothesen ein weiteres Mal und aktualisieren die ausgewählten Übersetzungen. Zudem stellen wir unsere Arbeiten vor, die die Vokabularien des Spracherkenners und des Übersetzungssystems angleichen, und Interpunktionszeichen vorhersagen, die in den automatischen Transkriptionen fehlen. Generell stellt die Verarbeitung morphologisch reicher Sprachen besondere Anforderungen an die Vorverarbeitung der Daten. Wir zeigen, dass die Wahl einer geeigneten Strategie für diese Vorverarbeitung von der Domäne und der Charakteristik der Eingabedaten abhängt. Experimentelle Untersuchungen verdeutlichen, wie die Wahl der richtigen Vorverarbeitungsmethode zur Verbesserung der Übersetzungsqualität beitragen kann. Ferner befassen wir uns mit der Aufgabenstellung, die Übersetzungsqualität mit Hilfe von syntaktisch motivierten Feature-Funktionen zu verbessern. Ein weiterer Aspekt ist die Untersuchung verschiedener Ansätze zur Transliteration von Eigennamen, da diese dem Übersetzungssystem häufig unbekannt sind. Schließlich befassen wir uns mit dem Bereich der interaktiven Übersetzung und vergleichen Suchstrategien für den Einsatz in interaktiven Systemen. Das in dieser Arbeit beschriebene System erzielt Ergebnisse, die mit den besten, zur Zeit veröffentlichten Ergebnissen vergleichbar sind. Es wurde im Rahmen der GALE-Evaluationen für die Übersetzungsaufgaben vom Arabischen ins Englische erfolgreich eingesetzt. Des Weiteren gehörte das System zu den besten Systemen bei der "NIST Open Machine Translation Evaluation 2006" sowie für eine Reihe von IWSLT-Evaluationen.

In this thesis, we investigate and extend the phrase-based approach to statistical machine translation. Due to improved concepts and algorithms, the quality of the generated translation hypotheses has been significantly improved in recent years. Still, the translation quality leaves a lot to be desired when going beyond traditional translation tasks, such as newswire articles, and when addressing more ambitious translation problems. We extend the state-of-the-art in phrase-based translation which enables us to build a robust translation system for multi-domain input. Robustness is hereby regarded as the ability to produce high quality translations for arbitrary input texts, e.g. automatic transcriptions of recognized speech or other unstructured, potentially noisy input. In this work, we focus on Arabic-English translation tasks. We study the search problem for phrase-based statistical machine translation in detail. For this, we examine the effect of the different models on the translation quality. Moreover, we make an explicit distinction between reordering (coverage) and lexical hypotheses in the pruning process and stress the importance of the coverage pruning to adjust the balance between hypotheses representing different reorderings (coverage hypotheses) and hypotheses with different lexical representations. We present constraints to solve the reordering problem in machine translation. To trim our translation system for multi-domain input and to improve the robustness built into the decoder, we apply domain adaptation to the language models and rerank the candidate translations using appropriate rescoring models. We also present our work on adjusting the vocabularies of the speech recognizer and the machine translation system in a preprocessing step and on predicting missing punctuation marks for automatically transcribed speech (in the actual translation process). Processing morphologically rich languages such as Arabic generally poses high demands on preprocessing. We show that the choice of the appropriate preprocessing strategy depends on the translation domain and on the structure of the input data. Experimental results emphasize how the proper choice of the preprocessing approach helps to increase the translation quality. In addition, we address the task of improving the translation quality by means of syntactically motivated feature functions within a reranking concept. Then, we investigate different data-driven approaches to the task of transliterating proper names. Often, such names are out-of-vocabulary terms and the intention is to preserve the names by transliteration. Finally, we show how human translators can be assisted by machine translation systems. We compare search strategies for interactive machine translation. The presented machine translation system achieves state-of-the-art performance and has been successfully applied to the large-scale Arabic-English GALE translation evaluations. Furthermore, the system was ranked among the top submissions for the NIST Open Machine Translation Evaluation 2006 and for the series of IWSLT evaluation campaigns.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-124685
Datensatz-ID: 63241

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)