h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Statistical models for hierarchical phrase-based machine translation = Statistische Modelle für die hierarchische phrasenbasierte maschinelle Übersetzung



Verantwortlichkeitsangabevorgelegt von Diplom-Informatiker Matthias Huck

ImpressumAachen 2018

Umfang1 Online-Ressource (ix, 142 Seiten) : Illustrationen


Dissertation, RWTH Aachen University, 2018

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2019


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2018-08-01

Online
DOI: 10.18154/RWTH-2019-06141
URL: http://publications.rwth-aachen.de/record/763198/files/763198.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
computational linguistics (frei) ; machine translation (frei) ; natural language processing (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Maschinelle Übersetzungssysteme übersetzen Texte automatisch aus einer natürlichen Sprache in eine andere. Der dominierende Ansatz zur maschinellen Übersetzung war für viele Jahre die phrasenbasierte statistische maschinelle Übersetzung. In der statistischen maschinellen Übersetzung werden probabilistische Modelle aus Trainingsdatengelernt, und ein Dekoder führt eine Suche durch, um basierend auf den Modellbewertungen die beste Übersetzung eines Eingabesatzes zu bestimmen. Phrasenbasierte Systeme stützen sich auf elementare Übersetzungseinheiten, die aus zusammenhängenden bilingualen Sequenzen von Wörtern bestehen, sogenannten Phrasen. Der hierarchische Ansatz zur statistischen maschinellen Übersetzung erlaubt Phrasen mit Lücken. Formal kann das hierarchische Phraseninventar als eine synchrone kontextfreie Grammatik repräsentiert werden, die aus bilingualem Text induziert wird, und das hierarchische Dekodieren kann mit einer parsingbasierten Prozedur durchgeführt werden. Das Paradigma der hierarchischen phrasenbasierten maschinellen Übersetzung ermöglicht eine konsistente Art und Weise der Modellierung von Umordnungen und Abhängigkeiten über weite Distanzen. Die üblichen statistischen Modelle, die die hierarchische Suche leiten, sind recht ähnlich zu denjenigen, die in der konventionellen phrasenbasierten Übersetzung eingesetzt werden. In der vorliegenden Arbeit werden neuartige Erweiterungen der hierarchischen phrasenbasierten maschinellen Übersetzung mit statistischen Modellen entwickelt, mit einem Hauptaugenmerk auf Methoden, für die keinerlei syntaktische Annotation der Daten erforderlich ist. Es werden im Einzelnen Verbesserungen hierarchischer Systeme mittels erweiterter lexikalischer Modelle erforscht, welche den gesamten Quellsatz als Kontext berücksichtigen. Es werden verschiedene Varianten der lexikalischen Glättung untersucht. Umordnungserweiterungen und ein Modell der Phrasenorientierung für die hierarchische Übersetzung werden eingeführt. Modelle der Worteinfügung und -löschung werden präsentiert. Techniken zum Training hierarchischer Übersetzungssysteme mit Hilfe zusätzlicher synthetischer Daten werden vorgestellt. Und eine Trainingsmethode wird vorgeschlagen, die zusätzliche synthetische Daten verwendet, welche ausgehend von einer Zwischensprache erzeugt wurden. Die Nützlichkeit der Erweiterungen zur Verbesserung der Übersetzungsqualität wird anhand empirischer Evaluation an mehreren Sprachpaaren verifiziert, darunter Arabisch→Englisch, Chinesisch→Englisch, Französisch→Deutsch, Englisch→Französisch und Deutsch→Französisch.

Machine translation systems automatically translate texts from one natural language to another. The dominant approach to machine translation has been phrase-based statistical machine translation for many years. In statistical machine translation, probabilistic models are learned from training data, and a decoder is conducting a search to determine the best translation of an input sentence based on model scores. Phrase-based systems rely on elementary translation units that are continuous bilingual sequences of words, called phrases. The hierarchical approach to statistical machine translation allows for phrases with gaps. Formally, the hierarchical phrase inventory can be represented as a synchronous context-free grammar that is induced from bilingual text, and hierarchical decoding can be carried out with a parsing-based procedure. The hierarchical phrase-based machine translation paradigm enables modeling of reorderings and long-distance dependencies in a consistent way. The typical statistical models that guide hierarchical search are fairly similar to those employed in conventional phrase-based translation. In this work, novel extensions with statistical models for hierarchical phrase-based machine translation are developed, with a focus on methods that do not require any syntactic annotation of the data. Specifically, enhancements of hierarchical systems with extended lexicon models that take global source sentence context into account are investigated; various lexical smoothing variants are examined; reordering extensions and a phrase orientation model for hierarchical translation are introduced; word insertion and deletion models are presented; techniques for training of hierarchical translation systems with additional synthetic data are suggested; and a training method is proposed that utilizes additional synthetic data which is created via a pivot language. The beneficial impact of the extensions on translation quality is verified by means of empirical evaluation on various language pairs, including Arabic→English, Chinese→English, French→German, English→French, and German→French.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020113873

Interne Identnummern
RWTH-2019-06141
Datensatz-ID: 763198

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2019-06-25, last modified 2023-04-08


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)