h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Soft features for statistical machine translation of spoken and signed languages = Weiche Merkmale für die statistisch-maschinelle Übersetzung von gesprochenen und gebärdeten Sprachen



Verantwortlichkeitsangabevorgelegt von Daniel Stein

ImpressumAachen : Publikationsserver der RWTH Aachen University 2012

UmfangX, 139 S. : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2012


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2012-01-18

Online
URN: urn:nbn:de:hbz:82-opus-39839
URL: https://publications.rwth-aachen.de/record/64579/files/3983.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Maschinelle Übersetzung (Genormte SW) ; Nederlandse Gebarentaal (Genormte SW) ; Deutsche Gebärdensprache (Genormte SW) ; Automatische Sprachanalyse (Genormte SW) ; Informatik (frei) ; statistical machine translation (frei) ; German sign language (frei) ; automatic language analysis (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Ziel der statistisch-maschinellen Übersetzung ist eine Überführung von unbekannten Sätzen aus einer Quellsprache in eine Zielsprache. Zu diesem Zweck werden durch statistische Analyse aus bestehenden zweisprachigen Datensammlungen Regeln zur Übersetzung extrahiert. Mittels eines probabilistischen Ansatzes werden mehrere alternative Sätze generiert, die durch Merkmalsfunktionen bewertet werden. Die Alternative mit der höchsten zugewiesenen Wahrscheinlichkeit wird dann als Übersetzung ausgegeben. In dieser Arbeit wird der Einfluß von mehreren, meist linguistisch motivierten, Merkmalsfunktionen auf die Qualität der statistisch-maschinellen Übersetzung untersucht. Durch die beschriebenen Funktionen wird keine der Alternativen völlig verworfen, so dass die Variabilität des Übersetzers erhalten bleibt. Analysiert werden Sprachpaare gesprochener Sprachen (z.B. Deutsch, Englisch oder Chinesisch) untereinander. Die Arbeit beschäftigt sich auch mit der automatischen Gebärdensprachübersetzung als Spezialfall der maschinellen Übersetzung. Es wird zunächst auf die Besonderheiten der Gebärdensprache als Kommunikationsmittel eingegangen. Bestehende Datensammlungen werden analysiert, außerdem werden der RWTH-Phoenix Corpus und der Corpus NGT vorgestellt, die im Rahmen der Doktorarbeit erweitert wurden bzw. entstanden sind. Dann werden die beiden Datensammlungen eingehend auf Eignung zur maschinellen Übersetzung geprüft. Aufgrund ihrer relativ geringen Größe ist eine Anpassung der bestehenden Verfahren sinnvoll. So kann durch Einsatz von (in der maschinellen Übersetzung eher unüblichen) Kreuzvalidierung eine signifikanten Verbesserung der Übersetzungsqualität erreicht werden. Auch durch morpho-syntaktische Vor- und Nachverarbeitung gelingt es in der Übersetzung, einen wohlgeformteren Satz zu finden bzw. mit die zusammengesetzten Wörter im Deutschen besser zu erfassen. Neben dem Vergleich zweier Übersetzungsparadigmen werden auch Verfahren aus der Systemkombination erfolgreich auf diese Sprachrichtung eingesetzt.

The goal of statistical machine translation is a transfer of unknown sentences from a source language into a target language. For this purpose, automatic rules are derived from bilingual data collections. Through a probabilistic principle, many alternative sentences are generated which are evaluated by several feature functions. The alternative with the highest probability is selected as the actual translation. In this dissertation, the influence of several, mostly linguistically motivated, feature functions on the translation quality of statistical machine translation is evaluated. With these functions, no alternative will be rendered void, in order to preserve the variability of the translation process. Several language pairs like Chinese-English and German-French will be analyzed. This dissertation also deals with sign languages as a special case of statistical machine translation. Sign languages introduce, due to their distinct modality, several challenges into the overall architecture. Existing data collections are evaluated, and the RWTH-Phoenix corpus and the Corpus NGT are introduced. Because of their relatively small size, an adaption of conventional approaches is useful. For example, the usage of cross-valdiation, which is more uncommon in machine translation, a significant improvement of the translation quality can be acheived. With morpho-syntactic pre- and post-processing, the translation fluency improves and the compound words can be worked in more smoothly. We compare two translation paradigms, and employ system combination for an overall architecture, as well.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-125876
Datensatz-ID: 64579

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)