Assessing the applicability of annotation projection methods for coreference relations

Analyse der Qualität von Annotationsprojektionsmethoden für Koreferenzrelationen

  • The main goal of this thesis is to explore the feasibility of using cross-lingual annotation projection as a method of alleviating the task of manual coreference annotation. To reach our goal, we build a first trilingual parallel coreference corpus that encompasses multiple genres. For the annotation of the corpus, we develop common coreference annotation guidelines that are applicable to three languages (English, German, Russian) and include a novel domain-independent typology of bridging relations as well as state-of-the-art near-identity categories. Thereafter, we design and perform several annotation projection experiments. In the first experiment, we implement a direct projection method with only one source language. Our results indicate that, already in a knowledge-lean scenario, our projection approach is superior to the most closely related work of Postolache et al. (2006). Since the quality of the resulting annotations is to a high degree dependent on the word alignment, we demonstrate how using limited syntacticThe main goal of this thesis is to explore the feasibility of using cross-lingual annotation projection as a method of alleviating the task of manual coreference annotation. To reach our goal, we build a first trilingual parallel coreference corpus that encompasses multiple genres. For the annotation of the corpus, we develop common coreference annotation guidelines that are applicable to three languages (English, German, Russian) and include a novel domain-independent typology of bridging relations as well as state-of-the-art near-identity categories. Thereafter, we design and perform several annotation projection experiments. In the first experiment, we implement a direct projection method with only one source language. Our results indicate that, already in a knowledge-lean scenario, our projection approach is superior to the most closely related work of Postolache et al. (2006). Since the quality of the resulting annotations is to a high degree dependent on the word alignment, we demonstrate how using limited syntactic information helps to further improve mention extraction on the target side. As a next step, in our second experiment, we show how exploiting two source languages helps to improve the quality of target annotations for both language pairs by concatenating annotations projected from two source languages. Finally, we assess the projection quality in a fully automatic scenario (using automatically produced source annotations), and propose a pilot experiment on manual projection of bridging pairs. For each of the experiments, we carry out an in-depth error analysis, and we conclude that noisy word alignments, translation divergences and morphological and syntactic differences between languages are responsible for projection errors. We systematically compare and evaluate our projection methods, and we investigate the errors both qualitatively and quantitatively in order to identify problematic cases. Finally, we discuss the applicability of our method to coreference annotations and propose several avenues of future research.show moreshow less
  • Ziel dieser Dissertation ist, die Durchführbarkeit von crosslingualer Annotationsprojektion als Methode zur Erleichterung der manuellen Koreferenzannotation zu erproben. Um dieses Ziel zu erreichen, wird das erste dreisprachige parallele Koreferenzkorpus gebaut, das mehrere Textsorten umfasst. Für die Korpusannotation werden gemeinsame Annotationsrichtlinien entwickelt, die auf drei Sprachen anwendbar sind (Englisch, Deutsch, Russisch) und eine neue domänenunabhängige Typologie von indirekten Wiederaufnahmen und sogenannten Near-Identity-Kategorien enthalten. Danach werden mehrere Projektionsexperimente entworfen und durchgeführt. Im ersten Experiment wird eine direkte Projektionsmethode mit nur einer Ausgangs\-sprache implementiert. Die Ergebnisse zeigen, dass bereits in einem wissensarmen Szenario der vorgeschlagene Projektionsansatz die Resultate der verwandten Arbeit von Postolache et al. (2006) übertrifft. Da die Qualität der resultierenden Annotationen in hohem Maße von der Wortalignierung abhängig ist, zeigen wir, wie dieZiel dieser Dissertation ist, die Durchführbarkeit von crosslingualer Annotationsprojektion als Methode zur Erleichterung der manuellen Koreferenzannotation zu erproben. Um dieses Ziel zu erreichen, wird das erste dreisprachige parallele Koreferenzkorpus gebaut, das mehrere Textsorten umfasst. Für die Korpusannotation werden gemeinsame Annotationsrichtlinien entwickelt, die auf drei Sprachen anwendbar sind (Englisch, Deutsch, Russisch) und eine neue domänenunabhängige Typologie von indirekten Wiederaufnahmen und sogenannten Near-Identity-Kategorien enthalten. Danach werden mehrere Projektionsexperimente entworfen und durchgeführt. Im ersten Experiment wird eine direkte Projektionsmethode mit nur einer Ausgangs\-sprache implementiert. Die Ergebnisse zeigen, dass bereits in einem wissensarmen Szenario der vorgeschlagene Projektionsansatz die Resultate der verwandten Arbeit von Postolache et al. (2006) übertrifft. Da die Qualität der resultierenden Annotationen in hohem Maße von der Wortalignierung abhängig ist, zeigen wir, wie die Verwendung begrenzter syntaktischer Informationen weiterhilft, die Extraktion von referierenden Ausdrücken auf der Zielseite zu verbessern. Im nächsten Schritt, dem zweiten Experiment, demonstrieren wir, wie die Nutzung von zwei Ausgangssprachen zur weiteren Verbesserung der Qualität der Zielannotationen für beide Sprachpaare beiträgt, indem die Annotationen aus zwei Quellsprachen kombiniert werden. Schließlich wird die Projektionsqualität noch in einem vollautomatischen Szenario ausgewertet (mit automatisch erstellten Quellannotationen), und ein Pilotversuch zur manuellen Projektion von Paaren indirekter Wiederaufnahmen vorgestellt. Für jedes Experiment wird eine detaillierte Fehleranalyse durchgeführt. Daraus schließen wir, dass fehlerhafte Wortalignierungen, Übersetzungsdivergenzen und morphologische sowie syntaktische Unterschiede zwischen den Sprachen für die Projektionsfehler verantwortlich sind. Hierzu werden die Projektionsmethoden systematisch verglichen und ausgewertet, und die Fehler sowohl qualitativ als auch quantitativ untersucht, um problematische Fälle zu identifizieren. Zum Schluss wird die Anwendbarkeit unserer Methode für Koreferenzannotationen diskutiert, und es werden Ansatzpunkte für weitere Forschung vorgeschlagen.show moreshow less

Download full text files

Export metadata

Metadaten
Author details:Yulia GrishinaORCiD
URN:urn:nbn:de:kobv:517-opus4-425378
DOI:https://doi.org/10.25932/publishup-42537
Reviewer(s):Manfred StedeORCiDGND, Heike ZinsmeisterGND
Supervisor(s):Manfred Stede
Publication type:Doctoral Thesis
Language:English
Publication year:2019
Publishing institution:Universität Potsdam
Granting institution:Universität Potsdam
Date of final exam:2019/02/12
Release date:2019/03/08
Tag:Annotation; Annotationsprojektion; Koreferenz; Koreferenzauflösung; Koreferenzkorpus; Near-identity; indirekte Wiederaufnahmen; multilinguale Koreferenz
annotation; annotation projection; bridging; coreference corpus; coreference resolution; multilingual coreference; near-identity
Number of pages:viii, 198
RVK - Regensburg classification:ES 900
Organizational units:Humanwissenschaftliche Fakultät / Strukturbereich Kognitionswissenschaften / Department Linguistik
DDC classification:4 Sprache / 40 Sprache / 400 Sprache
License (German):License LogoKeine öffentliche Lizenz: Unter Urheberrechtsschutz
Accept ✔
This website uses technically necessary session cookies. By continuing to use the website, you agree to this. You can find our privacy policy here.