Logo Logo
Hilfe
Hilfe
Switch Language to English

Duda, Florian (10. Februar 2021): "Was war oder ist Ihre schönste, tollste und angenehmste Kindhitserinnerung?". Ein sprachwissenschaftlicher Ansatz zur Machine-Learning-Datengenerierung. In: Ballis, Anja; Gloe, Markus; Duda, Florian; Heindl, Fabian; Hüttl, Ernst und Schwendemann, Lisa (Hrsg.): Interaktive 3D-Zeugnisse von Holocaust-Überlebenden. Eckert. Dossiers, Bd. 1. Braunschweig: Georg-Eckert-Institut für internationale Schulbuchforschung. S. 43-62 [PDF, 1MB]

Abstract

Das Training von Systemen, die auf Maschinenlernen basieren, kann ein herausforderndes Unterfangen darstellen. Diese Herausforderungen sind oftmals eng mit Fragen nach der Quantität und Qualität der verwendeten Datensätze verbunden, um zu gewährleisten, dass solche Systeme auch nach den Testphasen im freien Feld verlässliche Ergebnisse liefern (Sessions/Valtorta 2006). Betrachtet man Chatbots bzw. kognitive virtuelle Assistenten, die auf der Verarbeitung von natürlicher Sprache basieren und für Interaktionsaufgaben mit zufälligen Nutzer*innen konzipiert wurden, wird dieses Problem umso deutlicher, da von signifikanten Abweichungen zwischen bereits vorhandenen Testdaten und neuen Nutzereingaben in den Bereichen der Sprachqualität als auch des transportierten Inhalts ausgegangen werden kann. Im Sommer 2019 entwickelte der Autor ein systematisches, sprachwissenschaftliches Modell, das es einem sogenannten interaktiven digitalen Zeugnis ermöglichen soll, eine möglichst hohe Trefferquote bei der Zuordnung von neuen Nutzereingaben zu bereits vorhandenen Datensätzen zu erzielen. In dem folgenden deskriptiven Forschungsbericht soll die Notwendigkeit der vorgenommenen Datengenerierung bzw. -variation anhand des Korpus von Fragen, die im Dezember 2018 dem jüdischen Zeitzeugen Abba Naor gestellt wurden, beleuchtet werden, um daran anschließend auf die Entwicklung des zu diesem Zweck konzipierten Modells einzugehen. Abschließend sollen einige mit diesem Ansatz einhergehende ethische und sprachwissenschaftliche Schwierigkeiten im Licht der interaktiven digitalen Zeugnisse diskutiert werden.

Dieser Forschungsbericht deckt folgende Aspekte ab:

Eine allgemeine Einführung in die Grundprinzipien des Maschinenlernens und die Anwendung von Maschinenlernen in den interaktiven digitalen Zeugnissen des LediZ-Projekts.

Die Beleuchtung der mit der Datengenerierung und -variation einhergehenden ethischen und sprachwissenschaftlichen Fragen.

Die Beschreibung des sprachwissenschaftlichen Modells zur Datengenerierung bzw. -variation.

Abstract

Training machine learning systems can be challenging, and these challenges are often closely linked to the quality and quantity of the datasets required to ensure that such systems continue to deliver reliable results when the test phase is complete (Sessions/Valtorta 2006). When it comes to setting up chatbots or cognitive virtual assistants, which process natural language and are designed to interact with random users, that problem becomes even more evident as user input can deviate enormously from test input, both in terms of speech quality and content. In summer 2019, the author developed a systematic linguistic model that would enable an interactive digital testimony to achieve the highest possible hit rate when assigning new user input to existing data sets. This descriptive research report outlines the importance of data generation and variation, specifically based on the corpus of questions put to the Jewish contemporary witness Abba Naor in December 2018. The report then describes the development of the model conceived for this purpose before finally discussing the ethical and linguistic issues of the described methodology for the field of digital testimonies.

This paper will cover the following aspects:

An introduction to the general principles of machine learning and its application in the creation of digital interactive testimonies within the LediZ-Project.

A discussion of the ethical and linguistic issues associated with this kind of data generation and variation.

A description of the linguistic model used for data generation and variation.

Dokument bearbeiten Dokument bearbeiten