Open demands for corpus analysis tools - a user-centered study

Language
en
Document Type
Doctoral Thesis
Issue Date
2022-02-28
Issue Year
2022
Authors
Lyding, Verena
Editor
Abstract

It was not before the advent of powerful computers that corpus linguistics has developed into a widely applied research methodology. Indeed, corpus linguistics heavily relies on computer-powered analysis tools. They get used on a daily basis by corpus linguists to retrieve examples and analyze authentic data from corpora of extensive sizes. Despite their indisputable importance, repetitive remarks highlight the fact that corpus analysis tools have evolved little since their early days. Concordances, frequency lists and collocation extraction still constitute the core functionalities of most corpus tools.

With the aim to incentivize new functional developments, this thesis presents research on open demands in current corpus research practice and related requirements for tools support. It builds on the assumption that more user-centered research is needed to bridge the gap between mainly computationally trained tool developers and their linguistic expert users, who come with specialized domain knowledge and often sophisticated analytical needs. The research is approached by means of three user investigations that enquire about corpus research workflows and analysis activities as well as theoretical principles and methodological considerations in corpus linguistics research practice. This way a comprehensive picture of the corpus usage situation is assembled by combining insights from open ended enquiries (interviews) with quantitative results on selected aspects of the corpus analysis scenario (questionnaire) derived from enquiries with overall more than 100 corpus users. Based on the results, a range of open demands for corpus research and tools are identified and discussed. They relate to (1) corpus resources, (2) general aspects of tools, (3) corpus analysis procedures, and (4) best practices. The results show that open demands address challenges on very different operational levels, ranging from the availability of corpus resources and reliable annotations, technical requirements related to scalability and interoperability issues, usability and technical and methodological skills up to proper functional demands. The thesis discusses potential paths to address the open demands, and provides pointers to recent developments in corpus linguistics and related fields, in particular computational linguistics and natural language processing as well as linguistic information visualization.

The research contribution of this thesis is twofold. On the methodological level, it elaborates on methods and challenges for user-centered research on tools for open-ended tasks and provides entrance points for further user-centered research by identifying and organizing, as reference, the basic building blocks of corpus linguistics research. On the content level, it provides first insights on user perspectives and needs related to the corpus research practice. It describes concrete demands and discusses paths to their solution. This way, it prepares the ground for further in-depths studies and user-centered developments of new corpus functionalities for specific demands.

Abstract

Mit der Verbreitung leistungsstarker Computer begann die Korpuslinguistik als Forschungsmethode erstmals weitreichende Anwendung zu finden. Tatsächlich bedient sie sich in großem Ausmaß computergestützter Analysewerkzeuge, welche tagtäglich zum Einsatz kommen, um Korpora von beachtlicher Größe zu analysieren. Trotz ihrer zentralen Position wird wiederholt herausgestellt, dass sich auf Funktionenebene seit Anbeginn wenig Neuerungen verzeichnen lassen. Konkordanzen, Frequenzlisten und Kollokationsextraktion bilden bis heute die Kernfunktionen der meisten Korpuswerkzeuge.

Mit dem Ziel neue Entwicklungen anzustoßen, präsentiert diese Arbeit Forschung zu offenen Anforderung in der Korpusforschungspraxis. Unter der Annahme, dass mehr nutzerorientierte Studien erforderlich sind, um die technisch orientierten Entwicklungen von Korpuswerkzeugen mit den oft anspruchsvollen und fachbezogenen Analysebedürfnissen von KorpuslinguistInnen in Einklang zu bringen, wurde die Forschung anhand von drei Nutzerbefragungen umgesetzt, welche Informationen zu Korpusanalyseworkflows und -aktivitäten, sowie zu theoretischen und methodologischen Prinzipien sammeln. Indem Einsichten aus offenen Befragungen (Interviews) mit quantitativen Ergebnissen zu ausgewählten Aspekten des Korpusanalyseszenarios (Fragebogen) aus Befragungen mit insgesamt über 100 TeilnehmerInnen kombiniert wurden, konnte ein umfassendes Bild der Korpusnutzersituation erarbeitet werden. Es mündet in die Beschreibung einer Reihe offener Anforderungen für die korpusbasierte Forschung und Unterstützung durch Werkzeuge, welche bezogen auf vier Aspekte diskutiert werden: (1) Korpusressourcen, (2) allgemeine Aspekte von Werkzeugen, (3) Korpusanalyseprozeduren und (4) Best Practices. Die Ergebnisse zeigen, dass offene Anforderungen sich auf Herausforderungen auf unterschiedlichen operativen Ebenen beziehen. Diese reichen von der Verfügbarkeit von Korpusressourcen und verlässlichen Annotationen, über technische Anforderungen hinsichtlich Skalierbarkeit, Interoperabilität und Nutzerfreundlichkeit, bis hin zu Nutzerskills und schließlich funktionellen Aspekten. Diese Thesis diskutiert potentielle Antworten und Lösungswege und stellt Bezüge zu jüngeren Entwicklungen in der Korpuslinguistik und benachbarten Disziplinen her, insbesondere zu denen der Computerlinguistik, des Natural Language Processing und der Visualisierung linguistischer Daten.

Die Arbeit leistet einen zweifachen Forschungsbeitrag. Auf methodischer Ebene erörtert die Arbeit Herausforderungen und Ansätze für die nutzerzentrierte Forschung zu Werkzeugen für offene Aufgabenstellungen. Auch bietet die Arbeit Einstiegspunkte für weitere nutzerzentrierte Forschung, indem die Grundpfeiler der korpuslinguistischen Forschung identifiziert und systematisch beschrieben werden und somit ein Referenzrahmen, der bisher fehlte, hergestellt wird. Auf inhaltlicher Ebene liefert diese Forschungsarbeit erste Einsichten zu Nutzerperspektiven in Bezug auf die tägliche Praxis der Korpusforschung und leitet daraus eine Reihe von Anforderungen ab. Die Anforderungen werden nach inhaltlichen Gruppen strukturiert beschrieben und Wege zu deren Lösung werden diskutiert. Damit bereitet diese Arbeit den Weg für weitere vertiefende Studien zu Nutzeranforderungen und ermutigt nutzerzentrierte Entwicklungen neuer Korpusfunktionalitäten in Bezug auf die diskutierten Anforderungen.

DOI
Zugehörige ORCIDs