Authormagic: A Concept for Author Disambiguation in Large-Scale Digital Libraries

Language
en
Document Type
Doctoral Thesis
Issue Date
2012-03-05
Issue Year
2012
Authors
Weiler, Henning
Editor
Abstract

Author name ambiguities distort the quality of information discovery in digital libraries. These ambiguities also contribute to the inaccurate attribution of authorship to individual researchers. The latter is especially delicate in research evaluation. To solve this issue, many algorithmic bulk disambiguation approaches have been proposed in the literature. However, no algorithmic approach can solve author ambiguities with an accuracy of 100%. Some online projects allow users to manually create publication lists, which are then regarded as profiles of the researchers. The tedious work to manually assemble such publication lists and the unavailability of scientific material in these projects limit the success of these projects. The “Authormagic” concept is developed in this thesis to address the author ambiguity issue with a hybrid approach of combining algorithmic and human intelligence. A customized agglomerative clustering approach first determines publication clusters by comparing available metadata. These clusters ideally represent publication profiles of authors. Users of the digital library can then use an interface to make decisions about the correctness of the algorithmic attributions. Every (operator-approved) decision feeds back into the algorithm to increase the overall matching quality in consecutive runs of the algorithm. The concept also targets the need for sustainable disambiguation solutions that are capable of rapidly updating information in an ever-growing publication landscape. Dedicated online processes incrementally update the cluster information, while an offline process continuously re-clusters information. All processes are constrained by unquestionable and invariable user decisions. The Authormagic concept is shown on the example of INSPIRE, a hand-curated database containing the literature corpus of the entire field of High-Energy Physics (HEP). The metadata in INSPIRE is a great basis for the algorithmic part, while a data-quality-cautious community drives the crowd-sourced intelligence acquisition. The algorithm results are evaluated in comparison to the decisions of users. The evaluation results show that the algorithmic approach is an improvement over non-disambiguated searches. The created author profiles contain more accurate publication and bibliometric statistics than before the disambiguation. Overall can be stated that the concept of combining algorithmic and human intelligence can lead to 100% correct author information, if all researchers participate in the decision-making process. The identified requirements for the Authormagic to be successfully implemented in a digital library are: 1) qualitative and complete metadata and 2) a participating community. The reached data quality in combination with the proposed sustainability strategy makes way for novel author-centric services and meaningful bibliometrics.

Abstract

Mehrdeutigkeiten von Autorennamen verfälschen oftmals die Resultate von Suchanfragen in digitalen Bibliotheken. Zusätzlich erschweren diese Mehrdeutigkeiten die korrekte Zuordnung von wissenschaftlichen Dokumenten zu den auf den Dokumenten genannten Erstellern. Letzteres ist besonders problematisch in der Bewertung von Forschung und Wissenschaft. In der Literatur wurden einige Ansätze vorgestellt, die dieses Problem algorithmisch lösen sollen. Jedoch ist kein rein-algorithmischer Ansatz in der Lage, diese Mehrdeutigkeiten zu 100% zu lösen. Einzelne Projekte bieten Internetnutzern eine Möglichkeit zur Erstellung von Publikationslisten. Eine manuelle Erstellung ist allerdings zum einen sehr zeitaufwendig und zum anderen enthalten die Datenbanken dieser Projekte potentiell nur einen Bruchteil der Publikationen eines Autors. Das „Authormagic“ Konzept wurde in der vorliegenden Arbeit entwickelt, um das Problem der Mehrdeutigkeiten mit einem Hybridansatz zu lösen. Dieser Ansatz kombiniert algorithmische und menschliche Intelligenz. Zunächst wird ein hierarchischer Algorithmus zur Bildung von Publikationslisten verwendet. Die so gebildeten Listen sind idealerweise die Listen von real-existierenden Autoren. Nutzer der digitalen Bibliothek können dann Entscheidungen über die Korrektheit von algorithmischen Zuordnungen treffen. Diese Entscheidungen werden von den Kuratoren der digitalen Bibliothek geprüft und freigegeben. Jede freigegebene Entscheidung trägt beim nächsten algorithmischen Prozess zur Entscheidungsfindung bei. Verschiedene Prozesse, die den Datenbestand aktualisieren und inkrementell neu gruppieren, stellen die Nachhaltigkeit von dem Konzept sicher. Das Authormagic Konzept wurde im Rahmen von INSPIRE entwickelt. INSPIRE ist eine digitale Bibliothek mit einer sehr gut erschlossenen Datenbank mit Metadaten von Dokumenten aus dem Bereich der Hochenergiephysik (HEP). Neben den Metadaten trägt die datenqualitätsbewusste HEP Nutzergesellschaft zur erfolgreichen Umsetzung des Konzepts in INSPIRE bei. Die Qualität des algorithmischen Teils konnte anhand von Nutzerentscheidungen in INSPIRE evaluiert werden. Die Resultate der Evaluierung zeigen, dass Ergebnisse von autor-spezifischen Suchanfragen durch die Auflösung von Mehrdeutigkeiten deutlich präziser wurden. Generell kann festgestellt werden, dass eine vollkommene Datenqualität erreicht werden kann, wenn sich alle Individuen am Prozess der Entscheidungsfindung beteiligen. Die identifizierten Voraussetzungen für eine erfolgreiche Umsetzung des Konzepts in einer digitalen Bibliothek sind: 1) qualitative und vollständige Metadaten und 2) eine Nutzergemeinschaft, die sich am Entscheidungsfindungsprozess beteiligt. Die Auflösung von Mehrdeutigkeiten bereitet den Weg für neuartige und autoren-zentrische Dienste sowie aussagekräftige bibliometrische Analysen.

DOI
Document's Licence
Faculties & Collections
Zugehörige ORCIDs