Dokument: Partial Orders and Progressive Blocking: A Matching-based Framework for Large-scale Entity Resolution in Bibliographic Data

Titel:Partial Orders and Progressive Blocking: A Matching-based Framework for Large-scale Entity Resolution in Bibliographic Data
Weiterer Titel:Teilordnungen and progressives Blocking: Ein Matching-basiertes Framework für skalierende Entitätenauflösung in bibliographischen Datensätzen
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=62212
URN (NBN):urn:nbn:de:hbz:061-20230411-132939-9
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Backes, Tobias [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]2,77 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 14.03.2023 / geändert 14.03.2023
Beitragende:Prof. Dr. Dietze, Stefan [Gutachter]
Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr.-Ing. Dietz, Laura [Gutachter]
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Entity resolution (ER) is the task of grouping entity mentions by the real-world object they refer to. It is central to ordering and aggregating knowledge in the growing amount of available structured, semi-structured and unstructured information. At its core, ER determines whether the similarity between two entity representations is sufficient to indicate equivalence. From a technical point of view, the most essential aspect is not how to compute this similarity, but how to discover the most similar pairs efficiently. As it is infeasible to compare all mention pairs, dedicated techniques must be used to structure or partition the search space. This is known as similarity search. A simple approach is to establish a prior grouping based on selected key features or combinations thereof. This is known as (hash-based) blocking and is limited in mod- elling intransitive matching relationships. Alternative heuristics like alphabetical order can be used to suggest mention pairs in the order of their approximated coreference likelihood. This is known as progressive resolution. Progressive methods have focused on alphabetically sorting string-based entity representations, which optimistically assumes that coreference likelihood can be approximated as a total order. In this thesis, we suggest to partially order entity represen- tations instead, as the subset partial order is better suited to model the matching relationships between sets of features. A notion of neighborhood as has been previously defined for total or- ders (e.g. alphabetical sorting) or continuous spaces (e.g. space partitioning) can also be defined on partial orders and exploited for progressive resolution. In this thesis, we explore opportu- nities of partially ordering entity mentions to develop a generalized set-based framework that can be adapted to ER tasks such as progressive author disambiguation, hierarchical affiliation resolution and large-scale duplicate detection. In a series of works, we have explored the topics of clustering, blocking and progressive resolution in the context of author disambiguation. This was followed by experiments with hierarchical resolution of affiliation strings and billion-scale blocking for detecting duplicate publication records. In the process, a modular entity resolution framework was refined that consists of the steps (1) representation, (2) specification, (3) general- ization, (4) separation, (5) collocation and (6) conflation. Entity mentions are (1) represented as sets of attribute-value pairs, which are in some cases (2) isolated by specification if they are not informative enough. Further, (3) hypothetical representations are added by removing features that are not required for blocking equivalence. The result corresponds to sufficient overlaps for blocking equivalence. Then, (4) the representations are separated into super-blocks consisting of representations that are somehow connected in the subset partial order, which is built ex- plicitly in (5) collocation. Finally, (6) edge-weights based on observation counts can be used in the partial order’s directed acyclic graph to progressively contract edges, thereby merging nodes (blocks) to increase the size of clustering tasks. Each development step in the series of publications related to this thesis has been evaluated on gold datasets for different application scenarios in the domain of bibliographic data. Thereby, we have proven the practicability of our approach, shown where it outperforms existing baselines and where current limitations call for further research. The description of our works is complemented by a brief discussion of each individual publication and embedded in the body of existing literature by an integrative introduction and preliminaries chapter as well as a dedicated related work chapter. In the final chapter, we conclude how we have been able to design a novel ER approach that is unique in how it combines a number of beneficial properties in a modular and easily adaptable framework. From a number of inherent limitations, we derive tasks for future work before summarizing our contributions and how they have addressed gaps in the existing ER literature.

Die Entitätenauflösung (ER) ist die Aufgabe, Erwähnungen von Entitäten nach dem Objekt der realen Welt zu gruppieren, auf das sie sich beziehen. Sie ist von zentraler Bedeutung für das Einordnen und Zusammenfassen von Wissen in der wachsenden Menge an verfügbaren strukturierten, halbstrukturierten und unstrukturierten Informationen. In ihrem Kern bestimmt ER, ob die Ähnlichkeit zwischen zwei Entitätsrepräsentationen ausreicht, um Äquivalenz zu signalisieren. Aus technischer Sicht besteht der wichtigste Aspekt nicht darin, wie diese Ähnlichkeit berechnet wird, sondern wie die ähnlichsten Paare effizient ermittelt werden können. Da es nicht möglich ist, alle Erwähnungspaare zu vergleichen, müssen spezielle Techniken eingesetzt werden, um den Suchraum zu strukturieren oder zu partitionieren. Dies wird als Ähnlichkeitssuche bezeichnet. Ein einfacher Ansatz besteht darin, eine vorherige Gruppierung auf der Grundlage ausgewählter Schlüsselmerkmale oder deren Kombinationen vorzunehmen. Dies wird als ( Hash-basiertes ) Blocking bezeichnet und ist nur begrenzt geeignet, intransitive Übereinstimmungsbeziehungen zu modellieren. Alternative Heuristiken wie die alphabetische Reihenfolge können verwendet werden, um Erwähnungspaare in der Rangfolge ihrer angenäherten Koreferenzwahrscheinlichkeit vorzuschlagen. Dies wird als progressive Resolution bezeichnet. Progressive Methoden haben sich auf die alphabetische Sortierung von stringbasierten Entitätsrepräsentationen konzentriert, was die optimistische Annahme zugrunde legt, dass die Koreferenzwahrscheinlichkeit als totale Ordnung approximiert werden kann. In dieser Arbeit schlagen wir stattdessen eine partielle Ordnung von Entitätsrepräsentationen vor, da die Teilmengenordnung besser geeignet ist, die Übereinstimmungsbeziehungen zwischen Merkmalsmengen zu modellieren. Ein Begriff der Nachbarschaft, wie er zuvor für totale Ordnungen (z. B. alphabetische Sortierung) oder kontinuierliche Räume (z. B. Raumpartitionierung) definiert wurde, kann auch für partielle Ordnungen definiert und für die progressive Resolution genutzt werden. In dieser Arbeit untersuchen wir die Möglichkeiten der partiellen Ordnung von Entitätserwähnungen, um ein verallgemeinertes mengenbasiertes Framework zu entwickeln, das an ER-Aufgaben wie progressive Autorendisambiguierung, hierarchische Affiliationsauflösung und massenhafte Duplikaterkennung angepasst werden kann. In einer Reihe von Arbeiten haben wir die Themen Clustering, Blocking und progressive Resolution im Kontext der Autorendisambiguierung untersucht. Es folgten Experimente mit der hierarchischen Auflösung von Affiliation Strings und dem Blocking im Umfang von Milliarden zur Erkennung von Publikationsduplikaten. Dabei wurde ein modulares Framework zur Entitätsauflösung verfeinert, das aus den Schritten (1) Repräsentation, (2) Spezifikation, (3) Generalisierung, (4) Separierung, (5) Kollokation und (6) Zusammenführung besteht. Entitätserwähnungen werden (1) als Mengen von Attribut-Wert-Paaren dargestellt, die in einigen Fällen (2) durch Spezifikation isoliert werden, wenn sie nicht informativ genug sind. Darüber hinaus werden (3) hypothetische Repräsentationen hinzugefügt, indem Merkmale entfernt werden, die für die Blockbildung nicht erforderlich sind. Das Ergebnis entspricht hinreichenden Übereinstimmungen für die Blockgleichheit. Dann werden (4) die Repräsentationen in Superblöcke aufgeteilt, die aus Repräsentationen bestehen, die in irgendeiner Weise in der Teilmengenordnung verbunden sind, welche wiederum explizit in (5) Kollokation gebildet wird. Schließlich können (6) Kantengewichte, die auf der Beobachtungsanzahl basieren, im gerichteten azyklischen Graphen der partiellen Ordnung verwendet werden, um Kanten schrittweise zu kontrahieren und dadurch Knoten (Blöcke) zu verschmelzen, um die Größe der Clusteringaufgaben zu erhöhen. Jeder Teilschritt der Entwicklung in der Veröffentlichungsreihe zu dieser Arbeit wurde an Golddatensätzen für verschiedene Anwendungsszenarien im Bereich bibliographischer Daten evaluiert. Dabei haben wir die Praxistauglichkeit unseres Ansatzes bewiesen und aufgezeigt, wo er bestehende Baselines übertrifft und wo aktuelle Einschränkungen weitere Forschung erfordern. Die Beschreibung unserer Arbeiten wird durch eine kurze Diskussion jeder einzelnen Publikation ergänzt und durch ein integratives Einführungs- und Vorbereitungskapitel sowie ein eigenes Kapitel über einschlägige Arbeiten in den Korpus der vorhandenen Literatur eingebettet. Im letzten Kapitel fassen wir zusammen, wie es uns gelungen ist, einen neuartigen ER-Ansatz zu entwickeln, der eine Reihe von vorteilhaften Eigenschaften in einem modularen und leicht anpassbaren Framework vereint. Aus einer Reihe von inhärenten Einschränkungen leiten wir Aufgaben für die zukünftige Arbeit ab, bevor wir unseren Beitrag zusammenfassen und darlegen, wie er Lücken in der bestehenden ER-Literatur geschlossen hat.
Lizenz:Creative Commons Lizenzvertrag
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik
Dokument erstellt am:11.04.2023
Dateien geändert am:11.04.2023
Promotionsantrag am:04.08.2022
Datum der Promotion:14.02.2023
english
Benutzer
Status: Gast
Aktionen