Identifizierung von Realwelt-Objekten in multiplen Datenbanken

  • Die Daten von Realwelt-Objekten können in mehreren Datenbanken enthalten sein, ohne daß ein globaler und konsistenter Identifizierer existiert. Wie läßt sich herausfinden, welche der Daten sich auf dieselben Realwelt-Objekte beziehen? Das hier dargestellte allgemeine Modell für die Objektidentifizierung besteht aus den Schritten Konversion, Vergleich und Klassifikation. Es umfaßt zudem: (1) Identifizierungskonzepte, (2) die Softwarearchitektur, (3) Charakteristika der Datenqualität, (4) eine Vorauswahlmethode, die die Effizienz für große Datenbanken sicherstellt (unter Verwendung von Indexstrukturen) und (5) eine Spezifikation für die Evaluation von Verfahren, einschließlich Stichprobenziehung und Qualitätskriterien. Wir bewerteten verschiedene Verfahren mit Wohnungs-, Adreß- und Bibliotheksdaten. Wesentliche Ergebnisse sind, daß die Skalierbarkeit ausschließlich durch die verwandte Vorauswahlmethode und deren Umsetzung bestimmt ist sowie daß das Entscheidungsbaumverfahren eine höhere Korrektheit erreichte und robuster war als RecordDie Daten von Realwelt-Objekten können in mehreren Datenbanken enthalten sein, ohne daß ein globaler und konsistenter Identifizierer existiert. Wie läßt sich herausfinden, welche der Daten sich auf dieselben Realwelt-Objekte beziehen? Das hier dargestellte allgemeine Modell für die Objektidentifizierung besteht aus den Schritten Konversion, Vergleich und Klassifikation. Es umfaßt zudem: (1) Identifizierungskonzepte, (2) die Softwarearchitektur, (3) Charakteristika der Datenqualität, (4) eine Vorauswahlmethode, die die Effizienz für große Datenbanken sicherstellt (unter Verwendung von Indexstrukturen) und (5) eine Spezifikation für die Evaluation von Verfahren, einschließlich Stichprobenziehung und Qualitätskriterien. Wir bewerteten verschiedene Verfahren mit Wohnungs-, Adreß- und Bibliotheksdaten. Wesentliche Ergebnisse sind, daß die Skalierbarkeit ausschließlich durch die verwandte Vorauswahlmethode und deren Umsetzung bestimmt ist sowie daß das Entscheidungsbaumverfahren eine höhere Korrektheit erreichte und robuster war als Record Linkage.show moreshow less
  • Object Identification is essential where real-world objects data are distributed over multiple databases without any global and consistent identifier. We present a generic object identification framework, consisting of three successive steps: Conversion, Comparison, and Classification. In addition, the framework covers: (1) concepts for identification, (2) its software architecture, (3) data quality characteristics, (4) a preselection technique that ensures efficiency for large databases (incorporating suitable index structures), and (5) a prescription for evaluation, including sampling and quality criteria. Based on the framework, methods can be specified, implemented and evaluated w.r.t. to the requirements of an application. We evaluated several methods on real data. One main result is that scalability is determined by the applied preselection technique and its implementation. As another result we can state that Decision Tree Induction achieves better correctness and is more robust than Record Linkage.

Download full text files

Export metadata

Additional Services

Search Google Scholar Stastistics
Metadaten
Author: Mattis Neiling
URN:urn:nbn:de:kobv:co1-000000437
Referee / Advisor:Prof. Dr. Bernhard Thalheim
Document Type:Doctoral thesis
Language:German
Year of Completion:2004
Date of final exam:2004/02/02
Release Date:2007/03/05
Tag:Data integration; De-duplication; Instance integration; Merge/Purge; Record linkage
GND Keyword:Multidatenbanksystem; Objektorientiertes Datenbanksystem; Datensatz; Automatische Identifikation
Institutes:Fakultät 1 MINT - Mathematik, Informatik, Physik, Elektro- und Informationstechnik / FG Datenbanken und Informationssysteme
Institution name at the time of publication:Fakultät für Mathematik, Naturwissenschaften und Informatik (eBTU) / LS Datenbank- und Informationssysteme
Einverstanden ✔
Diese Webseite verwendet technisch erforderliche Session-Cookies. Durch die weitere Nutzung der Webseite stimmen Sie diesem zu. Unsere Datenschutzerklärung finden Sie hier.