Loading…
Thumbnail Image

Noise robust open vocabulary information retrieval in large spoken document collection

Jin, Shan

Immer mehr Multimediadaten werden der Öffentlichkeit zugängig gemacht und die Menge der Daten nimmt dabei rasant zu. Der Großteil dieser multimedialen Dokumenten besteht zudem aus gesprochenen Informationen. Daher stehen die Anwendungen im Vordergrund, die ermöglichen, die gesprochenen Informationen in großen audiovisuellen Datenbeständen wiederzufinden. Der Retrieval-Ansatz von den gesprochenen Informationen (SDR) verläuft folgendermaßen. Die automatische Sprachererkennung (ASR) und Text Information Retrieval werden hintereinandergeschaltet. Das ASR-System transkribierte die gesprochenen Informationen im Text. Das Text Information Retrieval System dient dazu, die gewünschte Information in der ASR-Ausgabe zu finden. Die ASR-Ausgabe enthält Fehler, die häufig durch die Erkennung der out-of-vocabulary (OOV)Wörter, insbesondere bei Nebengeräuschen auf der Audioaufnahme, entstehen. Die Fehler in der ASR-Ausgabe führen zu einem Informationsverlust. Die robuste Informationswiedergewinnung in den fehlerhaften ASR-Ausgaben stellt eine große Herausforderung dar. Diese Dissertation konzentriert sich auf die Untersuchung von robusten SDR-Ansätzen, die mit den Erkennungsfehlern in der ASR-Ausgabe umgehen und die Probleme, die von OOV-Wörtern ausgelöst werden, vermindern können. Die in Literatur beschriebenen SDR-Systeme werden nicht mit einheitlichen Datenbeständen evaluiert. Es fehlt ein gemeinsames Datenbestand, der den Leistungsvergleich zwischen verschiedenen SDR-Systemen ermöglicht. Aus diesem Grund, wird ein Testdatenbestand zusammengestellt. Die in dieser Arbeit verwendeten Testdaten stammen aus dem Wall Street Journal Corpus. Sie beinhalten gesprochene Informationen von unterschiedlichen Rednern, die unter verschiedenen akustischen Umgebungen mit abweichenden Aufzeichnungskanälen aufgenommen wurden. Zu den akustischen Umgebungen gehören z.B. Hintergrundmusik, Gespräche oder nebenläufige Sprachsendungen des Radios. Ein automatisches Spracherkennungssystem (ASR) wurde aufgebaut, um eine Text-Transkription der gesprochenen Informationen zu erstellen. Der Wortschatz des Spracheerkennungssystems umfasst dabei 20000 erkennbare Wörter. Auf unseren Testdaten erreicht dieses Spracherkennungssystem eine Erkennungsfehlerrate (WER) von bis zu 25%. In dieser Arbeit, wird nur der Fall von Ein-Wort Anfragen betrachtet. 13% von den ausgewählten Anfragen sind OOV-Wörter. Der klassische SDR-Ansatz, der auf einer Wort-Transkription der gesprochenen Informationen basiert, wird als Vergleichsbasis (Baselinesystem) aufgebaut. Auf unseren Testdaten erhalt das Baselinesystem ein Mean Average Value (mAP) von 61% und eine maximal Recall Rate (max.RE) von 78%. Zuerst untersuchen wir verschiedene Wort-basierte SDR-Ansätze, die mit Fehlern in der Text-Transkription gesprochener Informationen umgehen können. Die Erkennungsfehler in der ASR-Ausgabe können, durch Einbeziehung von mehreren ASR-Hypothesen, reduziert werden. Mehrere ASR-Hypothesen könnten als N-beste Wortliste, Wortgitter oder Word Confusion Networks (WCN) in der ASR-Ausgabe abgespeichert werden. Verschiedene SDR-Ansätze, die in einer ASR-Ausgabe, die mehrere ASR-Hypothesen beinhaltet, werden untersucht. Die SDR-Ansätze, die auf der ASR-Ausgabe einschließlich der N-beste ASR-Hypothesen (N-best) basieren, wurden zuerst untersucht. Die Ergebnisse dieser Studie zeigen, dass die Anzahl der eingeschlossenen ASR-Hypothesen in der ASR-Ausgabe einen signifikanten Einfluss auf die Informationswiedergewinnungsleistung hat. Der max.RE steigt mit der zunehmenden ASR-Hypothesen (N). Die beste mAP (ca. 85, 4%) beobachtet man bei N = 9. Wir vergleichen verschiedene Gewichtungsschemen wie z.B. tfidf- Gewichtung- undWahrscheinlichkeit-Gewichtungsmethode. Die Ergebnisse zeigen, dass die Wahrscheinlichkeit-Gewichtungsmethode die mAP sich um weitere 0,7% verbessern kann. Die Untersuchung der auf Wortgitter basierenden SDR-Ansätze geht der Frage nach, wie man den Suchraum vern¨unftig reduzieren kann, sodass die Retrieval-Leistung gehalten wird. Der DNLLR-Wert wird für jede Verbindung in dem Wortgitter berechnet. Die Verbindung in dem Wortgitter, deren DNLLR-Wert unter eine Schwelle liegt, wird als ungültig erkannt und gel¨oscht. Die DNLLR-Schwelle ([−118,−90]) wird durch mehrere Versuche eingestellt. Die beste max.RE ist 94, 5% mit einer mAP von 76, 2%. WCN gilt als die kompakteste Form eines Wortgitters. Die Gesamtanzahl der Verbindungen in WCN hat sich im Vergleich zu einem normalen Wortgitter um 76,5% reduziert. Eine max.RE von 95, 2% wird erzielt. Eine Vergleichsuntersuchung wird gemacht, um die Leistung verschiedener Gewichtschemen zu erkunden. Unsere Versuchen haben gezeigt, dass wenn die A-posteriori-Wahrscheinlichkeit der Verbindungen in dem WCN direkt als Term-Gewicht eingesetzt wird, dass dann die Genauigkeit niedriger Recall-Stufe verbessert werden kann. Aber das tfidf-Gewichtschema kann bessere mAP und max.RE erzielen. Ein neues Gewichtschema, das die A-posteriori- Wahrscheinlichkeit und tfidf-Gewicht fr Term-Gewicht miteinander kombiniert, wird vorgestellt. Mit dem neuem Gewichtschema, wird die Anzahl der Suchanfragen, die die richtige Antwort in ersten Rang in der Ergebnisliste stehen (E1), deutlich erhöht. Das neue Gewichtschema hat eine max.RE von 95, 23% und eine mAP von 63, 71% erzielt. Die WCN-basierten SDR-Ansätze erreichen die höchsten max.RE. Die Bedienung der OOV-Suchanfrage von Wort-basierten SDR-Ansätze ist nur dann möglich, wenn mindestens eine von den Methoden (z.B. Suchanfrage-Erweiterung und Dokumente-Erweiterung), im Einsatz ist. Die von Moreau vorgestellte Suchanfrage- Erweiterungsmethode, die die originale Suchanfrage durch seine akustische ähnliche In- Vokabular Wort ersetzt, wird genau untersucht. Die experimentellen Ergebnisse zeigen auch: der Ersatz der OOV-Wörter mit ihrem akustisch ähnlich Eintrag in das Erkennungsvokabular ermöglicht, dass die Wort-basierten SDR-Ansätze die OOV-Anfrage behandeln können. Leider kann diese Lösung nur beschränkte Leistungen erbringen. Daher werden weitere Möglichkeiten untersucht, um die OOV-Probleme zu bekämpfen, wie zum Beispiel die auf Teilwort-Transkription (gesprochener Informationen) basierenden SDR-Ansätze. Das Verfahren der Umwandlung der gesprochenen Informationen in der Text-Transkription entspricht der Indizierungsphase eines Textinformation-Retrieval-Systems. Wir bezeichnen daher die Erkennungseinheit des Spracheerkennungssystems auch als Indizierungseinheit. In dieser Arbeit haben wir die Fähigkeiten verschiedener Teilwort-Indizierungseinheiten in Indizierung und Retrieval auf der Referenztext Transkription der gesprochenen Informationen untersucht. Die experimentellen Ergebnisse bestätigen, dass Teilwort-basierende gesprochene Dokumentabrufsysteme akzeptable Leistung erzielen können. Wir müssen dennoch die Auswahl zwischen Informationenerfassung und -genauigkeit treffen. Die maximale Informationsabdeckung wird mit dem Phon als Indizierungseinheit erreicht. Die Phon-Transkription der gesprochenen Informationen kann man durch die Anwendung eines Phon-Erkennungssystem gewinnen. Mit Hilfe von einem Aussprache-Wörterbuch kann die Phon-Transkription der gesprochenen Informationen auch direkt von der ASR-Wortausgabe bereitgestellt werden. Experimentelle Ergebnisse weisen darauf hin, dass die Phon-Transkription, die durch Nachbearbeitung der ASR-Wortausgabe entstehen wird, weniger Fehler beinhaltet. Daher wird in weiteren Versuchen der monophon-basierten SDR-Ansätze eingesetzt. Phon-Transkription gewinnt mit zweiter Methode werden in folgenden Untersuchung eingesetzt. Die SDR-Ansätze, die auf der Phon-3gram-Transkription der gesprochenen Informationen basiert ist, wurden genau untersucht. Die experimentellen Ergebnisse zeigen, dass die von Phon-3gram-basierte SDR-Ansätze erreichte max.RE generell höher als die von den Wort-basierte SDR-Ansätzen sind. Der SDR-Ansatz mit dem tfidf- Gewichtschema hat eine max.RE von 99,5% und eine mAP von 65,2% erreicht. Der SDR-Ansatz, der die Phon-Abwechslungswahrscheinlichkeit in Term-Gewicht integriert, hat keinen Gewinn in der Retrieval-Genauigkeit gebracht. Ein drastischer Verlust in mAP (ca. 25,3%) ist nicht zu vermeiden. Mit dem SDR-Ansatz, der die Positionsinformationen in Term-Gewicht integriert (Proximity), kann man eine mAP von 69,94% erreichen. Leider kann der Ansatz, der die PSPL auf Phon-3gram erweitert, keinen Gewinn auf der Retrieval-Leistung bringen. Die auf Phon-3gram basierenden SDR-Ansätze können nicht wirklich mit der OOV-Suchanfrage umgehen. Dies wird auch durch Experimenten nachbewiesen. Es wird untersucht, ob die Abfragelänge eine Wirkung auf die Retrieval-Leistung hat. Bei einer langen Suchanfrage, übertrifft der Proximity-Ansatz alle anderen Phon-3gram basierenden SDR-Ansätze. Der Proximity-Ansatz bietet auch bessere max.RE bei kürzeren Suchanfrage an. Diese Aussagen werden mit zusätzlichen statistischen Signifikanz Tests verifiziert. Eins von den Schwerpunkten der Untersuchungen von der Monophon-basierte SDR-Ansätze ist, die Ähnlichkeitsschätzungsmethode, die die Ähnlichkeit zwischen entdecktes Segment und der Suchanfrage bewertet, genau zu erforschen. Die INED-Methode nimmt die normalisierte Edit-Distanz als Ähnlichkeit-Score. Die SSPE-Methode integriert die Phon-Verwechslungswahrscheinlichkeit in die Bewertung der Ähnlichkeiten zwischen dem entdeckten Segment und der Suchanfrage. Die experimentellen Ergebnisse haben gezeigt, dass die INED-Methode bessere Retrieval-Leistung anbietet. Die beste max.RE wird von der INED-Methode erreicht. Die INED-Methode erzielt ähnliche mAP wie Phon-3gram basierter Proximity-Ansatz. Vorherige Forschungsergebnisse haben gezeigt, dass die Wort-basierte SDR-Ansätze hohe mAP bei den in-Vokabular Suchanfragen erzielen können und Phon-basierte SDR-Ansätze ihre Vorteile im Umgang mit OOV-Suchanfragen haben. Basiert auf diese Forschungsergebnisse und die von Lee vorgestellte Information-Fusion Strategie, wird ein neuer Hybrid-Ansatz für den gesprochenen Dokumentenabruf entwickelt. Dieser Ansatz wirkt deutlich robuster im Fall von Erkennungsfehlern und vorkommenden OOV-Suchanfragen. Der neue gesprochene Dokumentabruf-Ansatz basiert auf einer mehrstufigen Transkription der gesprochenen Dokumente. Die mehrstufige Transkription beinhaltet Word-Confusion-Network und die Monophon-Darstellung eines gesprochenen Dokuments. Die experimentellen Ergebnisse zeigen, dass dieser Ansatz eine Mean- Average-Precision von 56,74% erreicht. Im Vergleich zu den SDR-Ansätzen, die nur auf Word-Confusion-Network basieren, erhöht sich die Mean-Average-Precision-Rate um 8,27%. Die maximale Retrieval-Rate dieses Ansatzes erreicht bis zu 91,08%. Als Letztes stellen wir ein Prototyp für das Video-Retrieval-System vor. Wir beschreiben die Hauptelemente von geeigneten Benutzerschnittstellen. Die Funktionsblöcke für die Auswahl von den verschiedenen Retrieval- und Fusionmodulen ermöglicht Benutzer den Systemkern zu konfigurieren. Jetzt befasst dieser Prototyp sich nur mit normalen Abfragen in Textform.
The amount of available spoken information is growing very fast. Consequently, there is an increasing need for effective and efficient approaches for the indexing and retrieval of spoken information. Classical spoken document retrieval systems are often based on the word transcription provided by an automatic speech recognition system. A large vocabulary word recognizer will be used to transcribe spoken documents. If there are only few errors contained in the recognition transcription of spoken documents, this kind of spoken document retrieval approaches could achieve comparable performance to text-based information retrieval. However, the mismatch between training and application conditions will lead to a high rate of recognition errors. At the same time, the size of the vocabulary will grow with the size of data collection. The growing number of unforeseeable words that are not appearing in the recognizable vocabulary (out-of-vocabulary words) have become the main problem that word-based spoken document retrieval system has to deal with. This thesis focuses on the exploration of spoken document retrieval approaches dealing with misrecognition and the problems caused by out-ofvocabulary words. We have collected our test data from the Wall Street Journal Corpus. It includes records made under variation in acoustic environment (background music or talking radio), records made from different channels, and records from different speakers. A 20k word recognizer has been built for transcribing speech into representations. This recognizer can achieve a word-error rate of 25% on our text collection. In this work, we will only consider the case of single-word queries. About 13% of queries are out-ofvocabulary words. Traditional word-based spoken document retrieval system is built as baseline system. It reaches a mean average value of 61% and a maximal recall rate of 78% on our test collection. We first explore different word-based spoken document retrieval approaches dealing with misrecognition errors. Experiments with in-vocabulary queries show that enriching recognition transcription with multiple hypotheses is an effective way to compensate misrecognition errors. The maximal recall rate of 95% is yielded by a spoken document retrieval approach based on the word confusion network. The best mean average precision value of 86% is achieved when performing spoken document retrieval on the recognition transcription, including nine best hypotheses. The experimental results also show that replacing an out-of-vocabulary word with an acoustically similar entry in the recognition vocabulary enables word-based spoken document retrieval systems to deal with out-of-vocabulary words, but with restricted performance. We then study another way to solve the out-of-vocabulary problem using subwords as indexing units. We investigate different indexing units and their ability to index and retrieve text information. The experimental results confirm that indexing spoken document with subword units could achieve acceptable retrieval performance. Nevertheless, we have to make a choice between information coverage and precision. Maximal information coverage could be achieved using phones as indexing units. Different spoken-document retrieval approaches based on phonetic recognition transcriptions are empirically explored in this work.We successfully integrate position information into term weight for phone 3-gram based spoken-document retrieval approaches. This weighting method shows its advantages in dealing with both in-vocabulary and outof- vocabulary queries. The best performance for out-of-vocabulary queries retrieval is yielded by doing probabilistic string matching on mono-phonetic recognition transcription of spoken documents in the collection. We propose a new hybrid approach to spoken document retrieval. This method achieves more robust retrieval by combining spoken document retrieval approaches based on the word confusion network and the monophone recognition transcription. The experimental results show that a mean average precision of 56.47% is reached. In comparison with the word confusion network, the mean average precision is improved by about 8.27%. The maximal retrieval recall with the novel hybrid SDR system reaches 91.08%. We also present a prototype with user interface for video retrieval by speech analysis. This prototype deals with queries in normal text form.