Learning Audio Representations for Cross-Version Retrieval of Western Classical Music

Zalkow, Frank

Learning Audio Representations for Cross-Version Retrieval of Western Classical Music

Files

16777_2021_Zalkow_Thesis-PhD_submittedUB.pdf (8.1 MB)

Language

en

Document Type

Doctoral Thesis

Issue Date

2021-07-12

Issue Year

2021

Authors

Zalkow, Frank

Abstract

Ongoing digitization efforts lead to vast amounts of music data, e.g., audio and video recordings, symbolically encoded scores, or graphical sheet music. Accessing this data in a convenient way requires flexible retrieval strategies. One access paradigm is known as “query by example,” where a short music excerpt in a specific representation is given as a query. The task is to automatically retrieve documents from a music database that are similar to the query in certain parts or aspects. This thesis addresses two different cross-version retrieval scenarios of Western classical music, where the aim is to find the database’s audio recordings that are based on the same musical work as the query. Depending on the respective scenario, one requires task-specific audio representations to compare the query and the database documents. Various approaches for learning such audio representations with deep neural networks are proposed, leading to improvements in the efficiency of the search and the quality of the retrieval results.

In the first scenario, the query is a short audio snippet. The retrieval is based on audio shingles, which are short sequences of chroma features capturing properties of the harmonic and melodic content of the audio recordings. The comparison between the query and the recordings from the database is realized by a nearest-neighbor search of the audio shingles. The thesis contains various contributions to increase the efficiency of the retrieval procedure in this scenario. In order to reduce the dimensionality of the shingles, deep-learning-based embedding techniques are used. Furthermore, a graph-based index structure for efficient nearest-neighbor search is applied. These adaptations lead to substantial improvements in terms of runtime and memory requirements.

In the second scenario, a symbolically encoded monophonic musical theme is used as a query. The retrieval is based on a sequence-alignment algorithm relying on chroma-based audio features. This scenario is more challenging than the first one because the query (monophonic symbolic theme) and the database documents (audio recordings of polyphonic music) are fundamentally different from each other. The thesis contains various contributions to improve the retrieval results in this scenario. On the one hand, a novel dataset for musical themes is introduced that is helpful for evaluation purposes and supervised training procedures. On the other hand, various enhanced chroma representations are proposed for the retrieval task. In particular, a novel chroma-feature variant is introduced, where theme-like structures in the musical content of the audio recordings are enhanced by a deep neural network trained with a loss function (CTC) that allows for aligning the themes to the audio recordings during the training procedure. The experiments described in this thesis show that the results of the theme-based retrieval task are substantially improved by using this representation.

Abstract

Fortwährende Digitalisierungsbemühungen führen zu großen Mengen an Musikdaten, z. B. Audio- oder Videoaufnahmen sowie symbolisch oder grafisch kodierte Notentexte. Um bequem auf diese Daten zuzugreifen, werden flexible Suchverfahren benötigt. Ein Zugriffsparadigma ist die „Anfrage anhand von Beispielen“, bei dem ein kurzer Musikausschnitt in einer spezifischen Darstellung als Anfrage verwendet wird. Die Aufgabe besteht darin, automatisch Dokumente in einer Musikdatenbank zu finden, die der Anfrage ähneln. Diese Dissertation befasst sich mit zwei versionsübergreifenden Suchszenarien für westliche klassische Musik, bei denen es darum geht, Audioaufnahmen in einer Datenbank zu finden, die auf demselben Musikwerk wie die Anfrage basieren. Abhängig vom jeweiligen Szenario sind aufgabenspezifische Audiodarstellungen erforderlich, um die Anfrage und die Datenbankdokumente zu vergleichen. Es werden verschiedene Ansätze zum Lernen solcher Darstellungen mit neuronalen Netzwerken vorgestellt, welche die Effizienz der Suche und die Qualität der Ergebnisse verbessern.

Im ersten Szenario ist die Anfrage ein kurzer Audioausschnitt. Die Suche basiert auf Audio-Schindeln – kurze Sequenzen von Chroma-Merkmalen, welche harmonische und melodische Eigenschaften des Audioinhalts erfassen. Um die Anfrage mit den Aufnahmen aus der Datenbank zu vergleichen, wird eine Nachbarschaftssuche der Audio-Schindeln durchgeführt. In der Dissertation werden verschiedene Beiträge zur Steigerung der Effizienz des Suchverfahrens in diesem Szenario vorgestellt. Um die Dimensionalität der Schindeln zu verringern, werden auf neuronalen Netzwerken basierende Einbettungstechniken angewendet. Außerdem wird eine graphenbasierte Indexstruktur für die effiziente Nachbarschaftssuche eingesetzt. Diese Anpassungen führen zu erheblichen Verbesserungen hinsichtlich Laufzeit und Speicherbedarf.

Im zweiten Szenario wird ein symbolisch codiertes monophones Thema als Anfrage verwendet, wobei die Suche auf der Sequenzalignierung von Chroma-Merkmalen basiert. Das Szenario ist anspruchsvoller als das erste, da sich die Anfrage (monophones symbolisches Thema) und die Datenbankdokumente (Audioaufnah- men polyphoner Musik) grundlegend unterscheiden. In der Dissertation werden verschiedene Beiträge zur Verbesserung der Suchergebnisse in diesem Szenario vorgestellt. Zum einen wird ein neuer Datensatz für Themen vorgestellt, der Auswertungszwecken und überwachten Trainingsprozeduren dient. Zum anderen werden verschiedene verbesserte Chroma-Merkmale für die Aufgabe vorgeschlagen. Insbesondere wird eine neue Chroma-Variante eingeführt, bei der themenähnliche Strukturen in den Audiodaten durch ein neurona- les Netzwerk verstärkt werden. Dieses wird mit einer Verlustfunktion (CTC) trainiert, die eine Alignierung von Themen und Aufnahmen während des Trainings ermöglicht. Experimente zeigen, dass die Ergebnisse der themenbasierten Suchaufgabe durch Verwendung dieser Darstellung wesentlich verbessert werden.