Data-Driven Approaches for Tempo and Key Estimation of Music Recordings

Language
en
Document Type
Doctoral Thesis
Issue Date
2020-07-27
Issue Year
2020
Authors
Schreiber, Hendrik
Editor
Abstract

In recent years, we have witnessed the creation of large digital music collections, accessible, for example, via streaming services. Efficient retrieval from such collections, which goes beyond simple text searches, requires automated music analysis methods. Creating such methods is a central part of the research area Music Information Retrieval (MIR). In this thesis, we propose, explore, and analyze novel data-driven approaches for the two MIR analysis tasks tempo and key estimation for music recordings. Tempo estimation is often defined as determining the number of times a person would “tap” per time interval when listening to music. Key estimation labels music recordings with a chord name describing its tonal center, e.g., C major. Both tasks are well established in MIR research. To improve tempo estimation, we focus mainly on shortcomings of existing approaches, particularly estimates on the wrong metrical level, known as octave errors. We first propose novel methods using digital signal processing and traditional feature engineering. We then re-formulate the signal-processing pipeline as a deep computational graph with trainable weights. This allows us to take a purely data-driven approach using supervised machine learning (ML) with convolutional neural networks (CNN). We find that the same kinds of networks can also be used for key estimation by changing the orientation of directional filters. To improve our understanding of these systems, we systematically explore network architectures for both global and local estimation, with varying depths and filter shapes, as well as different ways of splitting datasets for training, validation, and testing. In particular, we investigate the effects of learning on different splits of cross-version datasets, i.e., datasets that contain multiple recordings of the same pieces. For training and evaluation the proposed data-driven approaches rely on curated datasets covering certain key and tempo ranges as well as genres. Datasets are therefore another focus of this work. Additionally to creating or deriving new datasets for both tasks, we evaluate the quality and suitability of popular tempo datasets and metrics, and conclude that there is ample room for improvement. To promote better, transparent evaluation, we propose new metrics and establish a large open and public repository containing evaluation code, reference annotations, and estimates.

Abstract

In den vergangenen Jahren sind große digitale Musiksammlungen entstanden, die – beispielsweise – über Streaming-Dienste einfach zugänglich sind. Ein effizientes Retrieval aus solchen Sammlungen, das über die simple Textsuche hinausgeht, erfordert automatisierte Musikanalysemethoden. Das Erforschen solcher Methoden ist ein zentraler Bestandteil des Forschungsgebiets Music Information Retrieval (MIR). In dieser Arbeit stellen wir neue datengetriebene Ansätze für die beiden MIR-Analyseaufgaben Tempo- und Tonart-Schätzung für Musikaufnahmen vor und analysieren sie. Dabei wird Tempo-Schätzung oft definiert als das Zählen der Male, die eine Person beim Hören von Musik pro Zeitintervall “klopfen” würde. Tonart-Schätzung weist Musikaufnahmen einen Akkordnamen zu, der den Klangmittelpunkt beschreibt, z.B. C-Dur. Beide Aufgaben sind in der MIR-Forschung fest verankert. Um die Tempo-Schätzung zu verbessern, konzentrieren wir uns hauptsächlich auf Defizite bestehender Ansätze, insbesondere Schätzungen auf der falschen metrischen Ebene, den sogenannten Oktavfehlern. Dazu schlagen wir zunächst neue Methoden vor, die sich der digitalen Signalverarbeitung und des traditionellen Feature-Engineerings bedienen. Anschließend formulieren wir die Signalverarbeitungspipeline in eine tiefe, graphenartige Rechenstruktur mit trainierbaren Parametern um. Dies ermöglicht uns einen rein datengetriebenen Ansatz unter Verwendung von überwachtem maschinellem Lernen (ML) mit neuronalen Netzen – insbesondere Convolutional Neural Networks (CNN). Wir stellen fest, dass durch das ändern der Orientierung von gerichteten Filtern, die gleichen Arten von Netzwerken auch für die Tonart-Schätzung verwendet werden können. Um unser Verständnis dieser Systeme zu vertiefen, untersuchen wir systematisch Netzwerkarchitekturen für die globale und lokale Schätzung mit unterschiedlichen Tiefen und Filterformen sowie verschiedenen Datensatz-Splits für Training, Validierung und Test. Insbesondere betrachten wir, welche Auswirkungen das Lernen auf verschiedenen Splits von Cross-Version-Datensätzen hat. Dies sind Datensätze, die mehrere Aufnahmen derselben Stücke enthalten. Für Training und Evaluation stützen sich die vorgeschlagenen datengetriebenen Ansätze auf kuratierte Datensätze, die bestimmte Tonart- und Tempobereiche sowie Genres abdecken. Ein weiterer Schwerpunkt dieser Arbeit liegt daher auf den Datensätzen selbst. Zusätzlich zum Erstellen oder Ableiten neuer Datensätze für beide o.g. Aufgaben evaluieren wir die Qualität und Eignung gängiger Tempo-Datensätze und -Metriken und kommen zu dem Schluss, dass es Raum für Verbesserungen gibt. Um eine bessere, transparentere Evaluation zu fördern, schlagen wir daher neue Metriken vor und etablieren ein großes, offenes und öffentliches Repository mit Evaluationscode, Referenzannotationen und Schätzungen.

DOI
Faculties & Collections
Zugehörige ORCIDs