Una aproximación genética a la transcripción automática de música

Repositorio Dspace/Manakin

español português english

Una aproximación genética a la transcripción automática de música

Mostrar el registro completo del ítem

Título: Una aproximación genética a la transcripción automática de música
Autor: Reis, Gustavo Miguel Jorge dos
Resumen: La transcripción de música es un proceso que pretende extraer una notación musical legible por las personas, tal como una partitura, a partir de una señal acústica. De este modo, la transcripción automática de música es el proceso en el que un computador extrae la notación deseada de la fuente audio. La transcripción automática de música es un área de investigación que además de encuadrarse en ciencias de la computación, toca varias disciplinas, incluyendo procesamiento digital de señales, aprendizaje máquina, psicoacústica, percepción de tono, teoría musical y también conocimiento musical y teoría cognitiva. La transcripción automática de música es una tarea extremadamente difícil, que ha sido ya abordada en varias tesis doctorales. A pesar del número de intentos de resolver el problema, un sistema de propósito general para transcripción automática, práctico y aplicable no ha sido desarrollado hasta la fecha. Más aún, los sistemas disponibles en la actualidad no alcanzan el nivel de eficacia y flexibilidad desarrollado por músicos profesionales. Entendemos aquí el problema de la transcripción automática de música como un problema de optimización combinatoria, cuyo objetivo es encontrar la combinación de notas musicales que mejor representa la señal acústica observada. Nuestra propuesta hace uso de codificación dispersa y algoritmos genéticos, que son una muy buena herramienta en para problemas de búsqueda. Utilizando esta aproximación, nuestro método puede trabajar con sonidos que incluyen varias componentes armónicas. Esta tesis presenta las etapas de investigación que se han desarrollado con el fin de aplicar los Algoritmos Genéticos al problema de la Transcripción Automática de Música. Hemos utilizado varias aproximaciones basadas en los algoritmos genéticos para resolver el problema de estimación múltiple de frecuencias (tonos), comenzando primero con un modelo simplificado (sintetizado) de instrumentos musicales, para después pasar a trabajar con grabaciones realizadas con instrumentos musicales reales. En cada experimento hemos aplicado diferentes modelos y herramientas teóricas (espectros logarítmicos y lineales, filtros, cepstrum, cepstral h́ıbrido y análisis espectral, autocorrelación, etc.) para buscar medidas de similaridad y de error (pasando por distancias Hamming y distancias de áreas de intersección Itakura-Saito, correlación y otras variantes). Hemos trabajado también en el problema de “Sobreentrenamiento armónico” que tiene su origen en las diferencias de timbre, y hemos propuesto un modelo de envoltura espectral para resolverlo. Además hemos empleado esta aproximación en señales musicales que utilizan diferentes instrumentos, para mostrar la capacidad para trabajar en problema multi-timbre. También presentamos un nuevo modelo para estimación múltiple de frecuencias fundamentales en grabaciones de piano. Proponemos un esquema basado en los algoritmos genéticos para analizar los solapamientos de los armónicos durante la búsqueda de la combinación más correcta de frecuencias fundamentales. El proceso de búsqueda es ayudado por un proceso de modelado adaptativo de la forma del espectro y de una estimación dinámica del nivel de ruido en las muestras de piano, para que coincida con el piano real presente en la señal de entrada, ayudando aśı al proceso de búsqueda. Hemos comparado nuestros resultados con los obtenidos por varios algoritmos del “estado del arte” utilizando varias piezas musicales ejecutadas sobre diferentes pianos. El nuevo algoritmo propuesto obtiene un meritorio primer y segundo lugar en las comparativas, dependiendo de la medida de comparación utilizada. También se comparó la nueva propuesta con una aproximación anterior basada en algoritmos genéticos y se observa las significativas mejoras aportadas tanto en calidad como en tiempo de cómputo. Esta tesis doctoral también presenta contribuciones útiles de modo genérico para la Computación Evolutiva. En concreto, la técnica que denominamos “Competición de Fragmentos Genéticos (Gene Fragment Competition, GFC)” puede ser aplicada en problemas descomponibles tanto en procesamiento de señales audio como imágenes. Se realizó un estudio completo para mostrar la utilidad de la técnica en problemas descomponibles. Haciendo uso del modelo modular y jerárquico de las funciones tipo “Royal Road” se han hecho tests que muestran como la nueva técnica puede superar problemas de correlación. Mostramos empíricamente que GFC en general sobrepasan al algoritmo genético estándar, al modelo coevolutivo y también al método de ascenso de colina. La aplicación de descomposición de problemas en bloques es una técnica útil para evitar los problemas de correlación mencionados. A pesar del hecho que la mutación aleatoria asociada a métodos de ascenso de colina han probado en el pasado ser ideales para funciones tipo “Royal Road” hemos mostrado que el nuevo método presentado puede explorar más eficientemente el espacio de búsqueda en estas funciones.Music transcription is the process of extracting human readable notation, like a music score, from an acoustical signal. This way, automatic transcription of music is the process in which a computer program extracts notation from an audio signal. Automatic transcription of music is a research area that, besides computer science, encompasses several disciplines including digital signal processing, machine learning, psychoacoustics and pitch perception, music theory and also music cognition. Automatic transcription of music is an extremely difficult task, which has already been addressed in several doctoral theses. Despite these number of attempts to solve the problem, a practical and applicable, general-purpose transcription system still does not exist the present time. Furthermore, current available systems fall behind skilled human musicians in both accuracy and flexibility. We depict the problem of automatic music transcription as a combinatorial optimization problem where the goal is to find the combination of musical notes that best represents the observed signal. We extend the sparse coding with genetic algorithms, which are a very good tool on search problems. By using sparse approximation, along with evolutionary algorithms, our method is able to cope with harmonic sounds with varying harmonic components. This dissertation presents the several steps of our research on addressing Genetic Algorithms to the problem of Automatic Transcription of Music. We have employed several genetic algorithm approaches to address the problem of multi-pitch estimation, first starting with simple synthesized models of instruments, and then, moving to real audio recordings, performing several experiments. These experiments included different domains and tools (log spectra, linear spectra, filter banks, real cepstrum, hybrid cepstral and spectral analysis, auto correlation and summary auto correlation functions, etc.) for audio similarity measurement and several error measurements (from Hamming and Itakura-Saito distances to area intersection, correlation and other variations). We faced the problem of Harmonic Overfitting, which is related to timbre differences, and proposed a spectral envelope modelling technique to address this issue. Furthermore, we have also employed this approach on musical signals with different audio instruments to show the feasibility of the approach on multi- timbral music. We present a new method for multiple fundamental frequency (F0) estimation on piano recordings. We propose a framework based on a genetic algorithm in order to analyze the overlapping overtones and search for the most likely F0 combination. The search process is aided by adaptive spectral envelope modelling and dynamic noise level estimation: while the noise is dynamically estimated, the spectral envelope of previously recorded piano samples (internal database) is adapted to best match the piano played on the input signals and aid the search process for the most likely combination of F0s. For comparison, several state-of-the-art algorithms were tested on various musical pieces played by different pianos and then compared using three different metrics. The proposed algorithm ranked second place on both Onset Only and Onset-Offset metrics and ranked first place on Hybrid Decay/Sustain Score metric, which has better correlation with the human hear- ing perception. One final comparison is made with a previous genetic algorithm approach to show how the proposed system brings significant improvements on both quality of the results and computing time. This dissertation also presents our contributions to the field of Evolutionary Computation, namely the Gene Fragment Competition approach, which can be used on most decomposable problems in signal or image processing. An analysis of how decomposable approaches are suitable to decomposable problems is presented. We took advantage of the modular and hierarchical structure of the Royal Road functions to use them as test functions and show how single-population decomposable approaches, such as the Gene Fragment Competition, can overcome the spurious correlation or hitchhiking. We show empirically that both Parisian approach and Gene Fragment Competition show, in general, better behaviour than not only the standard genetic algorithm and the multiple- population co- evolutionary approach but also the random mutation hill-climber. Hitch- hiking is known to be, in general, one of the major bottlenecks of the genetic algorithms performance. Therefore, avoiding hitchhiking has the potential to boost the performance of the algorithm. Applying problem decomposition in building blocks is an advantageous optimization technique, since this avoids the hitchhiking phenomena. Despite the fact that the random mutation hill-climber algorithm has proved in the past to be the ideal for the Royal Road functions, we have shown that single population decomposable approaches can explore more efficiently the search space on Royal Road functions. We show empirically that both Parisian approach and Gene Fragment Competition show, in general, better behaviour than not only the standard genetic algorithm and the multiple-population co- evolutionary approach but also the random mutation hill- climber.
Descripción: Tesis doctoral con la Mención de "Doctor Internacional"
URI: http://hdl.handle.net/10662/1776
Fecha: 2014-07-31


Ficheros en el ítem

Ficheros Tamaño Formato Ver
TDUEX_2014_Reis_GM.pdf 5.703Mb PDF Thumbnail

El ítem tiene asociados los siguientes ficheros de licencia:

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro completo del ítem

Atribución-NoComercial-SinDerivadas 3.0 España Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 3.0 España

Buscar en Mi Dehesa


Listar

Mi cuenta

Estadísticas

Ayuda

Redes sociales