Искусственная нейронная сеть как инструмент распознавания музыкальных файлов

Автор: Андрей Кирияк

Waveprint — новый метод для аудиоидентификации. Waveprint использует комбинацию методов компьютерного зрения и алгоритма обработки крупномасштабного потока данных для создания компактных отпечатков аудио данных. Полученная система имеет отличные возможности идентификации для небольших фрагментов аудио, качество которых было испорчено различными способами, в том числе конкурирующим шумом, плохим качеством записи и воспроизведением при помощи сотового телефона. Этот подход является компромиссным между
производительностью, использованием памяти и вычислением с помощью обширных экспериментов.

image


Аудио дактилоскопия* дает возможность получения короткой ссылки без меток, фрагментов аудиоконтента с соответствующими данными об этом контенте. Есть огромное количество приложений для аудио дактилоскопии. В системах управления контентом, это может помочь следить за использованием музыки и другого аудио материала. Эта способность становится все более важной, так как
большее число контента перепрофилируется и рекомбинируется. Это обеспечивает возможность автоматической идентификации и перекрестной ссылки на фоновое аудио, например песни. Пометка песен с помощью имени исполнителя, названия альбома или других метаданных могут быть выполняется автоматически.

Аудио дактилоскопия также позволяет реализовать многочисленные приложения в сфере расширенного телевидения от интерактивности без наложения посторонних аппаратных ограничений до автоматического обнаружения и замены рекламы. В отличие от многих конкурирующих технологий, цель аудио-дактилоскопии заключается в выполнении распознавания без использования каких-либо посторонней информации, такой как водяные знаки или неразборчивые (для человеческого уха) данные, появившиеся до / после передачи.

Есть ряд проблем, которые делают дактилоскопию сложной задачей. Самые простые подходы, заключающиеся в простом прямом
сравнении аудио или спектрограмм аудио, не приведут к успешной работе. Запрашиваемая и сохраненная версии песни могут быть на слух похожи, хотя и имеют четкие битовые отличия. Например, они могут быть записаны с разными настройками качества, схемами сжатия, настройками выравнивания, эталонными кодеками и т.д.; любой из этих факторов сделает простые сравнения неэффективными.

blank

Переходя к методам, которые не требуют точных совпадений на битовом уровне, стоит отметить следующие нюансы. Во-первых, во многих приложениях система должна работать только с короткими фрагментами аудио контента, потому что часто полная песня может
быть недоступной. Во-вторых, так как часто учитываются только фрагменты песни, в подавляющем большинстве реалистичных сценариев нет точного или даже грубого выравнивания аудиоконтента, это может происходить в любом месте песни. Другие трудности возникают при использовании метода в реальном мире. Часто песни «сэмплируются» в других песнях, тем самым делая матчи более двусмысленными. Также определение песен, играемых по радио представляет новый набор трудностей, появляющийся потому, что радиостанции могут изменить скорость песни, чтобы она соответствовала их требованиям программирования. Наконец, существуют трудности, связанные с многочисленными формами воспроизведения, доступными для конечного потребителя. Музыка, которая играет
через мобильный телефон, компьютерные колонки или высококачественное оборудование будет иметь очень разные аудио характеристики, которые должны быть приняты во внимание.

2. Предыдущая работа


Многие аудио-методы дактилоскопии музыкальных треков используют низкоуровневые функции, тем самым осуществляя попытку компактно описать звуковой сигнал без присвоения более высокого уровня значения функциям. Этот подход используется в данном исследовании. Три из наиболее широко упоминаемых подходов в этом классе описаны здесь. Один из них — широко используются системы, применяющие перекрывающиеся окна моноаудио, из которых можно извлечь интересные функции. Перекрытие окна должно быть использовано для поддержания неизменности времени для тех случаев, когда точное время не известно.

blank

Спектральное представление аудио может быть построено при помощи разнообразных методов (путем измерения энергии коэффициентов кепстра MelFrequency (MFCCs) или коэффициентов частотного кепстра (BFCC), в данном исследовании используются 33 полосы BFCC, которые лежат в диапазоне 300-2000 Гц. Каждые 11,6 миллисекунд генерируется подотпечаток, который охватывает кадр
размером в 370 миллисекунд. Большое перекрытие в последовательных кадрах обеспечивает тот факт, что вспомогательные отпечатки медленно меняются со временем. Суботпечатки аудио файла представляют собой вектор из 32 битов, который указывает увеличивается или уменьшается разница в последовательных полосах BFCC в последовательных кадрах. Эти суб-отпечатки в значительной степени
нечувствительны к небольшим изменениям в аудиосигнале, так как фактические значения разницы не сохраняются, вместо этого только появляются обозначения над последовательными кадрами, составляющими суботпечаток. Учитывая это отпечаток аудио файла (последовательность суб-отпечатков аудио файла), проводит простые сравнения, разница между кадрами равна расстоянию Хемминга. Суботпечатки, используемые в различных исследованиях компактны и быстро вычисляются.

blank

Существует подход с той же базовой архитектурой, но реализующей учебный подход в процессе выбора функции. Данный метод дает важное понимание того, что 1-D аудиосигнал может обрабатываться, как изображение при просмотре в двумерном частотно-временном представлении. Учебный подход, основанный на AdaBoost, часто используется в приложениях на основе компьютерного зрения, которые используются для распознавания лиц. Была представлена версия AdaBoost, которая изучает особенности, объединяющие энергию выбранной частоты с течением времени. Продолжительность и частота выбираются с помощью алгоритма AdaBoost, они похожи на«Боклет», в особенности тем, что при их измерении используется средняя интенсивность прямоугольных подобластей изображения спектрограммы. Основа выбора для функций является дискриминационной силой: прямоугольная область в состоянии различать, когда 2 кадра одинаковы (также в случае, если качество одно из них ухудшается из-за шума), и когда они разные. Тридцать две функции выбраны, каждая из которых дает двоичное значение. Для поиска новых запросов их система обрабатывает аудио-изображение для создания 32-битного суб-отпечатка использованием изученных функций. Затем в базе данных производится поиск всех отпечатков в пределах расстояния Хемминга в 2 бита. Мера временной согласованности обеспечивается простой моделью перехода.

blank

Рассмотрен и альтернативный подход — работа представляет дискриминантный анализ искажений (DDA) на основе метода извлечения помехоустойчивых функций из аудио. Особенности данного метода более сложны, чем в предыдущих исследованиях, но также позволяют суммировать более длинные сегменты аудио, чем в других работах. Метод DDA основан на варианте анализа линейного дискриминанта (LDA) и носит название «Анализ ориентированных основных компонентов (OPCA)». OPCA предполагает, что искаженные версии учебных образцов находятся в открытом доступе. OPCA дает набор потенциально неортогональных векторов, которые учитываются для статистики шума. Эксперименты показали, что отпечатки аудио файлов устойчивы к проблемам с выравниванием и различным видам шума, не представленным в тренировочном наборе. OPCA выбирает набор направления для моделирования подпространства, которое максимизирует дисперсию сигнала при минимизации мощности шума. Анализ основных компонентов же находит набор ортогональных векторов, которые максимизируют дисперсию сигнала.

3. Обзор системы


Представленная в данной научной работе система основана на вышеперечисленных идеях: в частности, методы, использующие компьютерное зрение могут быть мощным инструментом для анализа аудио данных. Однако вместо подхода к обучению в статье исследуется применимость вейвлет-подхода, разработанного для эффективного выполнения поисков изображения в больших
базах данных. Чтобы создать масштабный алгоритм, применяется хэширование из области крупномасштабного потока данных и их обработка. Подпечатки аудио-файлов будут более всеобъемлющими, чем используемый в рассмотренных работах, так как они будут представлять более длительный период времени. Каждый компонент системы подробно описан в этом разделе.

В данном исследовании обработка начинается с преобразования аудиовхода в спектрограммы. Для создания спектрограмм используются параметры настройки, которые, как было установлено, хорошо работают в предыдущих исследованиях аудиосъемки. В результате применяются части аудио-файла, продолжительностью 371 мс, интервалом в каждые 11,6 мс, сокращенные до 32 логарифмически разрозненных частотных интервалов между 318 Гц и 2 кГц. Одно важное следствие комбинации параметров «длина среза» и «расстояние»
(срезы продолжительностью 371 мс каждые 11,6 мс) таково, что спектрограмма медленно меняется во времени, обеспечивая соответствующую устойчивость к неопределенности положения (во времени). Использование логарифмического интервала по частоте была выбрана на основе простоты, так как подробные местоположения края полосы не будут имеют сильный эффект при такой грубой выборке (только 32 образца по частоте). Извлекаются спектральные изображения, 11,6 * мс в длину, каждая выборка смещена отдельно. Выборка смещения, применимая в данном исследовании, является постоянной и в процессе создания базы данных, но неоднородной в процессе пробных отборов.

Извлечение спектральных изображений известной длины из спектрограммы позволяет создавать суб-отпечатки аудио-файлов, которые включают некоторую временную структуру, невосприимчивую к постепенному изменению продолжительности кадра. На этом этапе
обрабатываются спектральные изображения, как если бы они были компонентами в системе поиска изображений. Вместо того, чтобы напрямую сравнивать «пиксели» изображения, в работе применяется вейвлет-преобразование. Для каждого из спектральных изображений, которые были заранее созданы, осуществляется извлечение верхних вейвлетов в соответствии с их величиной. Вейвлеты являются математическим инструментом для иерархического разложения функций. Они позволяют описать функцию ее общей формой с последовательно увеличивающимися деталями. Подобно разложению в ряды Фурье, вейвлеты обеспечивают некоторую степень дискретности в соответствии с пространственной частотой. Вейвлеты имеют дополнительные свойство локализованной поддержки, с поддержкой каждого вейвлета происходит охват постоянного количества частотных циклов этой полосы частот вейвлета. Мотивация использовать именно вейвлетовое преобразование в системе аудио поиска заключается в их успешном использовании пр создании
систем поиска изображений. В системе Якобса, прежде чем сравнить изображения непосредственно в пиксельном пространстве, их вначале раскладывают с помощью мульти-разрешения Хаар-вейвлет. Для каждого изображения вычисляется вейвлет-подпись изображения. Подпись вейвлета является усеченной квантованной версией вейвлет-разложения изображения. Система Якобса поддерживает поиск изображений, которые были нарисованы от руки или некачественных эскизов изображения. При этом полученные результаты превосходят те, которые были достигнуты с помощью сопоставления простых гистограмм или пикселей.

Чтобы описать изображение m n с помощью вейвлетов, вейвлетовое представление изображения m n возвращается без сжатия. Само по себе волновое изображение не устойчиво к шуму или ухудшению звука, в нём наблюдаются лишь изменения в этих значениях из-за небольших изменений самого звука (то есть небольшого шума, эха, других звуков, идущих фоном, игра по мобильному телефону и т. д.). Из всего набора вейвлетов при проведении исследования остаются только те, которые больше всего характеризуют песню. Для этого просто выбирается t — верхнее значение вейвлетов (по величине), где t << m n. Если посмотреть на вейвлеты для последовательных изображений, полученных для двух песен, очевидно, что легко идентифицируются шаблоны как в вейвлет-пространстве, так, и даже более четко, когда верхнее значение вейвлетов t сохраняется.

Одним из интересных результатов исследования Джейкобса было то, что у него не было необходимости сохранять коэффициенты для верха вейвлетов. Вместо этого им просто нужно было сохранить знак, присвоенный тому или иному вейвлету. Вейвлет-представление, заложенное в основе данного исследования, должно тщательно контролироваться. Самой важной особенностью этого битового вектора является то, что он редкий.Пространство поддается дальнейшему снижению размерности за счет использования Мин-Хэш.

Последний шаг процесса создания суб-отпечатка заключается в создании разреженного вейвлет-вектора, описанного выше и его компактного представления. В представленном исследовании используется MinHash для вычисления вспомогательных отпечатков для этих разреженных битовых векторов. Фундаментальное требование суб-отпечатков аудио файлов заключается в том, что суб-отпечаток v1 и суб-отпечаток v2 очень похожи, если и только если подпись вейвлета (v1) и подпись вейвлета (v2) также очень похожи. Для доказательства данного обсуждения даны два вектора v1 и v2. При этом типы соответствия названы четырьмя типами a, b, c,
и d, в зависимости от количества битов в векторах. Учитывая эти типы совпадений / несоответствий, стоит отметить, что для разреженных векторов большинство позиций битов будут типа d.

Было проведено сравнение векторов, содержащих некое количество строк, которые имеют тип a: то есть, Sim (v1,v2) = a / (a + b + c).
Непосредственный подход к этой проблеме состоит в том, чтобы просто случайно выбрать набор битовых позиций и использовать их в качестве подписи,но это не сработает. Поскольку векторы редки, результирующие подписи, вероятно, будут похожи, потому что они
в основном будет состоять из 0; однако, это не даст истинного указания на сходство, потому что строки типа а имеют наибольший интерес для анализа их техникой Min-Hash, которая работает следующим образом. Переставить немного позиций к некоторому случайному (но известному) переупорядочению. Тогда, благодаря перестановке, в значении каждого вектора появляется первая «1». Важно отметить, что вероятность first_one_occurrence (v1) = first_one_occurrence (v2) такая же, как вероятность a / (a + b + c): значения хеша корректны, если первая позиция с 1 в любом битовом векторе имеет тип а, и не корректны, если первая такая позиция имеет тип b или с. Обратите внимание, что эта вероятность такая же, как у Sim(v1, v2).

Вышеописанную процедуру при необходимости допустимо повторять несколько раз, каждый раз с новой перестановкой битовых позиций. При повторении процесса обработки p раз с p различными перестановками получается p-проекция битового вектора. Эти значения p являются сигнатурой для битового вектора. Таким образом можно сравнить несколько векторов, глядя на точные совпадения в подписях
длины p. Для достаточно большего значения длины р можно будет говорить о сходстве исходных векторов.

*Аудиодактилоскопия — это процесс определения уникальных характеристик аудиопотока с фиксированной длительностью. Такие уникальные характеристики могут быть идентифицированы для всех существующих песен и сохранены в базе данных. Когда мы слышим новую песню, мы можем извлечь аналогичные характеристики из записанного аудио и сравнить с базой данных, чтобы определить песню.

Добавить комментарий

Ваш адрес email не будет опубликован.