Как стать автором
Обновить

Комментарии 20

Для классификации музыки вроде бы хорошо заходят CNN, обученные поверх спектральных фич. Было бы интересно попробовать на том же датасете и сравнить точность.
Ваши CNN уже куда только не заходят. Неужели так трудно принять что нет универсальных серебряных пуль, на роль которой постоянно предлагают нейро-чтототам. Методы которые происходят из предметной области всегда будут эффективнее. HMM как раз такой.
Это утверждение, основанное на каком-то серьезном paper-е, где кто-то сравнивал современные CNN и HMM на задаче классификации музыки, или так, чисто вбросить на вентилятор?

Потому что в последние пару лет сети уже обогнали всякие GMM-HMM-based модели на крупных бенчмарковых датасетах в других задачах, связанных со звуком, и я не вижу причин, почему в классификации музыки это было бы иначе.
сети уже обогнали всякие GMM-HMM

Обогнали в чем, в каких задачах? FFT — это тоже модель, модель сигнала основаная на спектрах, используется в неимоверном кол-ве задач. Следуя вашему наивному высказыванию тоже надо сеточку прикручивать? Так вот и HHM — это модель дважды случайного сигнала. Логично же что сигнал с музыкой таковым является в каком то приближении. Методы предметной области всегда будут давать результаты лучше.
Во-первых, причём здесь FFT вообще? Я не давал никаких общих утверждений. Я даже не говорил, что CNN будут работать лучше HMM. Просто высказал гипотезу, что на данной конкретной задаче сети будут работать лучше (и сейчас, погуглив, я уже уверен в этом).

Во-вторых, если вам интересно, в каких задачах сети обогнали более старые методы, вот стандартные примеры: speech recognition и speaker recognition. Также достаточно мощные результаты сети показывают в задачах voice activity detection, trigger word detection, sound classification.

Есть только один метод для того, чтобы определить state-of-the-art-метод — сравнить на реальных задачах. А «логично, что...» — это не доказательство.
Во-первых, причём здесь FFT вообще? Я не давал никаких общих утверждений.

fft — модель данных, не лучше не хуже GMM-HMM-based. Общее утверждение вы высказали:
сети уже обогнали всякие GMM-HMM-based модели


cети обогнали более старые методы, вот стандартные примеры: speech recognition
— снова наивное утверждение «из гугла». В частности, в speech recognition, используется целая комбинация различных методов. Там и HMM, и FFT и чего только нет. Да, там есть и нейро сети. Но говорить что нейросети лучше HMM — это как сравнивать трактор с формулой 1. А вы это заявляли:
сети уже обогнали всякие GMM-HMM-based модели

Мне кажется, вы видите то, что хотите, а не то, что я реально написал. Давайте продолжим цитату, которую вы привели уже дважды:
сети уже обогнали всякие GMM-HMM-based модели на крупных бенчмарковых датасетах в других задачах, связанных со звуком, и я не вижу причин, почему в классификации музыки это было бы иначе.

Я не говорю, что «нейронные сети в целом лучше HMM». Я говорю, что на конкретных задачах и датасетах сейчас сети являются state-of-the-art.

fft — модель данных, не лучше не хуже GMM-HMM-based

FFT — не модель данных, а алгоритм преобразования сигнала, и к предмету спора он не имеет ни малейшего отношения.

В частности, в speech recognition, используется целая комбинация различных методов. Там и HMM, и FFT и чего только нет. Да, там есть и нейро сети.

Сударь, но если вы посмотрите на топовые решения последних нескольких лет, то увидите, что там уже не классические GMM-HMM-модели, а как раз таки deep learning (местами в комбинации с HMM, действительно, а местами, как в статье с SotA-результатами по ссылке, и сам по себе).

Зачем отрицать факт того, что это работает лучше при наличии достаточного объема данных и вычислительных мощностей (но в 2018 году этого вдоволь)?
Я не говорю, что «нейронные сети в целом лучше HMM». Я говорю, что на конкретных задачах и датасетах сейчас сети являются state-of-the-art.

Ну неконкретные задачи я надеюсь мы не будем обсуждать. state-of-the-art — под этот красивый слоган любой процесс поиска решания можно подогнать.
Я хочу конкретики, а вы уклоняетесь от нее. Вы сказали слова «сети уже обогнали». Я задал вопрос — в чем? Ответа нет.

FFT — не модель данных, а алгоритм преобразования сигнала, и к предмету спора он не имеет ни малейшего отношения.


Сударь, вот тут вы правы. Заменим FFT на просто ряд Фурье, надеюсь это уже будет моделью. Но так как эта модель есть результат FFT — то это уже имеет отношения к предмету диалога.

Зачем отрицать факт того, что это работает лучше при наличии достаточного объема данных и вычислительных мощностей (но в 2018 году этого вдоволь)?


А это уже смешно. Да при наличии достаточного времени ( а это и есть выч ресурс) и памяти — я вообще любую задачу решу, тупо перебором. И мне нейросети не нужны при этом. Проблема в том что этих ресурсов всегда мало. И если есть более точный и быстрый метод — то он лучше. И все его ищут. Но некоторые совершенно не хотят копать предметную область, они уверовали в серебряные пули, большие объемы данных, как бы симуляцию мозга нейросетями. Я понял вашу веру, удачи вам.
Я хочу конкретики, а вы уклоняетесь от нее. Вы сказали слова «сети уже обогнали». Я задал вопрос — в чем? Ответа нет.

Это шутка? Я привёл конкретный список задач на два комментария выше. Я привёл конкретную статью с SotA speech recognition в комментарии, на который вы прямо сейчас отвечаете. Вы точно читаете, что я вам пишу?

Но так как эта модель есть результат FFT — то это уже имеет отношения к предмету диалога.

Нет, потому что в сообщении, к которому вы придрались, я просто предложил сравнить представленный в статье метод с сетями. Причём здесь FFT, который так или иначе используется при работе со звуком для feature extraction, а не для самого моделирования — ума не приложу.

Да при наличии достаточного времени ( а это и есть выч ресурс) и памяти — я вообще любую задачу решу, тупо перебором. И мне нейросети не нужны при этом. Проблема в том что этих ресурсов всегда мало. И если есть более точный и быстрый метод — то он лучше. И все его ищут. Но некоторые совершенно не хотят копать предметную область, они уверовали в серебряные пули, большие объемы данных, как бы симуляцию мозга нейросетями.

Самое вкусное подсветил жирным. Если это действительно так, то почему на том же ImageNet последние пять лет побеждают сети? С учётом абсурдности конкретно данного утверждения обсуждать следующую часть комментария смысла вроде нет.
Это шутка? Я привёл конкретный список задач на два комментария выше. Я привёл конкретную статью


Уважаемый, вам надо в ответ статьи по успешным применениям HMM? И т.о. мы нанем соревнование по гуглению? Конечно я не собираюсь читать что вы там нагуглили. Точка зрения — это сумма опыта. Ваш мне понятен.

Самое вкусное подсветил жирным. Если это действительно так, то почему на том же ImageNet последние пять лет побеждают сети?

Вы сказали при наличии достаточного кол-ва ресурсов. Что считать достаточноым будем? На ImageNet сети соревнуются с сетями, как намекает само название. Попробуйте посоревнуйтесь с алгоритмами поиска лица в фотокамерах одними только сетями вашими.
Конечно я не собираюсь читать что вы там нагуглили

Ну и как с вами тогда общаться?

На ImageNet сети соревнуются с сетями, как намекает само название.

У меня такое чувство, что вы впервые слышите про ImageNet и в целом не особо интересуетесь темой компьютерного зрения в частности. Иначе бы вы такого не писали, конечно.
Ну и как с вами тогда общаться?

Никак, я не настаивал. Читать спам который вы считаете высшим знанием — извините нет. По любым методам тонны статей. Отвечать ссылками можно только когда вас просят, иначе считаю это отсутствием аргументации.

Да будет вам известно что CV — это не синоним нейросетей или машинленинга. ImageNet — слышал, интереса не имею.

Иначе бы вы такого не писали, конечно.

Прикольная логика )

На самом деле, после долгой работы с CNN в сегментации изображений, Вы открыли мне, что они еще и со звуком хорошо заходят. Я думал, к звуку больше рекуррентные относят. Но гугл меня и вправду обеспечил чтивом на несколько выходных вперед)

Не уверен, что CNN стоит проверять на том же столь малом датасете, где меньше сотни песен. Насколько мне известно, CNN выигрывает на гигантских датасетах, уступая на мелких сетах тем же SVM и деревьям.
В любом случае, проверить это можно лишь на практике)
Да, на таком маленьком датасете сеть ничему не научится, но в принципе для этой задачи не особо сложно скомпилировать большой датасет, просто выкачав дискографии нескольких групп.
после долгой работы с CNN в сегментации изображений, Вы открыли мне, что они еще и со звуком хорошо заходят.

Вот вам еще открытие — звук можно представить в виде картинок. А картинку — наоборот в виде сигнала. Ну конечно можно что угодно применить к чему угодно. И HMM можно применить к картинкам, причем в этом будет вполне рациональный смысл. Конкретная область где это делают — классификация текстур.

Печально, что после прочтения поста, вы решили, что это для меня "открытие". Применить можно все ко всему, как вы и сказали. Хоть прямо на битах все обучай. Интересно то, какие результаты подобные методы выдают, насколько требовательны к датасету, сколько времени тратится на обучение.

Рад что вы это понимаете. Тогда вы должны понять, что высказывание «нейро-мега-магик сеть А хорошо работает на звуке» — на столько же глупо на сколько «трактор лучше формулы 1».
Вы открыли мне, что они еще и со звуком хорошо заходят.

Звуки разные, их природа разная, они имеют каскадно сложную модель, от семантики языка (если это речь), до акустики и спектров. И тут раз какая то магик сеть решает все задачи разом? Ну правда бред.
мне видятся следующие проблемы:
— вы не достаточно заботитесь о том что модель должна не только определять исполнителя, но и отличать от других. Собственно определение уникальных отличительных черт — самый сложный кусок.
— ну блин нельзя полагаться на магию библиотек. я перемешал и оно заработало — в жизни должны быть очень веские доказательства чтоб так делать. Я не математик, но Марковские цепи в моем понимание учат последовательности. Научите рандому — рандом и будут прогнозировать
— разубедите меня, но я не видел рабочей системы распознавания аудио на mfcc и марковских цепях. Туча академических статей, а прикладных правдоподобных решений — просто нет.

Искренне желаю не унывать и останавливать себя если начинаете «перебирать и пробовать» — это не научно)
— ну блин нельзя полагаться на магию библиотек. я перемешал и оно заработало — в жизни должны быть очень веские доказательства чтоб так делать

Весь ML как раз на том и стоит чтобы чтото там намешать и опа заработало. А почему работает понять невозможно. Если удается найти решение — победителя не судят. А если нет — ну да, вы будете похожи на некудышного повара который кидает в суп все подряд в надежде получить вкусное блюдо.
Спасибо за критику! Про магию библиотек не совсем понял. Копаться внутри тех же hmmlearn, python_speech_features/librosa пришлось долго и неприятно. Насчет shuffle, да, я не решился пока написать полноценное теоретическое обоснование этого выбора. В остальном, к сожалению, согласен. Статей много — приложений мало. Унывать не будем, тема интересная, и идей еще много)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации