Как стать автором
Обновить

Исследование в Mathematica: Бенедикт Камбербэтч успешно пародирует других актеров, но может ли он одурачить компьютер?

Время на прочтение3 мин
Количество просмотров26K
Всего голосов 34: ↑30 и ↓4+26
Комментарии20

Комментарии 20

Есть подозрение, что человек, говоря о «похожести», субъективно оценивает в первую очередь «манеру» говорить, несколько игнорируя всякие объективные особенности — спектральные, импульсные и тому подобное. Это позволяет нам узнать говорящего даже в очень искажённом варианте.

Машина, в свою очередь, вряд ли может ощутить «манеру», и анализирует именно эти самые объективные особенности.

А они зависят от строения голосового аппарата. Даже если ты имитируешь Шона Коннери, голосовые связки-то остаются твоими, а значит, спектр тех или иных фрагментов речи тоже. А значит, статистика в целом остаётся, чей бы голос ни имитировал.

Между прочим, в описанном тестировании в статье есть ещё один изъян. В чистом виде эксперимент нужно проводить так, чтобы не вмешивались различия и сходства в аппаратуре звукозаписи и пост-обработке. Вполне вероятно, что Камбербэтча писали в основном одними и теми же микрофонами (как минимум, одной и той же модели), которые имеют свой характерный «отпечаток», а потом ещё и обрабатывали сходным образом. А скорее всего, весь его голос для фильма записали на один конкретный экземпляр микрофона, и потом один раз обработали одним конкретным набором фильтров. А других актёров могли писать в разное время на разном другом оборудовании. И Mathematica в данном случае вполне могла срегировать на это.
Там еще исходники в mp3 пожаты, со всеми вытекающими.
Не знаю, кому как, но мне во всех пародиях голос Камбербэтча и слышится — меняются интонации, манера. Манеру он хорошо улавливает, но не более того. Так что и mp-3 не причем
Ну, положим, если все исходники в mp3 пожаты (одинаково), то это на может ухудшить возможность их различения, но не пустить по ложному следу.
Согласен с вами, merlin-vrn. Если мы говорим о чистом эксперименте, то, безусловно, нужно сделать все так, единственное — такого рода эксперимент будет служить скорее для отработки и проверки классификатора, либо же его создания. Хотя опять же, при применении его к реальным данным могут опять возникнуть, по сути, такие же проблемы. В целом это та проблема, которую всегда нужно решать в задачах machine learning.
Судя по карте премьер обсуждаемого фильма, в СНГ его могут и не показать:

image

Жаль. Возможно, прокатчики не хотят связываться с этим фильмом из-за того, что в фильме наверняка не обошли стороной тот факт, что Тьюринг был геем и покончил жизнь самоубийством после того, как его осудили за гомосексуализм, отстранили от работы и подвергли химической кастрации.
НЛО прилетело и опубликовало эту надпись здесь
Полностью согласен. Тем более, что почти всегда оригинальные голоса актеров, прямо скажем, доставляют больше удовольствия, не говоря уже о расстановке интонаций, смысловых полутонов и пр.
А уж голос Камбербэтча в оригинале доставляет двойное удовольствие. Если вы понимаете, о чем я.
Не понимаем. В каких единицах вы меряете удовольствие, как понять, что оно двойное, а не x1.75? И причем здесь Камбербэтч в оригинале?
В Мэтью Макконахах. Камбербетчевский голос в оригинале настолько же приятен как 0.78 Макконахов.
Какой вы чуткий. У меня не получается ощутить больше 0.42ммк
На мой взгляд, поход в кино делает просмотр фильма менее обыденным и более торжественным. Впридачу — это отличная возможность поддержать производителя фильма своим рублём. Поэтому всегда стараюсь ходить на все интересные фильмы.

Соглашусь, что чаще всего русский дубляж — не лучший вариант. Иногда даже удачную шутку из-за перевода не понять. Однако, встречаются и обратные примеры. Например, мультфильм Мадагаскар 2: в русском дубляже голоса и интонации мне кажутся более удачными, чем в оригинале, хотя я оба варианта я пересматривал по два раза :)
НЛО прилетело и опубликовало эту надпись здесь
Дойдут и еще как. Около половины сборов уходит производителю фильма, остальное получают прокатчик и кинотеатр.
Если бы они до авторов не доходили, хрен бы они стали здесь что-либо показывать
Я думаю, что это просто один из тех фильмов, премьера которых в России проходит через год после США. Но может быть ещё есть какая-то политизированность в плане второй мировой.
А какие особенности(features) используются для классификации?
А пробовали ли сознательно исказить качество записи и проверить, узнаёт ли машина голос? Человек практически без проблем узнает знакомого собеседника через очень сильные помехи в связи именно по «манере» говорить. А узнает ли машина?
Такого рода тестирования не проводилось. В целом, статья Риты — это набросок, первый шаг, некоторого серьезного исследования. В этом вопросе есть множество вопросов и, безусловно, решение их потребует кода побольше. Скажем, если запись зашумлена, то желательно сначала ее фильтровать скажем вейвлетами или фурье-фильтрами и т. п. Разделять несколько сигналов в одно и пр.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий