OsipovRoman Nov 26 2014 at 20:44

Исследование в Mathematica: Бенедикт Камбербэтч успешно пародирует других актеров, но может ли он одурачить компьютер?

3 min

26K

Wolfram Research corporate blogProgramming*

Translation

+26

Comments 20

merlin-vrn Nov 26 2014 at 21:44

Есть подозрение, что человек, говоря о «похожести», субъективно оценивает в первую очередь «манеру» говорить, несколько игнорируя всякие объективные особенности — спектральные, импульсные и тому подобное. Это позволяет нам узнать говорящего даже в очень искажённом варианте.

Машина, в свою очередь, вряд ли может ощутить «манеру», и анализирует именно эти самые объективные особенности.

А они зависят от строения голосового аппарата. Даже если ты имитируешь Шона Коннери, голосовые связки-то остаются твоими, а значит, спектр тех или иных фрагментов речи тоже. А значит, статистика в целом остаётся, чей бы голос ни имитировал.

Между прочим, в описанном тестировании в статье есть ещё один изъян. В чистом виде эксперимент нужно проводить так, чтобы не вмешивались различия и сходства в аппаратуре звукозаписи и пост-обработке. Вполне вероятно, что Камбербэтча писали в основном одними и теми же микрофонами (как минимум, одной и той же модели), которые имеют свой характерный «отпечаток», а потом ещё и обрабатывали сходным образом. А скорее всего, весь его голос для фильма записали на один конкретный экземпляр микрофона, и потом один раз обработали одним конкретным набором фильтров. А других актёров могли писать в разное время на разном другом оборудовании. И Mathematica в данном случае вполне могла срегировать на это.

+22

gbg Nov 26 2014 at 22:44

Там еще исходники в mp3 пожаты, со всеми вытекающими.

michaelmashay Nov 26 2014 at 23:15

Не знаю, кому как, но мне во всех пародиях голос Камбербэтча и слышится — меняются интонации, манера. Манеру он хорошо улавливает, но не более того. Так что и mp-3 не причем

merlin-vrn Nov 27 2014 at 10:00

Ну, положим, если все исходники в mp3 пожаты (одинаково), то это на может ухудшить возможность их различения, но не пустить по ложному следу.

OsipovRoman Nov 28 2014 at 12:42

Согласен с вами, merlin-vrn. Если мы говорим о чистом эксперименте, то, безусловно, нужно сделать все так, единственное — такого рода эксперимент будет служить скорее для отработки и проверки классификатора, либо же его создания. Хотя опять же, при применении его к реальным данным могут опять возникнуть, по сути, такие же проблемы. В целом это та проблема, которую всегда нужно решать в задачах machine learning.

VEG Nov 26 2014 at 22:57

Судя по карте премьер обсуждаемого фильма, в СНГ его могут и не показать:

Жаль. Возможно, прокатчики не хотят связываться с этим фильмом из-за того, что в фильме наверняка не обошли стороной тот факт, что Тьюринг был геем и покончил жизнь самоубийством после того, как его осудили за гомосексуализм, отстранили от работы и подвергли химической кастрации.

UFO just landed and posted this here

OsipovRoman Nov 26 2014 at 23:16

Полностью согласен. Тем более, что почти всегда оригинальные голоса актеров, прямо скажем, доставляют больше удовольствия, не говоря уже о расстановке интонаций, смысловых полутонов и пр.

andreycha Nov 27 2014 at 12:36

А уж голос Камбербэтча в оригинале доставляет двойное удовольствие. Если вы понимаете, о чем я.

EvilBeaver Nov 27 2014 at 17:09

Не понимаем. В каких единицах вы меряете удовольствие, как понять, что оно двойное, а не x1.75? И причем здесь Камбербэтч в оригинале?

-1

equand Nov 27 2014 at 22:07

В Мэтью Макконахах. Камбербетчевский голос в оригинале настолько же приятен как 0.78 Макконахов.

EvilBeaver Nov 28 2014 at 12:10

Какой вы чуткий. У меня не получается ощутить больше 0.42ммк

-1

VEG Nov 26 2014 at 23:25

На мой взгляд, поход в кино делает просмотр фильма менее обыденным и более торжественным. Впридачу — это отличная возможность поддержать производителя фильма своим рублём. Поэтому всегда стараюсь ходить на все интересные фильмы.

Соглашусь, что чаще всего русский дубляж — не лучший вариант. Иногда даже удачную шутку из-за перевода не понять. Однако, встречаются и обратные примеры. Например, мультфильм Мадагаскар 2: в русском дубляже голоса и интонации мне кажутся более удачными, чем в оригинале, хотя я оба варианта я пересматривал по два раза :)

UFO just landed and posted this here

darthslider Nov 27 2014 at 12:50

Дойдут и еще как. Около половины сборов уходит производителю фильма, остальное получают прокатчик и кинотеатр.

EvilBeaver Nov 28 2014 at 12:12

Если бы они до авторов не доходили, хрен бы они стали здесь что-либо показывать

SdotR Nov 27 2014 at 07:02

Я думаю, что это просто один из тех фильмов, премьера которых в России проходит через год после США. Но может быть ещё есть какая-то политизированность в плане второй мировой.

mbait Nov 26 2014 at 23:14

А какие особенности(features) используются для классификации?

ivlis Nov 27 2014 at 08:48

А пробовали ли сознательно исказить качество записи и проверить, узнаёт ли машина голос? Человек практически без проблем узнает знакомого собеседника через очень сильные помехи в связи именно по «манере» говорить. А узнает ли машина?

OsipovRoman Nov 28 2014 at 12:45

Такого рода тестирования не проводилось. В целом, статья Риты — это набросок, первый шаг, некоторого серьезного исследования. В этом вопросе есть множество вопросов и, безусловно, решение их потребует кода побольше. Скажем, если запись зашумлена, то желательно сначала ее фильтровать скажем вейвлетами или фурье-фильтрами и т. п. Разделять несколько сигналов в одно и пр.