flyer2001 24 янв 2013 в 16:10

Фишки youtube: распознавание речи (в текст), автоматические субтитры

1 мин

102K

Работа с видео*Звук

Комментарии 39

Alexufo 24 янв 2013 в 16:18

Зачем вы рекламируете госпожу Пеу… у? Ведь Нибиру не прилетела с ящерами захватчиками?

opanas 24 янв 2013 в 16:35

Вы ошиблись топиком, или хотите пошутить?

Alexufo 24 янв 2013 в 16:38

Это я шучу? Так вы что не в курсе кто эта женщина? И Все сразу сливать бегут.

www.youtube.com/watch?v=W3wygIJ2DUw

Это пипец космческого масштаба. Для тех кто еще не смотрел… лучше не надо…

+12

opanas 24 янв 2013 в 16:39

Честно не знал, поэтому и переспросил чтоб не горячиться кнопочки вверх/вниз клацать. Тетка жжет, «дайте мне это развидеть» как говорится.

Alexufo 24 янв 2013 в 16:47

Да я сам виноват. Светлана Пеунова это чертовски интересная личность. Для меня такие люди — откровенно загадка. Это просто кладезь информации о психологии человека. Такие люди нужны чтобы почесать затылок — а не сошел ли я сума? Это существующий феномен и это реальность.
Партия Воля — звездные войны отдыхают.

ekze 24 янв 2013 в 16:47

Но это ведь не новость совсем. Давно уже эта функция существует…

НЛО прилетело и опубликовало эту надпись здесь

ekze 24 янв 2013 в 16:57

Не обязательно ее так далеко искать, можно просто нажать CC.

habrastorage.org/storage2/7a8/9d9/cb5/7a89d9cb511b73bebb040980305104e4.png

flyer2001 24 янв 2013 в 16:54

Обнаружил недавно, посмотрел что на хабре про это не говорили решил опубликовать, возможно пригодится.

-4

negodnik 24 янв 2013 в 16:55

Еще очень впечатлила функция стабилизации изображения. Снимал видео со снегохода на телефон, в исходнике все тряслось намного сильнее www.youtube.com/watch?v=S3vB7Ksmx0A

flyer2001 24 янв 2013 в 16:59

видать все от видео зависит. Снимал видео с велосипеда зимой, после того как включил стабилизацию все плавать начало и при просмотре от такого эффекта просто рвотный рефлекс)) Больше не пользовался

EndUser 24 янв 2013 в 17:58

www.youtube.com/watch?v=Bt9zSfinwFA

negodnik 24 янв 2013 в 18:01

В комментариях есть ответ на подобное тро-ло-ло ;-)

flyer2001 24 янв 2013 в 18:04

Видать на борту снегохода держать по-другому телефон неудобно, иначе долго его потом искать в снегу))

anyxem 24 янв 2013 в 19:36

Да функция интересная.
Объясните, что движет людьми, когда они снимают видео вертикально.

negodnik 24 янв 2013 в 21:14

Зачем мне кому-то что-то объяснять :-)) Гораздо интереснее узнать, построена ли вся жизнь исключительно на рефлексах вроде «увидел видео, снятое в вертикальной пропорции — сделай трололо, и не важно, что там вообще снято». Не думал об этом, честное слово ;-)

dioneo 24 янв 2013 в 17:46

Фишки youtube: распознавание ~~текста~~ речи|голоса(в текст), автоматические субтитры

ru1z 24 янв 2013 в 20:23

Было бы неплохо, если бы еще эти субтитры можно было скачать.

bazzilic 24 янв 2013 в 21:58

Ждем статью «Фишка ютьюба: просмотр видео». Эта функция есть давно уже. Или статья про новую иконку на одном сайте? Ппц.

Methos 25 янв 2013 в 01:19

Почему же автоматических титров нет на моих видео, где говорит человек?

А потому что это не автоматические титры, а заботливо переведённые множеством «китайцев» и закачанных по обычному интерфейсу:

Распознавания (компьютерного) голоса в текст на текущий момент не существует, ибо люди давно бы пользовались этим и писали бы тексты комментариев на хабре или курсовые в своих редакторах голосом.

Всё, что показывают сегодня везде — это демонстрация интерфейсов доступа к живым людям-переводчикам. То есть, если вам говорят, что вы можете позвонить по телефону и компьютер переведёт ваш голос в текст, это означает только то, что на том конце провода вас будет внимательно слушать один из тысяч нанятых переводчиков (как раньше был сервис под названием «пейджер»).

VaKonS 25 янв 2013 в 03:45

Т. е. это тоже фальсификация? :)

Какой смысл тогда было презентацию делать?

VaKonS 25 янв 2013 в 03:52

* был

Methos 25 янв 2013 в 10:29

Это не более чем маркетинговая фишка.

Вероятно, это и компьютер. Какой-нибудь кластер в тысячи процессоров подключили на короткое время (затратив на это миллионы долларов), чтобы показать публике простейший алгоритм поиска и сравнения среди готовой подготовленной базы голоса, которую обучили перед этим.

Но чтобы выпустить это в широкий рынок, у них нет на это мощностей. Чтобы обслуживать миллионы людей — вряд ли.

У них нет алгоритма прямого преобразования голоса в текст.

flyer2001 25 янв 2013 в 10:41

я просто не понимаю откуда такая уверенность, что этого нет и быть не может? У меня тоже конечно нет особо оснований, кроме догадок. Но когда вопросом распознавания голоса занимаются светлые умы человечества не один год, создание таких систем — вопрос времени. С учетом имеющихся вычислительных мощностей гугла, они могут позволить себе подобные самообучающиеся системы.

Methos 25 янв 2013 в 10:47

Конечно, могут. И делают. Это работает.

Например, тот же перевод с англ на русский сейчас очень даже литературный.
Но подобный перевод годится всё равно только для ограниченного набора применений.

akhmelev 26 янв 2013 в 03:42

Распознавание речи есть и работает. В том же Андроиде к примеру ваш голос в поисковом запросе распознается сразу и довольно точно. Этот функционал уже используют конечные приложения, от гуглового андроидного переводчика до нашенского «Помнить все».

akhmelev 26 янв 2013 в 03:47

Пролистал вниз, можете не отвечать. Ваша позиция понятна. Перфекционизм конечно про «без единой ошибки» и можно долго спорить том, что любые технологии в реализации эволюционируют а не сразу готовенькими на 100% выкатываются но смысла в таком споре будет немного.

-1

VaKonS 25 янв 2013 в 12:09

Тут ещё такой момент: человек, хотя бы немного понимающий язык, не смог бы написать такой несвязный набор слов, который выдаёт машина.
Взять хотя бы автоматические субтитры к этому же ролику.

Что говорит диктор.

Now, I want to come back to the topic of natural user interfaces. One of the most natural interfaces for people is human speech. And for the last sixty years computer scientists have been trying to find a ways to understand and recognize human speech. Now, at the beginning, for people first started tackling this problem, they looked at it largely as a pattern matching problem, and the earlier systems attempted to take the waveforms that came out of speaker's voice.

«Сейчас я хочу вернуться к теме естественных интерфейсов пользователя. Одним из наиболее естественных интерфейсов для людей является человеческая речь. И последние шестьдесят лет учёные пытались найти способы понять и распознать человеческую речь. Так вот, сперва люди, которые начинали штурмовать эту проблему, в основном смотрели на неё, как на проблему сравнения образцов, и ранние системы пытались брать звуковые фрагменты из голоса диктора».

Что распознала машина.

Now parlor i want to come back sousa ta of naturally surveys. What are the most natural interfaces for people is human speech. And for the last sixty years computer scientists at the trying to find ways to understand and right now humans to be. Now at the beginning put people first cards are homeless problem they look at it largely as a pattern matching in the early ancestors attempted to take the way before they came out uh… speakers boils.

«Сейчас кабинет я хочу вернуться соуса та естественных исследований. Что является наиболее естественным интерфейсом для людей – это человеческая речь. И последние 60 лет учёные в попытке найти способы понять и прямо сейчас людьми быть. Теперь в начале поместило людей первые карты – это бездомная проблема, на которую они смотрели в основном как на сравнение образцов в ранних предках, пытавшихся пойти путём до того, как они вышли а… дикторов фурункулов».

Тем более, что каждую минуту сейчас загружают 72 часа видео – чтобы просто смотреть это всё в реальном времени (а ещё ведь нужно переводить и набирать субтитры), потребовалось бы 4320 человек, работающих круглосуточно.

А раз это не люди, то есть алгоритмы. :)
Собственно, докладчик об этом и говорил – что сперва пытались сравнивать образцы, потом начали строить статистические модели речи, а сейчас используют технологии, подобные работе мозга – нейронные сети, что ещё больше увеличило степень распознавания.

Apogee 25 янв 2013 в 13:44

Попробуйте хотя бы клавиатуру Swift для Android. Она, на мой взгляд, имеет отлично реализованный движок, который преобразует вашу речь в текст. Не думаю, что за доли секунды она передает запись голоса китайцам, те его распознают, набирают в текст и он волшебным образом появляется у меня в смартфоне в окне набора СМС.

VaKonS 25 янв 2013 в 14:14

Благодарю, мне не нужно объяснять, что в телефон не «встроен китаец». :)
К тому же, полагаю, Methos имел в виду пользователей YouTube в целом.

flyer2001 25 янв 2013 в 06:37

Почему же автоматических титров нет на моих видео, где говорит человек?

Скорее всего, что видео было загружено до того, как эта функция появилась на русскоязычных роликах

А потому что это не автоматические титры, а заботливо переведённые множеством «китайцев» и закачанных по обычному интерфейсу:

Мне кажется это не так. Понимаю, что множество китайцев нечем занять, но какая выгода? Известно давно что гугл занимается голосовыми движками.

flyer2001 25 янв 2013 в 07:41

Вот пример «фальсификации» ))
Голосовой блокнот тоже на движке гугла

Methos 25 янв 2013 в 10:37

Не более чем игрушка которой невозможно пользоваться.

Попробовал сейчас надиктовать текст для комментария, вот что вышло:

Болгария комментарии для того чтобы он написал его в поле ввода комментариев заказать талон голосового вызова нибулон

То есть, для надиктовки длинных текстов это не годится.

Если же диктовать медленно, а потом править ошибки, то быстрее всё равно писать на клавке.

Вот медленно:

Вообще очень полезны ли сейчас я диктую мне пожалуйста напишите здесь без регистрации

Хотя последние слова мои были " пожалуйста напишите здесь это без ошибок". То есть, видно, что их система использует словарь для исправления ошибок распознавания.

Короткие же тексты люди быстрее напишут на клавке, чем будут нажимать на какие то клавиши и диктовать.

flyer2001 25 янв 2013 в 10:52

Я сам, можно сказать профессионально, стенографирую различные материалы по работе (чуть позже опубликую свой самодельный девайс для этого). Понимаю, что технически это очень сложная задача — распознавание текста. Да пусть даже в такой убогой реализации распознавания — этим можно пользоваться в своих личных интересах. Чем нам рядовым пользователям от этого хуже?

flyer2001 25 янв 2013 в 10:56

*распознование речи (не текста)

Methos 25 янв 2013 в 10:57

Конечно, для личных можно. Но для массового рынка пока рановато, именно это я и хотел подчеркнуть =)

Ошибок не должно быть вообще, ни при каких обстоятельств. Тогда продукт готов к рынку, иначе это поделка, которой никто не будет доверять.