Pull to refresh

Comments 101

Познавательно, но у меня возникает вопрос другого плана: одно дело, если там уличный корреспондент или интервью какое-то. Но диктор же не сочиняет отсебятину, перед ним там экран с видеосуфлёром, по которому он читает. Т.е. все его тексты и так уже оцифрованы и написаны. Зачем в этой схеме нужен стенографист?
И ещё момент вспомнил: я подобный бред в субтитрах видел ещё пару раз, причём оба раза — в сабах к музыкальным клипам на Ютубе. Поэтому подозреваю, что тот «стенографист» — не сотрудник CNN, а какой-то ютубовский робот, который преобразовывает речь в текст.
Думаю такие люди не только для ютуба работают, но и для внутренней кухни, собственные архивы и прыгание между филиалами или ещё как-то так. Особенно если дикторский текст ещё может заранее записан и можно его вставлять, то текст корреспондента в полях явно не пишется, так что поэтому есть такая профессия, которая пока логирует лучше, чем распознающие боты. Даже старые программы аля 70-х годов, сидит человек и расшифровывает интервью, кто чего сказал и на какой секунде. Нужно для будущих поколений и дальнейшего автоматического поиска по тексту.
И если корреспондент всё-таки готовится к речи, то он периодически берёт интервью у случайных прохожих, которые говорят случайный текст (ведь правда?).
Вы про прямое включение? Потому что большинство роликов, показываемых в новостях, довольно явно смонтированы (т.е. присутствуют монтажные склейки, в том числе с корреспондентом, читающим текст на камеру) и попадают на студию явно до начала выпуска новостей.
Потому что репутация.
Выпуск новостей — это прямой эфир. Текст должен соответствовать тому, что говорит диктор. Если во время выпуска или прямо перед ним случается «breaking news», то текст всё равно должен соответствовать. А не продолжать транслировать фейковую телеметрию, когда ракетоноситель уже потерян.
Да и без брейкинг ньюсов ведущие могут оговориться и исправиться или несколько от текста отойти. Ну и всякие диалоги с кореспондентами живьём могут быть непредсказуемы.
Не дальше чем на прошлый День независимости было, что Трамп с телесуфлёра вместо «Our army rammed the ramparts» прочитал «Our army manned the airports», после чего добавил из головы: «it rammed the ramparts, it took over the airports, it did everything it had to do». Тут сразу и очитка, и исправление, и абсурдная отсебятина экспромтом.
Потерять ракетоноситель — это сильно.
Про такое не скажешь не только «с… дили», но даже и «про… бал».
Не подскажете, кто это так отличился и когда?
Случается такое с ракетами.
Но вот чтоб ракетоноситель потерять — не слыхал такого.
С протоном вроде такая же ситуация была в 2013, когда еще «датчик вверх-ногами заколотили».

mgremlin говорит, что вы путаете ракету-носитель (Протон и Союз) и ракетоноситель (штука, переносит эту ракету)

Увы, но эта битва проигран и давно.
Не просто давно, а с самого начала она проиграна.


Обзывание ракет-носителей словом "ракетоноситель" началось сразу при появлении слова ракета-носитель. Это зафиксировано в лингвистической литературе советских времён.


Есть примеры использования слова "ракетоноситель" в смысле "ракетоносец", но они погоды не делают :(

продолжать транслировать фейковую телеметрию

Это реально такое было?
Но диктор же не сочиняет отсебятину, перед ним там экран с видеосуфлёром, по которому он читает. Т.е. все его тексты и так уже оцифрованы и написаны. Зачем в этой схеме нужен стенографист?

Любому СМИ нужны штатные стенографисты для пресс-конференций.
Раз они уже есть, почему ими не воспользоваться и для субтитров?

И ещё момент вспомнил: я подобный бред в субтитрах видел ещё пару раз, причём оба раза — в сабах к музыкальным клипам на Ютубе. Поэтому подозреваю, что тот «стенографист» — не сотрудник CNN, а какой-то ютубовский робот, который преобразовывает речь в текст.

Ютубовский робот, который преобразовывает речь в текст, генерирует что-то такое:



Видите разницу между этим и «STILLEVELOP PLANANDEMIC, ILNG T»?
Всегда думал, что ютубовские сабы генерит нейронка. Навеяло некоторой необъяснимой лажей, когда слова произносятся предельно отчетливо, но в сабах совершенно иное, причем не связанное даже с контекстом.

Вроде, тут про видео на ютубе, а в видео нарисованы субтитры, как на картинке.

Я заходил на видео по ссылке в статье. Эти сабы включаются/выключаются кнопкой «субтитры» в ютубовском плейере. Это не нарисованные субтитры, а наложенные плейером поверх видео.
Не, там в гифке вначале статьи явно видно, как человек через настройки ютуба включает эти сабы.
Но вроде бы на ютубе субтитры могут быть не только сгенерированы самим сервисом, но и загружены руками.
Так и есть. cloud.google.com/speech-to-text. Её же можно пощупать в действии на видео вызове в Google Meet. Хорошо справляется с английской речью на лету.
Автоматические субтитры на Ютубе генерируются распознаванием голоса, да, но автор ведь может загрузить свои сабы. В этом видео нет автоматических сабов, есть две разные версии английских субтитров, обе бракованные.
Субтитры на youtube, насколько мне известно, могут быть как добавлены владельцем видео, так и созданы автоматически — для этого владельцу видео необходимо согласиться на создание авто-субтитров при помощи распознания речи в видео.

Вроде можно прикрепить написанные человеком вручную.

Всегда думал, что ютубовские сабы генерит нейронка.

В данном случае — так и было; только нейронка не ютубовская, а CNN-овская, и принимала на входе не звукозапись, а стенограмму.

Навеяло некоторой необъяснимой лажей, когда слова произносятся предельно отчетливо, но в сабах совершенно иное, причем не связанное даже с контекстом.

Сбои ютубовской распознавалки выглядят совсем иначе — например, в результате всегда получаются реально существующие слова, а не «FODOWINGPRESID».
Я один, читая статью, не понимал, почему нельзя использовать диктофон? Наверняка ведь и в те годы можно было сделать компактный потребительский микрофон, сравнимый по чувствительности с человеческим ухом.

Расшифровка дольше происходит. Превратить страничку каши в нормальный текст гораздо быстрее, чем час разговоров с паузами, эканьем, всяким шумом и т.п.

Попробуйте включить на ютубе любое часовое интервью и попробовать сделать его в текст. Вопрос отпадет сам. Я пробовал разок. 3 часа видео в кабаке с беседой под звон пива. Около 10 часов трудозатрат.

Пробовал, делал. Не интервью в кабаке, конечно, но аудиозапись защиты, в большой аудитории, со множеством говорящих и иногда одновременно. Не понимаю, в чем сложность. Нажал паузу, альт-таб, записал. Если разговор с паузами, можно и параллельно успевать записывать. И не нужно никаких «SHRAOUT HRAOE» и десяти вариантов кодирования.
Не понимаю, в чем сложность

Не сложность, а времязатраты.
Нажал паузу, альт-таб, записал

Вы сами подтвердили, что общее время работы будет в несколько раз длиннее видео.
Я пробовал, часовое интервью не делал, но цитаты на несколько минут приходилось выписывать — действительно, занимает неожиданно много времени, но, мне кажется, исключительно из-за несоответствия интерфейса поставленной задаче: не успел за оратором — бросаешь клавиатуру — тянешься за мышкой — наводишь на видео — пару секунд дрочишь указатель мыши, пока всплывёт панель с кнопкой паузы — нажимаешь паузу — начинаешь мучительно отматывать назад, ища момент, с которого ты не успел, на длинных видео это может стать весьма долгим и увлекательным квестом. Была бы какая-то глобальная педаль, чтобы можно было ей ставить на- и снимать с паузы — и, думаю, можно было бы перепечатывать неспешную беседу в плюс-минус реальном времени, спикеров, шпарящих как по-писанному — медленнее раза в полтора-два, а беседы с паузами, эканьем-меканьем и звоном пива кабы не быстрее (если к педали прикрутить ещё ускоренную перемотку туда-сюда, или просто ускорить аудио раза в два).
Была бы какая-то глобальная педаль, чтобы можно было ей ставить на- и снимать с паузы

На многих клавиатурах есть кнопка play/pause. Иногда в явном виде, иногда через Fn. В некоторых ОС можно глобальный шорткат вместо неё назначить

Я пробовал педаль от электропианино как клавишу контрол использовать — опыт интересный и любопытный, но возникает определённый «диссонанс», в общем у меня не прижилось.

Люди, профессионально занимающиеся расшифровкой радиоэфиров, как раз такими пользуются в массе. Дело привычки.

В продаже есть «USB Foot Pedal» — это, фактически, программируемая клавиатура с одной кнопкой. Через ПО задаёшь что оно будет посылать при нажатии (какую кнопку/сочетание кнопок) и можно работать. Я уже несколько лет использую её для голосовых чятеков как выделенную кнопку для push to talk. Дело привычки — я уже не представляю как без неё можно голосовым чатом пользоваться.
По моему опыту, ничто так не убивает скорость печати, как необходимость тянуться пальцами куда-то в необычные места. Кнопка pause на клавиатуре, наверное, будет, всё же, получше мыши в этом отношении, но тоже не ахти, особенно если она «в неявном виде глобальный шорткат через Fn».

Я себе в свое время написал на HTML и JS плеер для видео, который хоткеи ловил. Оч удобно было (правда писать пришлось там же на странице в браузере, но это меня не парило) но особо скорости такое решение не добавило. Просто меньше нервов ушло на упражнения с мышкой.

а чем пробел не подходит? для пауз и запуска.
возможно я что-то не поныл
А в текст как пробел вставлять?
Тогда уж педалью ставить на паузу, чтобы не переучиваться использовать одну из основных клавиш при наборе текста по разному в разных контекстах.
Все правильно пишите, правильный инструмент тут очень помогает, хотя все равно получается долго. Знаю не по наслышке, по долгу службы часто работаю с интервью. Пока самое удобное, что нашел, — вот эта страничка: otranscribe.com
Горячая клавиша для паузы, ускорение, замедление записи, перемотка и временные метки, на которые можно быстро вернуться.
Аль-таб, пробел. влево, пробел, альт-таб.
такая вот комбинация чтобы с текста перейти на соседнюю вкладку, отмотать 10-15 секунд (больше обычно не надо), запустить всё и вернуться к потерянному.
Тут уже в пальцах запутаешься. К тому же, оно толком не работает — то получается запустить/остановить ютубовское видео нажатием пробела, то вдруг перестаёт получаться (и всегда так было, насколько я помню, хз чо ему надо, может, проблема во мне).
Да, у ютуба пробел работает по фокусу. То популярное включает/отключает, то субтитры. Дичь короче.
k — play/pause, даже если фокус находится не на видео
j и l — перемотка влево-вправо на 10 секунд
? — показать список хоткеев
Firefox + настройка «Искать текст по мере его набора» — не работает.
Какие трудозатраты? Ютюб генерит субтитры — скачиваем, и получаем "стенограмму" с ошибками распознавания. Смотрим видосик и правим по ходу дела.

… что тоже занимает времени не меньше, чем просмотр видео, и тоже требует много правок. Пробовал.

Ну так и создание стенограммы по видео потребует не меньше, чем просмотр видео. Но потом эту стенограмму ещё расшифровать надо. Да, можно сказать что расшифровывать не надо — ведь это можно сделать автоматом… но тогда всё сводится к вариантам:

  • Автомат распознал — человек проверил
  • Человек составил стенограмму — автомат расшифровал

Времени оба варианта занимают одинаково, вот только во втором случае могут быть косяки как описанные в статье. Да ещё человек нужен со специальной нужен.
Неплохой способ, но для телеэфира не годится.
ну вот же написал, в кабаке под звон бокалов и пьяная речь… Я же знаю о чем базар.
Во-первых, стенограмма часто была важным документом. Документ — это текст на бумаге, аудиозапись документом не является (на неё не поставить подпись, печать, не провести почерковедческую экспертизу). Во-вторых, стенограммы хранятся в течении длительного срока. Срок хранения магнитной аудио записи не идет ни в какое сравнение со сроком хранения бумажной записи. Цена листа бумаги на порядки ниже цены аудиокассеты, а объем хранимой информации там довольно большой.
Сейчас многое изменилось технологически, но на момент создания этого порядка технической возможности вести аудиозапись — не было. Теперь так уж исторически сложилось и закреплено законодательно (в нормативных документах).

"почерковедческую экспертизу" документа с печатной машинки — это сильно :)

Для печатной машинки проводят не столько «почерковедческую» сколько «технико-криминалистическую» экспертизу.
Ну и строго говоря, пока машинки были чисто ручными без электричества, почерк тоже был.
Почерковедческую экспертизу подписи на машинописном документе.

Голос на аудиозаписи хоть и можно идентифицировать, но гораздо сложнее доказать, что сама запись не смонтирована. С бумажным документом, подписанным ручкой, такой проблемы нет.
Видимо, как тут пишут, из-за законов. Я некоторое время юзала Express Scribe, там можно замедлять, ускорять, останавливать, отматывать назад-вперед, кажется даже частично шумы убирает. Если все через горячие клавиши делать, норм. С непривычки долго, с опытом входишь во вкус.
почему нельзя использовать диктофон?

Как вы представляете работу, причем, зачастую, совместную, причем, зачастую, разнесенную во времени и многократно повторяющуюся, с нетекстовыми документами?


Этак представляем, звонит адвокат другому и говорит вместо "см. стр 5, строки 8-10" — "запусти это аудио, перемотай на 00:06:54.50, и случшай ровно n секунд". А потом, если нужно повторить — каждый раз слушать и перематывать, слушать и перематывать? А как это делать без спецоборудования — адвокатам и другим лицам, работающим с судебными документами, прикажете работать только стационарно, или с собой таскать спецмагнитофоны?


И как вы думаете, почему здесь так любят статьи, и так не любят подкасты и видео без текстовой расшифровки? И это для разового просмотра.

А сейчас адвокаты работают с нерасшифрованными стенограммами?
Сейчас огромная масса народа вместо смс на 10 символов шлет друг другу 2 минутные послания голоом. И считает это нормальным.
Занятно, что данная проблема поднималась ещё в романе «Дракула» (19 век!): один из главных героев, врач психушки, ведёт записи на фонографе вместо бумаги. Потом вдруг сталкивается с необходимостью поиска по этим данным, и, такой: «Ой, как-то я не подумал...»
Круто, про устройства я не знал — думал стенографисты запысывают всё на бумаге спецсимволами, а потом каракули расшифровывают.
А ведь это набор текста сочетаниями «горячих клавиш» 80-го уровня.
Я пытаюсь прикинуть — будет ли так же удобно программировать? В любом языке программирования куча ключевых слов, которые «аккордами» набирать можно.

Скорость кодирования обычно не требуется разгонять до реалтайма. И поздравляю, вы изобрели vi/emacs.

Аккорды давно применяются в Delphi для ускорения многобуквенного синтаксиса паскаля.

В спектруме (ZX80) так было — одна клавиша одно выражение.

Вспомните клавиатуру ZX Spectrum. Там во встроенном BASIC ключевые слова набирались одной или сочетанием нескольких клавиш.
Помню микрокомпьютер «Электроника МК-90», тоже Бейсик и вставка по сочетанию двух клавиш.
Рукописными каракулями по-прежнему пользуются: стенотайпу нужно электричество и две свободные руки, в карман его не положишь, на ходу не попечатаешь, и т.д.

Так же, как вычисления «в столбик» не ушли в прошлое с появлением счётных машин.
Кстати, была (наверное «была») советская система стенографии, году в 1985-86 я даже дистанционно ей учился, что-то запомнил, но до конца курс не прошел — поступил в институт. Там иногда в лекциях некоторые слова записывал спецсимволами, чем немало удивлял тех, кто брал переписать мои лекции :) похожи они чем-то были на арабскую вязь, только слева-направо; сейчас конечно всё уже забыл.
Да, была и такая — гуглится по названию «ГЕСС»

В свое время в Науке и жизни был цикл статей «Скоростное конспектирование», где стенография как раз не очень приветствовалась. Потому что в ней (я тоже видел эту книжку, которую упоминал tyomitch) многое зависит от контекста. Типа «Л» — это Ленин.
Суть системы была в том, что мы вводили буквально несколько десятков символов типа кванторов, писали корни слов, а наиболее распространенные окончания и приставки можно было отмечать символами наподобие стенографических.
У меня были символы для концовок типа «ение», «ность», глаголов, в т.ч. возвратных, причастий действительных и страдательных. До сих пор могу прочитать, а писать можно было со скоростью лектора.
В любой американской судебной драме недалеко от судьи сидит стенографистка и чего-то печатает. Иногда по требованию судьи зачитывает с этой ленты.
Радисты, вон, точками и тире шпарят, а программистам 80-го уровня нужно писать сразу единицами и нулями)))
Как-то раз встретил напросторах сайт. Спарва подумал что у меня с глазами что-то, потом что с головой, а потом дошло что это сайт энтузиастов морзянщиков.
У них весь сайт на морзянке был.
Годы прошли а забыть не могу того удивления.
«стенографист со стенотайпом может печатать до 300 слов в минуту»

Т.е. Эминем, начитавший в треке Godzilla 229 слов за 30 секунд, перечеботарил стенографиста? Любопытная уязвимость.
Что-мне кажется, что сглюкануло распознавание речи, а субтитры создаются автоматом.

Прошу прощенья, но 12/11/2020 — это 11 декабря 2020. Оно ещё не наступило. По-нашему это будет 11.12.2020. У них другая система записи, формат ММ/ДД/ГГГГ. Отличать можно по слешам. Если дата через слеши, то сперва идёт месяц. Когда начинают через слеши писать в российском формате, наступает путаница.

Поэтому нужно следовать ISO 8601.
В ISO 8601 хоть обычно двусмысленности не возникает (2020-11-12T13:00:00Z), но порядок ГГГГ-ММ-ДД не используется в документах, с которыми мы сталкиваемся постоянно. Придется во всех сферах жизни на него переходить, чтоб мозг не ломался от ситуации к ситуации.
В ISO 8601 хоть обычно двусмысленности не возникает

Именно поэтому он и рекомендуется. Его специально разработали таким.
Придется во всех сферах жизни на него переходить, чтоб мозг не ломался от ситуации к ситуации.

Давно пора. Я вот самостоятельно перешёл на ГГГГ.ММ.ДД для удобства задач сортировки, а сейчас на ISO 8601 для стандартизации.
Некоторые страны даже на метрическую систему в быту никак не перейдут. Хотя тут проще. Дни, месяцы и годы не меняют своих значений, только меняется порядок. И меняется на вполне логичный. Причём отличить старый формат от нового можно по разделителям.
Если дата через слеши, то сперва идёт месяц.

Французы, итальянцы и англичане с вами не согласны, если верить https://en.wikipedia.org/wiki/Date_format_by_country (там много примеров, но я отобрал самые значимые).

Надо рядом с датой указывать культуру! «11/12/2020 en_US» или как то так…

Проще ISO 8601 использовать. Проблема с теми, кто этого не делает.

В быту этого никто не делает или почти никто, судя по табличке из комментария выше.

Ну так и культуру никто в быту дописывать к дате не будет, в том-то и проблема.

Картинка про 14 конкурирующих стандартов.

Американские стенографисты уже больше сотни лет как используют специальные устройства с минимальной 22-клавишной клавиатурой — по две клавиши под каждый палец

22 / 2 = 11. Мы что-то не знаем о американских стенографистах?

Редкая мутация.
Или две педали забыли упомянуть.
Так под каждый палец по две клавиши
20 клавиш на 10 пальцев на руках, и ещё две — на тот… кхм… палец
У женщин тоже обычно 2 ноги.
Судя по картинке из поста, на указательные пальцы приходится 4 клавиши, а на большие по 1.

Видел таких стенографистов на американской конференции State of the Map. Сидели на втором-третьем ряду и невозмутимо писали, смотря вперёд перед собой. На сайте конференции в этот момент в прямом эфире шёл текст из речи докладчика. Ощущалось… как будущее.

Меня удивило что в раскладке для стенографистов, от которой требуется только максимальная скорость, клавиши AOEU находятся в отдельном ряду максимально удобно для нажатия. Лишний довод в сторону моей любимой раскладки Dvorak и против раскладки QWERTY которая была составлена для причин все-таки отличных от быстрого печатания.

Я долгих четыре с половиной десятка лет задумывался, как работают эти штуковины. Правда, задумывался как-то не очень глубоко, ибо ответ на свой насущный вопрос прочитал только что.
Но теперь уже не забуду никогда! Спасибо автору.

Only those users with full accounts are able to leave comments. Log in, please.