Комментарии 101
Познавательно, но у меня возникает вопрос другого плана: одно дело, если там уличный корреспондент или интервью какое-то. Но диктор же не сочиняет отсебятину, перед ним там экран с видеосуфлёром, по которому он читает. Т.е. все его тексты и так уже оцифрованы и написаны. Зачем в этой схеме нужен стенографист?
И ещё момент вспомнил: я подобный бред в субтитрах видел ещё пару раз, причём оба раза — в сабах к музыкальным клипам на Ютубе. Поэтому подозреваю, что тот «стенографист» — не сотрудник CNN, а какой-то ютубовский робот, который преобразовывает речь в текст.
Думаю такие люди не только для ютуба работают, но и для внутренней кухни, собственные архивы и прыгание между филиалами или ещё как-то так. Особенно если дикторский текст ещё может заранее записан и можно его вставлять, то текст корреспондента в полях явно не пишется, так что поэтому есть такая профессия, которая пока логирует лучше, чем распознающие боты. Даже старые программы аля 70-х годов, сидит человек и расшифровывает интервью, кто чего сказал и на какой секунде. Нужно для будущих поколений и дальнейшего автоматического поиска по тексту.
И если корреспондент всё-таки готовится к речи, то он периодически берёт интервью у случайных прохожих, которые говорят случайный текст (ведь правда?).
Вы про прямое включение? Потому что большинство роликов, показываемых в новостях, довольно явно смонтированы (т.е. присутствуют монтажные склейки, в том числе с корреспондентом, читающим текст на камеру) и попадают на студию явно до начала выпуска новостей.
Потому что репутация.
Выпуск новостей — это прямой эфир. Текст должен соответствовать тому, что говорит диктор. Если во время выпуска или прямо перед ним случается «breaking news», то текст всё равно должен соответствовать. А не продолжать транслировать фейковую телеметрию, когда ракетоноситель уже потерян.
Да и без брейкинг ньюсов ведущие могут оговориться и исправиться или несколько от текста отойти. Ну и всякие диалоги с кореспондентами живьём могут быть непредсказуемы.
Не дальше чем на прошлый День независимости было, что Трамп с телесуфлёра вместо «Our army rammed the ramparts» прочитал «Our army manned the airports», после чего добавил из головы: «it rammed the ramparts, it took over the airports, it did everything it had to do». Тут сразу и очитка, и исправление, и абсурдная отсебятина экспромтом.
Потерять ракетоноситель — это сильно.
Про такое не скажешь не только «с… дили», но даже и «про… бал».
Не подскажете, кто это так отличился и когда?
Случается такое с ракетами.
Но вот чтоб ракетоноситель потерять — не слыхал такого.
С протоном вроде такая же ситуация была в 2013, когда еще «датчик вверх-ногами заколотили».

mgremlin говорит, что вы путаете ракету-носитель (Протон и Союз) и ракетоноситель (штука, переносит эту ракету)

Увы, но эта битва проигран и давно.
Не просто давно, а с самого начала она проиграна.


Обзывание ракет-носителей словом "ракетоноситель" началось сразу при появлении слова ракета-носитель. Это зафиксировано в лингвистической литературе советских времён.


Есть примеры использования слова "ракетоноситель" в смысле "ракетоносец", но они погоды не делают :(

продолжать транслировать фейковую телеметрию

Это реально такое было?
Но диктор же не сочиняет отсебятину, перед ним там экран с видеосуфлёром, по которому он читает. Т.е. все его тексты и так уже оцифрованы и написаны. Зачем в этой схеме нужен стенографист?

Любому СМИ нужны штатные стенографисты для пресс-конференций.
Раз они уже есть, почему ими не воспользоваться и для субтитров?

И ещё момент вспомнил: я подобный бред в субтитрах видел ещё пару раз, причём оба раза — в сабах к музыкальным клипам на Ютубе. Поэтому подозреваю, что тот «стенографист» — не сотрудник CNN, а какой-то ютубовский робот, который преобразовывает речь в текст.

Ютубовский робот, который преобразовывает речь в текст, генерирует что-то такое:



Видите разницу между этим и «STILLEVELOP PLANANDEMIC, ILNG T»?
Всегда думал, что ютубовские сабы генерит нейронка. Навеяло некоторой необъяснимой лажей, когда слова произносятся предельно отчетливо, но в сабах совершенно иное, причем не связанное даже с контекстом.

Вроде, тут про видео на ютубе, а в видео нарисованы субтитры, как на картинке.

Я заходил на видео по ссылке в статье. Эти сабы включаются/выключаются кнопкой «субтитры» в ютубовском плейере. Это не нарисованные субтитры, а наложенные плейером поверх видео.
Не, там в гифке вначале статьи явно видно, как человек через настройки ютуба включает эти сабы.
Но вроде бы на ютубе субтитры могут быть не только сгенерированы самим сервисом, но и загружены руками.
Автоматические субтитры на Ютубе генерируются распознаванием голоса, да, но автор ведь может загрузить свои сабы. В этом видео нет автоматических сабов, есть две разные версии английских субтитров, обе бракованные.
Субтитры на youtube, насколько мне известно, могут быть как добавлены владельцем видео, так и созданы автоматически — для этого владельцу видео необходимо согласиться на создание авто-субтитров при помощи распознания речи в видео.
Всегда думал, что ютубовские сабы генерит нейронка.

В данном случае — так и было; только нейронка не ютубовская, а CNN-овская, и принимала на входе не звукозапись, а стенограмму.

Навеяло некоторой необъяснимой лажей, когда слова произносятся предельно отчетливо, но в сабах совершенно иное, причем не связанное даже с контекстом.

Сбои ютубовской распознавалки выглядят совсем иначе — например, в результате всегда получаются реально существующие слова, а не «FODOWINGPRESID».
Я один, читая статью, не понимал, почему нельзя использовать диктофон? Наверняка ведь и в те годы можно было сделать компактный потребительский микрофон, сравнимый по чувствительности с человеческим ухом.

Расшифровка дольше происходит. Превратить страничку каши в нормальный текст гораздо быстрее, чем час разговоров с паузами, эканьем, всяким шумом и т.п.

Попробуйте включить на ютубе любое часовое интервью и попробовать сделать его в текст. Вопрос отпадет сам. Я пробовал разок. 3 часа видео в кабаке с беседой под звон пива. Около 10 часов трудозатрат.

Пробовал, делал. Не интервью в кабаке, конечно, но аудиозапись защиты, в большой аудитории, со множеством говорящих и иногда одновременно. Не понимаю, в чем сложность. Нажал паузу, альт-таб, записал. Если разговор с паузами, можно и параллельно успевать записывать. И не нужно никаких «SHRAOUT HRAOE» и десяти вариантов кодирования.
Не понимаю, в чем сложность

Не сложность, а времязатраты.
Нажал паузу, альт-таб, записал

Вы сами подтвердили, что общее время работы будет в несколько раз длиннее видео.
Я пробовал, часовое интервью не делал, но цитаты на несколько минут приходилось выписывать — действительно, занимает неожиданно много времени, но, мне кажется, исключительно из-за несоответствия интерфейса поставленной задаче: не успел за оратором — бросаешь клавиатуру — тянешься за мышкой — наводишь на видео — пару секунд дрочишь указатель мыши, пока всплывёт панель с кнопкой паузы — нажимаешь паузу — начинаешь мучительно отматывать назад, ища момент, с которого ты не успел, на длинных видео это может стать весьма долгим и увлекательным квестом. Была бы какая-то глобальная педаль, чтобы можно было ей ставить на- и снимать с паузы — и, думаю, можно было бы перепечатывать неспешную беседу в плюс-минус реальном времени, спикеров, шпарящих как по-писанному — медленнее раза в полтора-два, а беседы с паузами, эканьем-меканьем и звоном пива кабы не быстрее (если к педали прикрутить ещё ускоренную перемотку туда-сюда, или просто ускорить аудио раза в два).
Была бы какая-то глобальная педаль, чтобы можно было ей ставить на- и снимать с паузы

На многих клавиатурах есть кнопка play/pause. Иногда в явном виде, иногда через Fn. В некоторых ОС можно глобальный шорткат вместо неё назначить

Я пробовал педаль от электропианино как клавишу контрол использовать — опыт интересный и любопытный, но возникает определённый «диссонанс», в общем у меня не прижилось.

Люди, профессионально занимающиеся расшифровкой радиоэфиров, как раз такими пользуются в массе. Дело привычки.

В продаже есть «USB Foot Pedal» — это, фактически, программируемая клавиатура с одной кнопкой. Через ПО задаёшь что оно будет посылать при нажатии (какую кнопку/сочетание кнопок) и можно работать. Я уже несколько лет использую её для голосовых чятеков как выделенную кнопку для push to talk. Дело привычки — я уже не представляю как без неё можно голосовым чатом пользоваться.
По моему опыту, ничто так не убивает скорость печати, как необходимость тянуться пальцами куда-то в необычные места. Кнопка pause на клавиатуре, наверное, будет, всё же, получше мыши в этом отношении, но тоже не ахти, особенно если она «в неявном виде глобальный шорткат через Fn».

Я себе в свое время написал на HTML и JS плеер для видео, который хоткеи ловил. Оч удобно было (правда писать пришлось там же на странице в браузере, но это меня не парило) но особо скорости такое решение не добавило. Просто меньше нервов ушло на упражнения с мышкой.

а чем пробел не подходит? для пауз и запуска.
возможно я что-то не поныл
Тогда уж педалью ставить на паузу, чтобы не переучиваться использовать одну из основных клавиш при наборе текста по разному в разных контекстах.
Все правильно пишите, правильный инструмент тут очень помогает, хотя все равно получается долго. Знаю не по наслышке, по долгу службы часто работаю с интервью. Пока самое удобное, что нашел, — вот эта страничка: otranscribe.com
Горячая клавиша для паузы, ускорение, замедление записи, перемотка и временные метки, на которые можно быстро вернуться.
Аль-таб, пробел. влево, пробел, альт-таб.
такая вот комбинация чтобы с текста перейти на соседнюю вкладку, отмотать 10-15 секунд (больше обычно не надо), запустить всё и вернуться к потерянному.
Тут уже в пальцах запутаешься. К тому же, оно толком не работает — то получается запустить/остановить ютубовское видео нажатием пробела, то вдруг перестаёт получаться (и всегда так было, насколько я помню, хз чо ему надо, может, проблема во мне).
Да, у ютуба пробел работает по фокусу. То популярное включает/отключает, то субтитры. Дичь короче.
k — play/pause, даже если фокус находится не на видео
j и l — перемотка влево-вправо на 10 секунд
? — показать список хоткеев
Firefox + настройка «Искать текст по мере его набора» — не работает.
Какие трудозатраты? Ютюб генерит субтитры — скачиваем, и получаем "стенограмму" с ошибками распознавания. Смотрим видосик и правим по ходу дела.

… что тоже занимает времени не меньше, чем просмотр видео, и тоже требует много правок. Пробовал.

Ну так и создание стенограммы по видео потребует не меньше, чем просмотр видео. Но потом эту стенограмму ещё расшифровать надо. Да, можно сказать что расшифровывать не надо — ведь это можно сделать автоматом… но тогда всё сводится к вариантам:

  • Автомат распознал — человек проверил
  • Человек составил стенограмму — автомат расшифровал

Времени оба варианта занимают одинаково, вот только во втором случае могут быть косяки как описанные в статье. Да ещё человек нужен со специальной нужен.
ну вот же написал, в кабаке под звон бокалов и пьяная речь… Я же знаю о чем базар.
Во-первых, стенограмма часто была важным документом. Документ — это текст на бумаге, аудиозапись документом не является (на неё не поставить подпись, печать, не провести почерковедческую экспертизу). Во-вторых, стенограммы хранятся в течении длительного срока. Срок хранения магнитной аудио записи не идет ни в какое сравнение со сроком хранения бумажной записи. Цена листа бумаги на порядки ниже цены аудиокассеты, а объем хранимой информации там довольно большой.
Сейчас многое изменилось технологически, но на момент создания этого порядка технической возможности вести аудиозапись — не было. Теперь так уж исторически сложилось и закреплено законодательно (в нормативных документах).

"почерковедческую экспертизу" документа с печатной машинки — это сильно :)

Для печатной машинки проводят не столько «почерковедческую» сколько «технико-криминалистическую» экспертизу.
Ну и строго говоря, пока машинки были чисто ручными без электричества, почерк тоже был.
Почерковедческую экспертизу подписи на машинописном документе.

Голос на аудиозаписи хоть и можно идентифицировать, но гораздо сложнее доказать, что сама запись не смонтирована. С бумажным документом, подписанным ручкой, такой проблемы нет.
Видимо, как тут пишут, из-за законов. Я некоторое время юзала Express Scribe, там можно замедлять, ускорять, останавливать, отматывать назад-вперед, кажется даже частично шумы убирает. Если все через горячие клавиши делать, норм. С непривычки долго, с опытом входишь во вкус.
почему нельзя использовать диктофон?

Как вы представляете работу, причем, зачастую, совместную, причем, зачастую, разнесенную во времени и многократно повторяющуюся, с нетекстовыми документами?


Этак представляем, звонит адвокат другому и говорит вместо "см. стр 5, строки 8-10" — "запусти это аудио, перемотай на 00:06:54.50, и случшай ровно n секунд". А потом, если нужно повторить — каждый раз слушать и перематывать, слушать и перематывать? А как это делать без спецоборудования — адвокатам и другим лицам, работающим с судебными документами, прикажете работать только стационарно, или с собой таскать спецмагнитофоны?


И как вы думаете, почему здесь так любят статьи, и так не любят подкасты и видео без текстовой расшифровки? И это для разового просмотра.

А сейчас адвокаты работают с нерасшифрованными стенограммами?
Сейчас огромная масса народа вместо смс на 10 символов шлет друг другу 2 минутные послания голоом. И считает это нормальным.
Занятно, что данная проблема поднималась ещё в романе «Дракула» (19 век!): один из главных героев, врач психушки, ведёт записи на фонографе вместо бумаги. Потом вдруг сталкивается с необходимостью поиска по этим данным, и, такой: «Ой, как-то я не подумал...»
Круто, про устройства я не знал — думал стенографисты запысывают всё на бумаге спецсимволами, а потом каракули расшифровывают.
А ведь это набор текста сочетаниями «горячих клавиш» 80-го уровня.
Я пытаюсь прикинуть — будет ли так же удобно программировать? В любом языке программирования куча ключевых слов, которые «аккордами» набирать можно.

Скорость кодирования обычно не требуется разгонять до реалтайма. И поздравляю, вы изобрели vi/emacs.

Аккорды давно применяются в Delphi для ускорения многобуквенного синтаксиса паскаля.

В спектруме (ZX80) так было — одна клавиша одно выражение.

Вспомните клавиатуру ZX Spectrum. Там во встроенном BASIC ключевые слова набирались одной или сочетанием нескольких клавиш.
Помню микрокомпьютер «Электроника МК-90», тоже Бейсик и вставка по сочетанию двух клавиш.
Рукописными каракулями по-прежнему пользуются: стенотайпу нужно электричество и две свободные руки, в карман его не положишь, на ходу не попечатаешь, и т.д.

Так же, как вычисления «в столбик» не ушли в прошлое с появлением счётных машин.
Кстати, была (наверное «была») советская система стенографии, году в 1985-86 я даже дистанционно ей учился, что-то запомнил, но до конца курс не прошел — поступил в институт. Там иногда в лекциях некоторые слова записывал спецсимволами, чем немало удивлял тех, кто брал переписать мои лекции :) похожи они чем-то были на арабскую вязь, только слева-направо; сейчас конечно всё уже забыл.
В свое время в Науке и жизни был цикл статей «Скоростное конспектирование», где стенография как раз не очень приветствовалась. Потому что в ней (я тоже видел эту книжку, которую упоминал tyomitch) многое зависит от контекста. Типа «Л» — это Ленин.
Суть системы была в том, что мы вводили буквально несколько десятков символов типа кванторов, писали корни слов, а наиболее распространенные окончания и приставки можно было отмечать символами наподобие стенографических.
У меня были символы для концовок типа «ение», «ность», глаголов, в т.ч. возвратных, причастий действительных и страдательных. До сих пор могу прочитать, а писать можно было со скоростью лектора.
В любой американской судебной драме недалеко от судьи сидит стенографистка и чего-то печатает. Иногда по требованию судьи зачитывает с этой ленты.
Радисты, вон, точками и тире шпарят, а программистам 80-го уровня нужно писать сразу единицами и нулями)))
Как-то раз встретил напросторах сайт. Спарва подумал что у меня с глазами что-то, потом что с головой, а потом дошло что это сайт энтузиастов морзянщиков.
У них весь сайт на морзянке был.
Годы прошли а забыть не могу того удивления.
«стенографист со стенотайпом может печатать до 300 слов в минуту»

Т.е. Эминем, начитавший в треке Godzilla 229 слов за 30 секунд, перечеботарил стенографиста? Любопытная уязвимость.
Что-мне кажется, что сглюкануло распознавание речи, а субтитры создаются автоматом.

Прошу прощенья, но 12/11/2020 — это 11 декабря 2020. Оно ещё не наступило. По-нашему это будет 11.12.2020. У них другая система записи, формат ММ/ДД/ГГГГ. Отличать можно по слешам. Если дата через слеши, то сперва идёт месяц. Когда начинают через слеши писать в российском формате, наступает путаница.

В ISO 8601 хоть обычно двусмысленности не возникает (2020-11-12T13:00:00Z), но порядок ГГГГ-ММ-ДД не используется в документах, с которыми мы сталкиваемся постоянно. Придется во всех сферах жизни на него переходить, чтоб мозг не ломался от ситуации к ситуации.
В ISO 8601 хоть обычно двусмысленности не возникает

Именно поэтому он и рекомендуется. Его специально разработали таким.
Придется во всех сферах жизни на него переходить, чтоб мозг не ломался от ситуации к ситуации.

Давно пора. Я вот самостоятельно перешёл на ГГГГ.ММ.ДД для удобства задач сортировки, а сейчас на ISO 8601 для стандартизации.
Некоторые страны даже на метрическую систему в быту никак не перейдут. Хотя тут проще. Дни, месяцы и годы не меняют своих значений, только меняется порядок. И меняется на вполне логичный. Причём отличить старый формат от нового можно по разделителям.
Надо рядом с датой указывать культуру! «11/12/2020 en_US» или как то так…

Проще ISO 8601 использовать. Проблема с теми, кто этого не делает.

В быту этого никто не делает или почти никто, судя по табличке из комментария выше.

Ну так и культуру никто в быту дописывать к дате не будет, в том-то и проблема.

Американские стенографисты уже больше сотни лет как используют специальные устройства с минимальной 22-клавишной клавиатурой — по две клавиши под каждый палец

22 / 2 = 11. Мы что-то не знаем о американских стенографистах?

Так под каждый палец по две клавиши
20 клавиш на 10 пальцев на руках, и ещё две — на тот… кхм… палец
Судя по картинке из поста, на указательные пальцы приходится 4 клавиши, а на большие по 1.

Видел таких стенографистов на американской конференции State of the Map. Сидели на втором-третьем ряду и невозмутимо писали, смотря вперёд перед собой. На сайте конференции в этот момент в прямом эфире шёл текст из речи докладчика. Ощущалось… как будущее.

Меня удивило что в раскладке для стенографистов, от которой требуется только максимальная скорость, клавиши AOEU находятся в отдельном ряду максимально удобно для нажатия. Лишний довод в сторону моей любимой раскладки Dvorak и против раскладки QWERTY которая была составлена для причин все-таки отличных от быстрого печатания.

Я долгих четыре с половиной десятка лет задумывался, как работают эти штуковины. Правда, задумывался как-то не очень глубоко, ибо ответ на свой насущный вопрос прочитал только что.
Но теперь уже не забуду никогда! Спасибо автору.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.