Как стать автором
Обновить
-5
0
Megakazbek @Megakazbek

Пользователь

Отправить сообщение

Улучшаем пунктуатор на стенограммах

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров1.8K

Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.

Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.

Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.

В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии11

Что означает DIPM для SSD дисков

Время на прочтение5 мин
Количество просмотров37K
Рассматривая различные характеристики SSD дисков, достаточно часто можно встретить упоминание об DIPM в характеристике энергопотребления твердотельного дисков. Если SSD используется или планируется использовать в desktop-ах, то на это значение можно не обращать внимания, а если в notebook-ах и netbook-ах? Вот тут все зависит от того, насколько вам небезразлично время автономной работы мобильного устройства от аккумулятора. Что же, попробуем разобраться в вопросе, что такое DIPM и для чего он нужен SSD.
Читать дальше →
Всего голосов 40: ↑38 и ↓2+36
Комментарии13

190 инди игр за 10 минут

Время на прочтение1 мин
Количество просмотров840


На видео за 10 минут нам предлагают 190 инди игр.
Что примечательно, внизу нам пишут название показываемой игры и дают ссылку на полное видео с ней.
Всего голосов 82: ↑57 и ↓25+32
Комментарии50

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность