Открыть список
Как стать автором
Обновить
30
Карма
0
Рейтинг
Андрей Шмиг @AndrewShmig

ML & JS <3

  • Публикации
  • Комментарии

Нормализация текста в задачах распознавания речи

Open sourceМашинное обучениеЗвукNatural Language Processing
Из песочницы

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.


Другими словами, текст нужно провести через несколько этапов:


  • Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
  • Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
  • Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization


В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.


Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:


norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'
Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Просмотры5.6K
Комментарии 8

IBM Watson Studio — облачная платформа для разработки приложений ИИ

Блог компании IBMМатематикаОблачные сервисыИскусственный интеллект
Перевод

image


Представляем IBM Watson Studio


Специалисты начинают пользоваться искусственным интеллектом для превращения нашего самого ценного ресурса — данных — в новые формы ведения бизнеса. Искусственный интеллект дает нам возможность закончить битву с данными и начать пользоваться ими для подготовки убедительных рекомендаций, ускорения научных исследований и повышения качества взаимодействия с клиентами в удобной для них форме. Задача систем искусственного интеллекта — дополнять интеллект человека, и сегодня мы делаем еще один шаг на пути к тому, чтобы сделать ИИ более доступным каждому. Встречайте IBM Watson Studio.

Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры6.2K
Комментарии 0

Яндекс открывает датасеты Толоки для исследователей

Блог компании ЯндексData MiningОткрытые данныеИсследования и прогнозы в ITКраудсорсинг
Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.
Читать дальше →
Всего голосов 83: ↑81 и ↓2 +79
Просмотры31K
Комментарии 27

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

Блог компании ЯндексData MiningАлгоритмы
imageНа Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

image

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Как устроено распознавание речи в Яндексе
Всего голосов 155: ↑149 и ↓6 +143
Просмотры136K
Комментарии 60

36 материалов о нейросетях: книги, статьи и последние исследования

Блог компании Neurodata LabПрограммированиеАлгоритмыПрофессиональная литератураМашинное обучение
Что делать, если хочется побольше узнать про нейронные сети, методы распознавания образов, компьютерное зрение и глубокое обучение? Один из очевидных вариантов — подыскать для себя какие-либо курсы и начать активно изучать теорию и решать практические задачи. Однако на это придется выделить значительную часть личного времени. Есть другой способ — обратиться к «пассивному» источнику знаний: выбрать для себя литературу и погрузиться в тему, уделяя этому всего полчаса-час в день.

Поэтому, желая облегчить жизнь себе и читателям, мы сделали краткую подборку из книг, статей и текстов по направлению нейросетей и глубокого обучения, рекомендуемых к прочтению резидентами GitHub, Quora, Reddit и других платформ. В неё вошли материалы как для тех, кто только начинает знакомство с нейротехнологиями, так и для коллег, желающих расширить свои знания в этой области или просто подобрать «легкое чтение» на вечер.

Читать дальше →
Всего голосов 23: ↑23 и ↓0 +23
Просмотры88.3K
Комментарии 9

Чертова дюжина для PM: список книг для проджект-менеджеров

Блог компании Binary DistrictПрофессиональная литератураУправление проектами
Преподаватели Binary District подготовили список книг для будущих студентов курса Project Management in IT: это база, способная сделать из хорошего управленца лучшего. Список настолько хорош, что по крайней мере половину книг можно смело рекомендовать вообще всем, кто хочет стать лучшей версией себя.


Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры29.7K
Комментарии 6

Vuex: структурирование больших проектов и работа с модулями

Блог компании RUVDS.comРазработка веб-сайтовJavaScriptVueJS
Перевод
Vuex — это официальная, отлично документированная библиотека для управления состоянием приложений, разработанная специально для фреймворка Vue.js. Автор материала, перевод которого мы сегодня публикуем, полагает, что пользоваться этой библиотекой гораздо приятнее, чем Redux, так как, во-первых, для работы с Vuex требуется меньше шаблонного кода, а во-вторых — из-за того, что для работы с асинхронными механизмами здесь не нужно дополнительных библиотек. Более того, так как библиотека Vuex создана той же командой, которая занимается работой над Vue, эта библиотека очень хорошо интегрируется с данным фреймворком. К сожалению, в работе с Vuex всё ещё можно столкнуться с одной сложностью, которая заключается в правильной подготовке структуры проектов, в которых планируется пользоваться этой библиотекой.



В этой статье вы найдёте описание методики структурирования больших проектов, использующих Vuex, и скрипта, предназначенного для автоматизации процесса создания модулей Vuex.
Читать дальше →
Всего голосов 25: ↑24 и ↓1 +23
Просмотры22.7K
Комментарии 6

Исповедь фрилансера-нищеброда, или живем в чужой стране в половину обычной суммы

Фриланс


Каждый раз натыкаясь на статьи, посвященные переезду фрилансера в другую страну для временного или постоянного места жительства и работы, я удивляюсь невероятному количеству денег, которые переезжающий тратит на сам переезд. Оно-то может и хорошо, когда такие средства есть, но в силу специфики моей работы и нежелания ее менять, я зарабатываю в 2 раза меньше «средней по больнице» зарплаты фрилансера, но, как бонус, имею кучу свободного времени и относительную стабильность и предсказуемость моего невысокого дохода.

Сейчас в моей жизни обстоятельства так сложились, что я вынужден на некоторое время переехать жить в другую страну. Впрочем, вынужден — не то слово. Переехал я с радостью, чего уж там. Хочу поделиться с вами способом экономить на чужбине в период становления вас как жителя новой страны, в самое тяжелое время адаптации, которое и отнимает наибольшее количество денег. Постараюсь писать общие тезисы, однако под каждым разделом будет спойлер конкретно про Черногорию и мой опыт переезда и проживания тут. Надеюсь, я помогу вам сэкономить в первое время пребывания на новом месте.
Итак, собрали чемоданы? Поехали.
Всего голосов 70: ↑65 и ↓5 +60
Просмотры54.7K
Комментарии 119

Классификация тем обращений в контактный центр

СемантикаData MiningМашинное обучение
Здравствуйте, коллеги! В этой статье я кратко расскажу об особенностях построения решения по классификации тем обращений клиентов в контактный центр, с которыми мы столкнулись при разработке.

Определение тем обращений используется для отслеживания тенденций и прослушивания интересующих записей. Традиционно, эта задача решается путём проставления соответствующего тега оператором, но при данном подходе большую роль играет «человеческий» фактор, и тратится много человеко-часов работы операторов.


Читать дальше →
Всего голосов 12: ↑8 и ↓4 +4
Просмотры3.7K
Комментарии 0

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

PythonData MiningМашинное обучениеИскусственный интеллектNatural Language Processing
В 2020 году библиотека Natasha значительно обновилась, на Хабре опубликована статья про актуальную версию. Чтобы использовать инструменты, описанные в этом тексте, установите старую версию библиотеки pip install natasha<1 yargy<0.13.

Раздел про Yargy-парсер актуален и сейчас.


Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:



Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Python. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

Год назад Дима Веселов начал проект Natasha. С тех пор код был значительно доработан. Natasha была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.
Natasha — это аналог Томита-парсера для Python (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.
В статье показано, как использовать готовые правила из Natasha и, самое главное, как добавлять свои с помощью Yargy-парсера.
Читать дальше →
Всего голосов 87: ↑86 и ↓1 +85
Просмотры53.7K
Комментарии 33

Эффективные методы сжатия данных при тренировке нейросетей. Лекция в Яндексе

Блог компании ЯндексСжатие данныхМашинное обучение
Не так давно в Яндекс приезжал Геннадий Пехименко — профессор Университета Торонто и PhD Университета Карнеги-Меллон. Он прочитал лекцию об алгоритмах кодирования, которые позволяют обходить проблему ограничения памяти GPU при обучении глубоких нейронных сетей.


— Я вхожу в несколько групп Университета Торонто. Одна из них — Computer Systems and Networking Group. Есть еще моя собственная группа — EcoSystem Group. Как видно из названий групп, я не специалист непосредственно в машинном обучении. Но нейронные сети сейчас достаточно популярны, и людям, которые занимаются компьютерной архитектурой и сетями, компьютерными системами, приходится сталкиваться с этими приложениями на постоянной основе. Поэтому последние полтора-два года этой темой я тоже плотно занимаюсь.
Читать дальше →
Всего голосов 41: ↑41 и ↓0 +41
Просмотры11.4K
Комментарии 7

Парсим русский язык

АлгоритмыNatural Language Processing

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Всего голосов 128: ↑124 и ↓4 +120
Просмотры66.1K
Комментарии 97

Синтаксический анализ текстов с помощью SyntaxNet

PHPPythonПрограммированиеАлгоритмыМашинное обучение
Для одной из задач мне понадобился синтаксический анализатор русскоязычных текстов. Что это такое. Например, у нас есть предложение «Мама мыла раму». Нам нужно получить связи слов в этом предложении в виде дерева:

image

Из этого дерева понятно, что связаны слова «мама» и «мыла», а также «мыла» и «раму», а слова «мама» и «раму» напрямую не связаны.

Статья будет полезна тем, кому понадобился синтаксический анализатор, но не понятно, с чего начать.

Я занимался этой темой несколько месяцев назад, и на тот момент нашел не много информации по поводу того, где бы взять готовый и желательно свободный анализатор.
Читать дальше →
Всего голосов 29: ↑29 и ↓0 +29
Просмотры33.1K
Комментарии 22

Разработка системы биометрической идентификации по речи

Анализ и проектирование системАлгоритмыМашинное обучение
Из песочницы
Здравствуйте, коллеги! В этой статье я кратко расскажу об особенностях построения систем биометрической верификации/идентификации, с которыми наша команда DATA4 столкнулась, создавая собственное решение.

Задача аутентификации личности используется в областях с необходимостью контроля доступа. Это банки, страховые компании, и другие области где используются конфиденциальная информация.

Традиционно, аутентификация использует принцип знания «ключа», такого как пароль, контрольное слово или номер паспорта. Описанный способ обладает недостатком – подтверждается не личность, а известная личности информация.
Биометрические решения лишены этого недостатка.
Читать дальше →
Всего голосов 21: ↑17 и ↓4 +13
Просмотры4.6K
Комментарии 5

7 бесплатных курсов по Data Science для начинающих

Блог компании icanchoose.ruData MiningBig Data
Большие данные перестали быть просто модным словом и теперь применяются в сферах от IT до ритейла. Самое время начать разбираться в моделях анализа данных, погрузиться в массивы информации и получить опыт в интересном направлении — Data Scientist. Держите курсы, в которых изучите теорию и наберетесь практики. Профи не станете, но первый шаг сделаете.


Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры96K
Комментарии 1

5 лучших стран для IT бизнеса

Развитие стартапа
Из песочницы
Придумана идея вашего бизнеса или бизнес уже начал работать, а вам хочется расти дальше? Окружающие вас ресурсы являются неоптимальными — дорогая аренда, сложность ведения бизнеса, высокая заработная плата сотрудников, затруднительный доступ к большим объемам электроэнергии и неразвитость IT инфраструктуры? Давайте подумаем о будущем вашего бизнеса вместе. На основе множества критериев, таких как легкость регистрации и ведения бизнеса, эффективные способы защиты интеллектуальной собственности, уровень налогообложения и международной торговли, степень государственной поддержки и защищенности бизнеса, уровень доступности электросетей и конкурентной IT инфраструктуры, я отобрал 5 лучших стран и собрал отзывы от успешных компаний, имеющих бизнес, представительства или просто партнеров в этих странах. На основе этих данных составлен рейтинг и рекомендации, которыми я с радостью поделюсь с вами.

5-е место. Южная Корея


“+”


Южная Корея редко приходит на ум, когда возникает идея открыть бизнес за границей. При этом, экономика Южной Кореи, по разным данным, находится на 11-15 месте в мировом рейтинге и является одной из самых быстрорастущих.
Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Просмотры25.6K
Комментарии 21

Стэнфордская стартап-школа: Нетривиальные аспекты командной работы [часть 1]

Блог компании Фонд развития интернет-инициативПрофессиональная литератураУправление e-commerceПрезентации
Перевод


Cтэнфордский курс CS183B: How to start a startup. Стартовал в 2012 году под руководством Питера Тиля. Осенью 2014 года прошла новая серия лекций ведущих предпринимателей и экспертов Y Combinator:


Первая часть курса
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры8.9K
Комментарии 0

Системы предсказания преступлений

Искусственный интеллект


Самая большая проблема в изучении действующих методов предсказания преступлений — отсутствие достоверной информации. Нет ничего удивительного в том, что вокруг систем, эффективность работы которых оценивается именно по достоверности выдаваемых данных, сплетается паутина из непроверенных фактов, злонамеренных информационных вбросов, саботажа и раздуваемых жёлтой прессой криков. Легче всего спрятать то, что у всех на виду. Вам действительно необходимо было явление Сноудена, чтобы перестать отправлять через Skype корпоративные секреты? Вы сомневались в тесном сотрудничестве IT-компаний со спецслужбами до Wikileaks? Вы до сих пор верите, что за вывеской «проводится начальная стадия эксперимента» можно спрятать эффективную аналитическую машину? Ещё в 2009 году на Хабре появились первые статьи о предсказании преступлений. Тогда казалось, что мы свидетели зарождения новой эпохи.

Вот только мы не свидетели. Мы — подозреваемые эпохи предсказаний.

Читать дальше →
Всего голосов 55: ↑43 и ↓12 +31
Просмотры35.5K
Комментарии 37

Вирусный маркетинг

Чулан
В предыдущих статьях я привела свою классификацию распространенных типов маркетинга «сарафанного радио» (WOMM). Я перечислила 11 типов и обещала рассказать о каждом из них подробнее. Я уже успела написать о маркетинге слухов и привести пример его практического использования (см. kudashkina.habrahabr.ru/blog/75946 ). Сегодня мы поговорим о вирусном маркетинге. Это обширная тема, заслуживающая быть выделенной в отдельную статью (возможно, даже не одну).

Вирусный маркетинг (маркетинг «сарафанного радио») – отличная вещь. Только подумайте… вместо того, чтобы тратить бешеные деньги на рекламу в печатных изданиях, на телерекламу или баннеры, вы ничего не тратите – и позволяете своим почитателям делать всю работу за вас.

Читать дальше →
Всего голосов 9: ↑6 и ↓3 +3
Просмотры674
Комментарии 6

11 типов маркетинга «сарафанного радио»

Чулан
Маркетинг «сарафанного радио» охватывает множество маркетинговых техник, направленных на то, чтобы стимулировать людей к обсуждению товаров и услуг, и на содействие подобным обсуждениям.

Ниже я перечислила распространенные типы маркетинга «сарафанного радио». Это неполный список – я публикую его для того, чтобы начать диалог и в результате прийти к некой стандартизации, поэтому мне будут интересны ваши комментарии. (Не каждый согласится с тем, что все эти типы должны использоваться маркетингом «сарафанного радио», к тому же, многие маркетологи используют для их описания другие термины).
Читать дальше →
Всего голосов 23: ↑18 и ↓5 +13
Просмотры1.3K
Комментарии 16

Информация

В рейтинге
5,727-й
Откуда
Владимир, Владимирская обл., Россия
Зарегистрирован
Активность