Бочаров Виктор @bocharov

natural language processing

Профиль Публикации 3Комментарии 22Закладки 12

e777 6 янв 2016 в 02:51

Некоторые современные подходы в области обработки естественного языка

4 мин

20K

Результаты научных исследований, полученные в последние годы в задачах распознавания речи [1], машинного перевода [2], определения оттенка предложения [3] и частей речи [4] показали перспективность нейросетевых алгоритмов глубокого обучения в сравнении с классическими методами обработки естественного языка (natural language processing). Однако, в области вопросно-ответных и диалоговых систем еще остается много нерешенных задач [5, 6]. В данной статье дан обзор результатов применения современных алгоритмов для задач обработки и понимания естественного языка. Обзор содержит описание нескольких разных подходов и не претендует на полноту исследований.

Human: how many legs does a cat have ?
Machine: four, i think .
Human: What do you think about messi ?
Machine: he ’s a great player .
Human: where are you now ?
Machine: i ’m in the middle of nowhere .

(из статьи A Neural Conversational Model. КДПВ из фильма Ex Machina)

Читать дальше →

+18

ganqqwerty 27 дек 2015 в 03:00

Google Knowledge Graph Search API заменит Freebase

1 мин

7.5K

Искусственный интеллектIT-компании

Google выпустил API для своей базы знаний Google Knowledge Graph. Сервис уже выдает данные в формате JSON-LD (LD здесь означает Linked Data, да-да!) и использует типы schema.org. Помимо соблюдения стандартов, радостной новостью является наличие обратной совместимости с Freebase — всегда когда возможно, для идентификации сущностей используются ключи из Freebase. Программный интерфейс Freebase будет доступен в течение еще трех месяцев.
Напомню, что Knowledge Graph — это база знаний, которая в числе прочего формирует вот такие вот инфобоксы в результатах поиска:

Читать дальше →

bocharov 25 дек 2015 в 00:13

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

6 мин

11K

Семантика*Блог компании Content AIData Mining*

Соревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:

по выделению именованных сущностей и фактов – FactRuEval;
по анализу тональности – SentiRuEval;
по исправлению опечаток – SpellRuEval.

Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.

Узнать подробности про FactRuEval ...

+21

DSkorinkin 21 дек 2015 в 09:49

Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым

10 мин

14K

Семантика*Блог компании Content AIData Mining*Визуализация данных*

Недавно мы рассказывали здесь о том, как делался проект «Весь Толстой в один клик». С помощью 3249 (трех тысяч двухсот сорока девяти) волонтеров и 1 (одной) хорошей OCR-технологии мы оцифровали 46820 страниц 90-томного собрания сочинений писателя, тщательно вычитали их и выложили во всеобщий доступ.

Но если вы думали, что наш «роман с Толстым» на этом закончился, то вы ошибались – оцифровав тексты писателя, мы начали исследовать их при помощи технологии извлечения информации ABBYY Compreno – не пропадать же такому богатому материалу. О том, что дал нам «text mining Толстого» и где теперь используются полученные результаты, читайте дальше.

Введение

Главной целью проекта «Весь Толстой в один клик» было сделать творчество Толстого по-настоящему всеобщим достоянием, чтобы все вышедшие из-под его пера тексты были доступны в один клик в любой точке Земли. Как, кстати, и завещал сам автор, еще при жизни отказавшийся от всех прав на свои тексты (да-да, анонимус, Лев Толстой знал про копилефт и опендату задолго до этих ваших интернетов и Ричарда Столлмана).

Однако возможность загрузить книжку в удобном формате в ридер или планшет – не единственный плюс оцифровки. Теперь тексты Толстого можно не только читать, но и «измерять», то есть исследовать разными количественными методами, используя весь арсенал средств автоматической обработки текста (АОТ, она же NLP). Ведь если у вас есть все тексты писателя в электронном виде, даже с помощью одного-двух грамотных поисковых запросов вы можете получить любопытные данные, на добычу которых в иные времена мог потратить недели и месяцы упорного труда какой-нибудь литературовед. А уж если у вас к тому же имеется продвинутая технология анализа естественного языка, то есть шансы сделать серьезное филологическое открытие (даже не будучи филологом). Ниже я расскажу, что удалось намерить и узнать нам, но перед этим – пара слов о том, кто, как и зачем занимается автоматической обработкой художественных текстов и что интересного может при этом получиться.

Читать дальше →

+33

maxsolnc 19 ноя 2013 в 16:27

Криптовалюты — это не только «электронные деньги», но и другие полезные возможности

4 мин

26K

Платежные системы*

Из песочницы

«Кролики – это не только ценный мех…»

Последний год шумиха вокруг криптовалют не утихает: биржи растут, как на дрожжах, открываются (и закрываются) крупные сервисы по работе с электронной валютой – как магазины, так и платёжные системы, идут обсуждения в американском сенате. И всё это на фоне прыгающих курсов и общей истерии по поводу цен и возможности быстрого обогащения.

На данный момент мы видим, что криптовалюта пока что является «вещью в себе»: вычислительные мощности используются исключительно для генерации хэшей различными алгоритмами. Существует много разных вариаций на тему «Алгоритм только для CPU», «Алгоритм в бОльшей степени для ASIC-ов», различные алгоритмы для автоподстройки сложности сети и т. д. Но по сути это является вариацией на одну и ту же тему: вычислительные мощности идут исключительно на генерацию новых монет.

Но на самом деле есть и другие применения криптовалют!

+28

nicolausYes 29 окт 2012 в 12:40

27+ ресурсов для онлайн-обучения

5 мин

969K

Программирование*

В настоящее время активно развивается система дистанционного обучения, теперь уже не является проблемой получение полноценного образования практически по любому предмету дистанционно. Онлайн-обучение имеет ряд преимуществ – обучение в индивидуальном темпе, свобода и гибкость, доступность, социальное равноправие. В сети появляется все больше сервисов, помогающих получать новые знания.

Статья содержит перечень ресурсов для онлайн-обучения, представляющих интерес преимущественно для программистов.

Читать дальше →

+152

bocharov 22 окт 2012 в 12:19

«Он видел их семью своими глазами»

6 мин

65K

Open source*

Можешь выбрать подходящую к заголовку поста картинку?

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать дальше →

+145

116

dustalov 1 окт 2012 в 08:37

NLPub — каталог лингвистических решений

2 мин

9.2K

Я пиарюсь

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?

Читать дальше →

+45

tlando 11 ноя 2011 в 13:41

Семинар: языковые платформы, основанные на правилах и диалоговые AI системы

2 мин

929

Я пиарюсь

Завтра, 12 ноября 2011, в 17.00 состоится очередной семинар из цикла Автоматическая обработка естественного языка.

На семинаре будут представлены два доклада:
1. Насколько устарели языковые платформы, основанные на правилах?
2. Наш ответ Siri или построение системы диалогового AI для нового продукта i-Free

Читать дальше →

+15

Irokez 10 авг 2011 в 00:28

Определение части речи слов в русском тексте (POS-tagging) на Python 3

9 мин

94K

Python*Natural Language Processing*

Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.

Узнать, как это реализовать на Python 3

+80

alizar 14 июл 2010 в 15:22

Bitcoin (฿): пиринговая криптовалюта

1 мин

49K

Криптография*

Неделю назад вышел релиз Bitcoin 0.3.0, единственной в мире полностью децентрализованной анонимной платёжной криптосистемы, которая создаётся по принципам open source. Это уникальная в своём роде валюта уже доказала, что эмиссия платёжных инструментов и контроль за их обращением возможен исключительно на основе P2P-отношений и системы криптографических ключей, без какого-либо эмиссионного центра. Таким образом, Bitcoin (฿) не может обесцениться из-за политики Центробанка какой-либо страны, как в случае с долларом, евро или любой другой «национальной» валютой.

Читать дальше →

+72

174

amarao 14 июл 2010 в 05:46

Высшее образование

4 мин

15K

Учебный процесс в IT

Объявление: Требуется сотрудник технической поддержки. Обязанности: ответы на звонки клиентов, помощь в погрузо-разгрузочных работах. Требование: высшее образование, опыт работы от 5 лет на аналогичной должности.

Немного утрирую. Но что значит высшее образование в применении к IT? Безусловно, выпускник MIT или Berkley со специализацией в Computer Science — это реально круто.

… но мы же про Россию, да? Менеджер по продажам с дипломом по морской навигации, финансовый директор с диссертацией по органической химии, лингвист-сисадмин…

Впрочем, нет, не лингвист. Прикладная математика и физика. Кафедра гидрогазодинамики. Уравнение Навье-Стокса, эпюры перерезывающих сил… Это очень важная информация, когда мы начинаем обсуждать особенности работы ядра гостевой системы в паравиртулизированной среде. Ну или, хотя бы, ковыряться в питоновском коде, развлекаясь с фрагментами функционального программирования.

Зачем айтишнику высшее образование? Зачем айтишнику какое-нибудь высшее образование (т.е. зачем галочка «есть хоть какое-то в/о»)?

Я слышал несколько аргументов, и ни один из них меня не устроил.

Итак, аргументы от адвоката дьявола:

Читать дальше →

+140

518