Как стать автором
Обновить
0
0
Дмитрий Грановский @Granovsky

Пользователь

Отправить сообщение

Лингвистические технологии ABBYY. От сложного — к совершенному

Время на прочтение9 мин
Количество просмотров1.3K
Над решением проблем, связанных с автоматической обработкой естественного языка и пониманием машиной смысла текста, человечество бьется не один десяток лет. Определенных успехов в этой области достигла российская компания ABBYY, разработавшая универсальную лингвистическую платформу Compreno для выполнения множества прикладных задач на качественно ином уровне.

Идея разобраться с одной из ключевых проблем теории искусственного интеллекта и решить задачу понимания вычислительной техникой человеческой речи зародилась в умах специалистов ABBYY пятнадцать лет назад. Именно тогда с подачи основателя компании Давида Яна стартовали сначала научно-исследовательские, а затем опытно-конструкторские и технологические работы по созданию системы машинного перевода нового поколения, впоследствии переросшей в отдельный проект Compreno (прежнее название — Natural Language Compiler) по решению множества задач, связанных с обработкой естественного языка.
Читать дальше →
Всего голосов 13: ↑10 и ↓3+7
Комментарии8

Заметки об NLP (часть 1)

Время на прочтение5 мин
Количество просмотров15K
В преддверии Нового года решил начать небольшой цикл статей, посвящённых наиболее интересующему меня лично направлению в обработке текстов на естественном языке. (То есть NLP в заголовке означает natural language processing — ваш К.О.) Синтаксический анализ, семантика, машинный перевод, поиск смысла слова в контексте — в общем, вся радость компьютерного лингвиста :)

Наверно, сразу имеет смысл определиться с уровнем изложения. Я сам пытаюсь заниматься компьютерной лингвистикой (с переменными успехами). Постараюсь рассказать о том, что конкретно волнует, чего уже можно, чего пока нельзя, и над чем как раз сейчас надо работать. Быть может, эти статьи помогут мне самому отструктурировать информацию в голове и опираться на уже готовую структуру в новом году. А если у читателей появятся свои идеи или мысли о сотрудничестве — ещё лучше.
Интересующихся прошу под кат
Всего голосов 67: ↑57 и ↓10+47
Комментарии54

В Калужской области в описании конфискованного имущества заменяют буквы

Время на прочтение2 мин
Количество просмотров1.8K
Вопрос с заменой букв в лотах, который поднимался в прошлом году на уровне Хабра, а потом и на уровне Президента (тенденция, однако), оказывается, до сих пор актуален в Калужской области. Правда, в совсем других масштабах.

Совершенно случайно обнаружили аналогичный механизм на сайте территориального управления Росимущества по Калужской области — в разделе "Реализация арестованного и конфискованного имущества". Теоретически, на этом сайте можно купить «Факсимильный аппарат „Рапаsопiс КХ-F902RU“ за 500 рублей — разумная цена за б/у аппарат, но поиск по слову „Panasonic“ и Калужской области результатов не дает. Аналогичная ситуация с разными Saмsuпg'ами, холодильниками BOSH и прочей техникой иностранных брендов, представляющей хоть какой-то интерес. В других регионах тоже встречаются единичные нарушения, но именно по Калужской области это совершенно обычная практика.

Мы разместили новость на региональном портале (откуда она быстро уйдет в СМИ), а также написали обращение в калужскую прокуратуру и запаслись попкорном следим за развитием событий.

Читать дальше →
Всего голосов 93: ↑90 и ↓3+87
Комментарии86

Mathlingvo — блог о компьютерной лингвистике

Время на прочтение2 мин
Количество просмотров5.3K
Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

image

Читать дальше →
Всего голосов 29: ↑27 и ↓2+25
Комментарии8

Розалинд — платформа для изучения биоинформатики

Время на прочтение2 мин
Количество просмотров17K
DNA

Широко известны сайты для решения олимпиадных задач по программированию, такие, как, например, TopCoder и Codeforces, а также сборники математических задач-головоломок, например, Project Euler. За последний год произошёл бум онлайн образования: возникли стартапы Coursera и Udacity, предоставляющие онлайн курсы от топовых университетов США… но для тех, кто хочет изучить биоинформатику, пока ничего нет.

Розалинд — проект, разрабатываемый в Санкт-Петербуге и University of California, San Diego с мая 2012 года, как раз заполняет эту нишу. Это платформа для обучения биоинформатике с помощью решения задач, бесплатная и открытая.
Читать дальше →
Всего голосов 63: ↑61 и ↓2+59
Комментарии36

27+ ресурсов для онлайн-обучения

Время на прочтение5 мин
Количество просмотров969K

В настоящее время активно развивается система дистанционного обучения, теперь уже не является проблемой получение полноценного образования практически по любому предмету дистанционно. Онлайн-обучение имеет ряд преимуществ – обучение в индивидуальном темпе, свобода и гибкость, доступность, социальное равноправие. В сети появляется все больше сервисов, помогающих получать новые знания.

Статья содержит перечень ресурсов для онлайн-обучения, представляющих интерес преимущественно для программистов.

Читать дальше →
Всего голосов 174: ↑163 и ↓11+152
Комментарии68

OAuth на практике. Аутентификация и авторизация пользователей сайта через популярные социалки

Время на прочтение14 мин
Количество просмотров345K
Думаю, не мне одному чрезвычайно надоели ресурсы, требующие регистрации по каждому поводу и без. С обязательной капчей, которая правильно введется только с пятого раза, с подтверждением по е-мейлу, которое обязательно свалится в спам и то — только через сутки. Придумывать каждый раз новую пару логин-пароль — забудется, вводить одно и то же на всех сайтах — небезопасно. Местами прокатывают пары вида «qwerty:qwerty» или «login:password», но, увы, далеко не везде. Надоело. Не счесть, сколько раз я, увидев надпись «только зарегистрированный пользователь может ****», просто кривился и закрывал вкладку, чтобы больше ни разу на этот сайт не заходить. Неужели администраторы ресурсов сами этого не понимают?
Читать дальше →
Всего голосов 126: ↑116 и ↓10+106
Комментарии180

«Он видел их семью своими глазами»

Время на прочтение6 мин
Количество просмотров65K

Можешь выбрать подходящую к заголовку поста картинку?





Тогда научи робота! Он тоже хочет.


Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать дальше →
Всего голосов 155: ↑150 и ↓5+145
Комментарии116

Парсим русский язык

Время на прочтение8 мин
Количество просмотров70K

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Всего голосов 128: ↑124 и ↓4+120
Комментарии97

10 лучших игр для Ubuntu

Время на прочтение3 мин
Количество просмотров244K
Большинство тех, кто перешел с операционных систем Windows или Mac OS на Ubuntu, сталкиваются с тем, что их любимые игры не работают на Ubuntu. И дело в том, что игровые студии мало обращают внимания на платформу Linux по причине того, что ОС Windows имеет большее распространение, а также существует мнение, что дистрибутивы на базе Linux мало распространены и нестабильны. Именно для этого создавалась Ubuntu, в которой реализован дружественный интерфейс для пользователя и достаточная стабильность.
Данный топик основан на старой записи в блоге LinuxGames07 и содержит обзор десяти лучших игр для Ubuntu, а также способ установки, скриншот и видео об игре и её описание.

1.Tremulous



image

Многопользовательская игра, смесь жанров 3D-action (FPS) и стратегии реального времени (RTS). Игра работает на базе игрового движка Quake III и изначально создавалась как модификация (мод) к игре Quake III.


Установка:
sudo apt-get install tremulous
Читать дальше →
Всего голосов 142: ↑104 и ↓38+66
Комментарии268

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Время на прочтение9 мин
Количество просмотров94K
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Всего голосов 82: ↑81 и ↓1+80
Комментарии74

Как выявить медленные SQL запросы?

Время на прочтение2 мин
Количество просмотров91K
Это случалось с каждым из нас при разработке веб-сайтов или приложений, использующих MySQL в качестве базы данных. Производительность внезапно сильно падала, и вы не имели понятия, почему это случилось. Этому могут быть причиной многие факторы (сильная загрузка CPU, нехватка дискового пространства, или слабая пропускная способность канала), но также это может быть и неоптимизированный запрос, выполняемый намного дольше, чем должен.

Как узнать, какие из запросов выполняются дольше всего?
В MySQL есть встроенный функционал для ведения логов медленных запросов.
Узнать, как включить этот функционал
Всего голосов 34: ↑31 и ↓3+28
Комментарии57

Настройка и оптимизация MySQL сервера

Время на прочтение9 мин
Количество просмотров312K
В этой статье будут описаны различные настройки MySQL, преимущественно те, которые влияют на производительность. Для удобства все переменные разделены по разделам (базовые настройки, ограничения, настройки потоки, кэширование запросов, тайминги, буферы, InnoDB). Сначала уточним имена некоторых переменных, которые изменились в версии 4 MySQL, а в сети продолжают встречаться и старые и новые варианты имен, что вызывает вопросы.
Читать дальше →
Всего голосов 180: ↑171 и ↓9+162
Комментарии19

Учим ПК разговаривать

Время на прочтение10 мин
Количество просмотров17K
Для тех, у кого дома есть стационарный компьютер аля «home сервер». Предлагаю вашему вниманию одну интересную функцию, которую под силу реализовать многим.

Типичные задачи для такой машинки:
  • Медиа-центр
  • Torrent-качалка
  • Файловым хранилище
  • Репозиторий
Возложим на него еще одну задачу — человеческим голосом сообщать нам разные интересные вещи…
Читать дальше →
Всего голосов 77: ↑70 и ↓7+63
Комментарии43

Как я в вузе электронную коммерцию преподавала (ч. 1, подготовка к семестру)

Время на прочтение3 мин
Количество просмотров2.9K
Закончив вуз летом 2009 года, я вполне натурально расстроилась, решив, что никогда уже не вернусь в альма-матер. С институтом в моей жизни было многое связано: я всегда активно участвовала в разнообразных конференциях, два младших курса подрабатывала методистом, помогала с выставками и другими мероприятиями… Однако, расставаться надолго не пришлось: в конце лета мне позвонили и поинтересовались, не хочу ли я читать курс электронной коммерции? Я, конечно, хотела. Судя по всему, других желающих не было, так как мне поставили занятия на субботу, чтобы я могла не отрываться от основной работы, и даже согласились закрыть глаза на вероятные отъезды в командировки, с условием, что я отчитаю все положенные часы.
Читать дальше →
Всего голосов 151: ↑134 и ↓17+117
Комментарии82

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Зарегистрирован
Активность