Как стать автором
Обновить

Компания Textocat временно не ведёт блог на Хабре

Сначала показывать

Хакатон Big Data for Business: начните свой технологичный стартап

Время на прочтение4 мин
Количество просмотров5.3K

Приглашаем разработчиков, аналитиков, маркетологов, дизайнеров, менеджеров по продукту и бизнес-ангелов на хакатон Big Data for Business – двухдневное командное соревнование по разработке программных продуктов, решающих проблемы бизнеса через анализ данных. Хакатон пройдет 18-19 ноября в казанском ИТ-парке. Спонсоры мероприятия — компании EMC и Brocade. Партнеры — Textocat, DGL, Provectus и Бизнес-инкубатор ИТ-парка г. Казань. Призовой фонд — 150 000 рублей.

Приняв участие в хакатоне Big Data for Business, вы сможете:

  • найти команду единомышленников,
  • придумать классную бизнес-идею, реализовать и улучшить ее с ведущими экспертами,
  • получить признание,
  • выиграть ценные призы,
  • перенять опыт в технологической сфере и принципах упаковки продукта,
  • сделать первый шаг в сторону своего стартапа на основе технологий анализа данных
  • познакомиться с перспективными продуктовыми командами в области Big Data.

Далее мы расскажем о ключевых особенностях нашего мероприятия.
Читать дальше →
Всего голосов 10: ↑8 и ↓2+6
Комментарии0

ACM SIGIR 2015: ключевые тренды развития поисковых технологий

Время на прочтение8 мин
Количество просмотров5.2K



С 9 по 13 августа в г. Сантьяго (Чили) прошла 38я международная научная конференция по информационному поиску ACM SIGIR. Представляем вашему вниманию основные события данного мероприятия и ключевые тренды развития области информационного поиска как с точки зрения академической среды, так и индустрии.
Читать дальше →
Всего голосов 11: ↑9 и ↓2+7
Комментарии6

Text Analytics as Commodity: обзор приложений текстовой аналитики

Время на прочтение11 мин
Количество просмотров17K
text analytics landscapeЕсли бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение


Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как
  • категоризация текста
  • извлечение информации
  • информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в $5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.
Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии2

Извлечение упоминаний сущностей и поиск в Textocat API

Время на прочтение9 мин
Количество просмотров17K
Textocat API — это облачный SaaS анализа текстов. Качественное извлечение полезной информации из текстов — сложная задача и требует серьезной экспертизы. Миссия команды Textocat — сделать процесс обработки текстов настолько легким для использования, чтобы его мог включить в свой арсенал любой современный разработчик. Используя Textocat API, вы можете быстро прототипировать приложения на основе текстовой аналитики и превращать их в свой бизнес. В данной публикации мы покажем, насколько легко интегрировать в любое приложение возможности Textocat API по распознаванию упоминаний сущностей (объектов) и поиску документов на русском языке.

Возможности Textocat API Beta


В начале апреля мы запустили бета-тестирование Textocat API. В этой версии мы предлагаем разработчикам бесплатно использовать часть функционала сервиса со следующими возможностями:
  • распознавание упоминаний сущностей (entity recognition) в коллекциях документов на русском языке;
  • хранение обработанных коллекций;
  • полнотекстовый поиск с учетом выделенных типов сущностей.


пример распознавания упоминаний сущностей

Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии66