Pull to refresh

Альтернативное понимание контекста с помощью статистической языковой модели

Reading time20 min
Views6.6K
ALM

В интернете полно статей на тему основанных на N-граммах языковых моделей. При этом, готовых для работы библиотек довольно мало.

Есть KenLM, SriLM и IRSTLM. Они популярны и используются во многих крупных проектах. Но есть проблемы:

  1. Библиотеки старые, не развиваются.
  2. Плохо поддерживают русский язык.
  3. Работают только с чистым, специально подготовленным, текстом
  4. Плохо поддерживают UTF-8. Например, SriLM с флагом tolower ломает кодировку.

Из списка немного выделяется KenLM. Регулярно поддерживается и не имеет проблем с UTF-8, но она также требовательна к качеству текста.

Когда-то мне потребовалась библиотека для сборки языковой модели. После многих проб и ошибок пришёл к выводу, что подготовка датасета для обучения языковой модели — слишком сложный и долгий процесс. Особенно, если это русский язык! А ведь хотелось как-то всё автоматизировать.

В своих исследованиях отталкивался от библиотеки SriLM. Сразу отмечу, что это не заимствование кода и не fork SriLM. Весь код написан полностью с нуля.
Читать дальше →
Total votes 15: ↑15 and ↓0+15
Comments24

DevCon 2013: анонс программы конференции

Reading time4 min
Views3.5K
image

Уважаемые разработчики и тестировщики ПО, участники конференции DevCon 2013. От лица организаторов, с удовольствием представляю вам программу двух дней конференции, в которую вошли доклады в шести параллельных треках, шесть эксклюзивных мастер-классов и вечерняя программа с круглыми столами и хакатоном “Ночь кодирования”.

По адресу http://www.msdevcon.ru/schedule вы можете найти актуальное расписание конференции.

Ниже я расскажу о некоторых деталях программы DevCon 2013.

Основная программа


В основную программу конференции входят пленарный доклад, основные доклады и мини-сессии обоих дней. В общей сложности участники конференции и онлайн-зрители смогут выбрать из 67 самых разных докладов.

Обратите внимание! Вся основная программа конференции будет записываться и транслироваться онлайн в реальном времени! Если вам не повезло и вы не сможете принять участие в DevCon 2013 лично, то посетите официальный сайт http://msdevcon.ru 29 и 30 мая для просмотра сессий онлайн.

В этом году мы приняли решение сделать программу конференции и доклады более глубокими. Поэтому более трети (ближе к половине) докладов DevCon 2013 будут уровня 300 или выше.
Читать дальше →
Total votes 14: ↑10 and ↓4+6
Comments8

Серия из 24 лабораторных работ по разработке, тестированию и управлению жизненным циклом ПО для Visual Studio 2013

Reading time5 min
Views27K
Многим разработчикам и тестеровщикам, использующим Visual Studio, известен Брайан Келлер (http://blogs.msdn.com/b/briankel/ ) с его регулярно обновляемой виртуальной машиной, которая содержит последнюю версию Visual Studio и всю необходимую инфраструктуру для изучения и оценки всех возможностей средств разработки. Эта виртуальная машина сопровождается набором лабораторных работ aka.ms/VS13ALMVM, которые уже помогают оценить возможности средств разработки или даже научиться использовать новые возможности о которых вы либо не знали, либо не пользовались раньше.

Лабораторные работы — на английском языке, и каждый раз, когда мы рассказывали об этом наборе лабораторных и виртуальной машине, нас просили сделать эти лабораторные работы доступными на русском языке.

О 4-х лабораторных я уже писал на habr: habrahabr.ru/company/microsoft/blog/235157. Сегодня мы рады сообщить, что благодаря ahriman, мы успешно выполнили проект по локализации этих лабораторных работ. Встречайте — полный набор из 24-х локализованых лабораторных работ, которые покрывают темы эффективной разработки, тестирования, совместной разработки и управления жизненным циклом ПО для Visual Studio 2013!
Подробности
Total votes 27: ↑23 and ↓4+19
Comments6

Ciklum Odessa Speakers’ Corners: 5 Dimensions of developing BIG REAL-WORLD CLOUD products

Reading time3 min
Views1.6K
Говорят, что среда- это маленькая пятница. А что может быть лучше «маленькой пятницы» в Одессе, в компании профессионалов и единомышленников, которые делятся своим богатым опытом и знаниями? Одесский офис компании Ciklum подготовил необычный ряд мероприятий в формате Speakers’ Corner по средам, который объеденен общим лейтмотивом «5 Dimensions of developing BIG REAL-WORLD CLOUD products».

4 среды октября и 1 среда ноября, 5 тем, 5 профи своего дела раскроют темы по Dev, DevOps, Ops, QA, ALM!

Посещение всех мероприятий бесплатное по предварительной регистрации.
Ниже указан календарь мероприятий, имена докладчиков и список тем, которые будут представлены публике с ссылкой на регистрацию для каждого мероприятия.
Читать дальше →
Total votes 6: ↑5 and ↓1+4
Comments0

Update 3! Серия из 24 лабораторных работ по разработке, тестированию и управлению жизненным циклом ПО для Visual Studio 2013

Reading time5 min
Views13K
Казалось бы, что только совсем недавно мы опубликовали 24 лабораторные работы по разработке, тестированию и управлению жизненным циклом ПО для Visual Studio 2013 на русском языке (http://habrahabr.ru/company/microsoft/blog/236801/), как уже вышло долгожданное обновление Update 3 (http://habrahabr.ru/company/microsoft/blog/240639/).

Мы не могли остаться в стороне: ahriman перевёл обновлённые лабораторные работы на русский язык.
Ссылки на лабораторные работы, инструкция и т.д.
Total votes 27: ↑23 and ↓4+19
Comments0

Открыта регистрация на конференцию DevCon 2015

Reading time3 min
Views6.1K
Друзья, разработчики и тестировщики программного обеспечения!

Мы рады сообщить вам, что регистрация на главную технологическую конференцию Microsoft DevCon 2015 открыта!

Пятая юбилейная конференция пройдет 20-21 мая 2015 года.



Формат конференции остается неизменным — это загородное двухдневное мероприятие в природном курорте в ближнем Подмосковье, и в стоимость билета на конференцию уже все включено:

  • Питание и проживание в отеле;
  • Участие в основной программе;
  • Посещение мастер-классов;
  • Участие в круглых столах и фокус-группах;
  • Трансфер из Москвы и обратно;
  • Развлекательная и спортивная программа;
  • Вечерняя программа.

Обратите внимание, до 16 января 2015 года действует специальная более привлекательная цена, о чем подробнее можно узнать на странице «Условия участия».

Регистрируйтесь сейчас! По опыту проведения конференций мы знаем, что билеты кончаются за несколько месяцев до проведения. Торопитесь занять свое место.
читать далее о формате и темах конференции...
Total votes 22: ↑18 and ↓4+14
Comments0

ANYKS Spell-checker

Reading time32 min
Views5.1K
image

Здравствуйте, это моя третья статья на хабре, ранее я писал статью о языковой модели ALM. Сейчас, я хочу познакомить вас с системой исправления опечаток ASC (реализованной на основе ALM).

Да, систем исправления опечаток существует огромное количество, у всех есть свои сильные и слабые стороны, из открытых систем я могу выделить одну наиболее перспективную JamSpell, с ней и будем сравнивать. Есть ещё подобная система от DeepPavlov, про которую многие могут подумать, но я с ней так и не подружился.
Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments2

Как создать работоспособное ALM окружение на базе TFS

Reading time5 min
Views5.2K
Team Foundation Server как и любой сложный инструмент требует некоторых организационных подходов в эксплуатации. Тем более что создавался он с целью предоставить свободу выбора команды, или как выразился Брайан Харри в одной из своих заметок, внедрить «Ваш процесс, Наш процесс, или Никакого процесса». Отчасти эта свобода может сыграть нехорошую шутку, когда команде кажется что TFS используется только в очень небольшом спектре своих возможностей. В данной заметке будет приведен ряд рекомендаций по развертыванию жизнеспособной среды ALM.
Читать дальше →
Total votes 29: ↑20 and ↓9+11
Comments9

Новый Командный Обозреватель в TFS 2011

Reading time9 min
Views2.4K
Наверное многие из вас уже видели скриншоты нового Team Explorer в посте рассказывающем об улучшениях в области контроля исходного кода. В этом топике хотелось бы сосредоточиться на общих новинках Team Explorer.
Вы помните, что Team Explorer в Visual Studio 2010 имеет древовидную структуру, и очень похож на обозреватель проекта (Solution Explorer). Долгое время мы внутри команды считали, что этой модели будет достаточно, хотя и налагает некоторые ограничения. Но когда я создал Team Members Power Tools пару лет назад, мне захотелось более широких возможностей которые, например, показывали бы картинки, списки пользователей. Team Explorer с его деревом ограничивал или вообще не давал сделать такие вещи. Как только мы стали проектировать TFS 11, в том числе планируя включить функциональность ревью кода, стало понятно, что нам необходим новый подход. В том числе мы получили много отзывов от людей использующих наш продукт с просьбами реализовать новую дополнительную функциональность.
Читать дальше →
Total votes 24: ↑20 and ↓4+16
Comments12

Бесплатный вебинар по Visual Studio 11 beta и TFS 11 beta

Reading time1 min
Views4.3K
Уважаемые коллеги, разработчики и просто интересующиеся! Приглашаю вас посетить бесплатный вебинар, на котором я расскажу слушателям про организацию процессов разработки и новые возможности Visual Studio 11 beta и Team Foundation Server 11 beta. В рамках полуторачасового вебинара я познакомлю вас с рядом новых возможностей Visual Studio 11 beta в области организации эффективного управления проектами, жизненным циклом программного обеспечения, а так же инструментарием позволяющем повысить уровень качества разрабатываемого ПО.
Читать дальше →
Total votes 21: ↑17 and ↓4+13
Comments1

ALM Summit и новые материалы о Visual Studio

Reading time3 min
Views2.8K

Осталось всего 10 дней до ALM Саммита – мероприятия о том, как управлять жизненным циклом приложений, от разработки до эксплуатации. Участники саммита одними из первых в России узнают о новинках Visual Studio 11 и Team Foundation Server 11 а так же смогут пообщаться с признанными экспертами в области управления проектами. Если вы не успели зарегистрироваться, не беда, мероприятие будет транслироваться в интернет.
Читать дальше →
Total votes 15: ↑10 and ↓5+5
Comments0

Прямая трансляция ALM Summit 2012

Reading time1 min
Views1.4K

Через 30 минут начнется прямая трансляция ALM Саммита – мероприятия о том, как управлять жизненным циклом приложений, от разработки до эксплуатации. Участники саммита одними из первых в России узнают о новинках Visual Studio 11 и Team Foundation Server 11 а так же смогут пообщаться с признанными экспертами в области управления проектами.
Читать дальше →
Total votes 5: ↑4 and ↓1+3
Comments0

Опубликованы записи докладов и интервью с конференции DevCon'12

Reading time3 min
Views8.2K


Отличная новость для всех, кто участвовал или по каким-то причинам не смог принять участие в конференции DevCon’12: на сайте конференции и ресурсе TechDays опубликованы все видеозаписи и презентации докладов.

В открытом доступе вы найдете:
  • более 50 докладов по 8 ключевым темам;
  • пленарные доклады 1-го и 2-го дней;
  • запись сессии вопросов и ответов со Скоттом Хансельманом, главным архитектором по проектам с сообществами Microsoft;
  • интервью с докладчиками конференции, состоявшиеся непосредственно на DevCon’12 во время перерывов.
Перейти к списку докладов и интервью с DevCon'12
Total votes 40: ↑31 and ↓9+22
Comments0

TFS в Облаке: 5 пользователей бесплатно!

Reading time3 min
Views25K
Управление жизненным циклом приложений это очень важный подход который позволяет создавать качественные системы. Но полноценное создание ALM среды и настройка инструментов может требовать создания сложной инфраструктуры. Вот почему год назад, в рамках первой конференции //Build/ в тестовую эксплуатацию был запущен сервис tfspreviev.com. По сути это облачный вариант Team Foundation Server, который готов к эксплуатации сразу. Вчера состоялся долгожданный RTM этого сервиса. Приятным сюрпризом оказалось то что он бесплатен для команд до 5 человек.
Читать дальше →
Total votes 35: ↑26 and ↓9+17
Comments21

Открытая лекция: «Организация полного жизненного цикла приложений»

Reading time2 min
Views4.7K


Друзья, рады объявить, что 26 ноября в Политехническом музее (Москва) состоится очередная открытая лекция от специалистов Microsoft, организованная совместно с Открытым университетом Сколково. На этот раз к нам приезжает Брайан Харри (Brian Harry), члена технического совета Microsoft и ведущего специалиста компании по разработке ALM направления. Брайан прочитает лекцию на тему «Организация полного жизненного цикла приложений».

Доклад будет посвящен вопросам организации полного жизненного цикла приложений (ALM): от замысла до эксплуатации. Брайан расскажет о том, как рождается приложение, как оно создается, как контролируется его качество, как планируются расходы на его развитие, как сопровождается приложение после «выхода в мир», начала его эксплуатации. Вы сможете познакомиться с инструментами, предназначенными для прототипирования и моделирования приложений, управления требованиями, планирования, управления работами, разработки, тестирования, развёртывания и сопровождения.

Формат доклада ориентирован на всех интересующихся процессом создания приложений и построен на живой демонстрации.

Дата: 26 ноября 2012 18.00 – 19.30
Адрес: Москва, Политехнический музей (Новая площадь 3/4, подъезд 9, Малая аудитория)
Регистрация: openu.timepad.ru/event/48855
Трансляция: www.sk.ru/live
Язык: Английский

Читать дальше →
Total votes 18: ↑11 and ↓7+4
Comments2

Параллельное выполнение тестов с учетом контекста с использованием Visual Studio 2015 Update 1

Reading time6 min
Views11K
Visual Studio 2015 с обновлением 1 включает в себя ряд улучшений и исправлений. В этой публикации мы сконцентрируем внимание на двух улучшениях, способных существенно повысить общую производительность разработки ПО.

Параллельное выполнение тестов


Тестовое ядро Visual Studio 2015 Update 1 способно параллельно выполнять тестовые сборки, что существенно повышает производительность тестирования. По умолчанию этот режим отключен, поэтому Вам необходимо включить его.

Система параллельно выполняет тестовые сборки на указанном вами количестве ядер — вплоть до всех ядер вашего компьютера. Разумеется, при наличии единственного тестового проекта это не дает никаких преимуществ. Данное решение предназначено для проектов значительного масштаба. Оно не зависит от типа используемой тестовой платформы и работает с MSTest, NUnit 2, NUnit 3 и XUnit. Этот механизм полностью независим от поддержки параллелизма базовой платформой.
Продолжить чтение
Total votes 18: ↑15 and ↓3+12
Comments8

Опубликованы записи докладов конференции ALM Summit 2016

Reading time1 min
Views2.5K
18 февраля в Москве, мы традиционно провели нашу ежегодную конференцию по решениям Microsoft в области управления жизненным циклом разработки программного обеспечения. В этом году ALM Summit состояла из основного трека и круглых столов, на которых были затронуты следующие тематические направления:

  • Инфраструктурные решения ALM в облаке, которые позволяют быстро развернуть комплекс ALM инструментов и в считанные часы запустить проект.
  • Методологические рекомендации по ведению проектов, SCRUM, Kanban, Agile, сбор информации о ходе проекта, ее анализ и отчетность.
  • Обеспечение качества разрабатываемых систем с помощью тестирования, как построить эффективную среду тестирования с помощью инструментов Team Foundation Server и Team Foundation Services в облаке.
  • Эксплуатация разрабатываемых систем, обеспечение обратной связи для повышения качества.

Как обычно, мы транслируем и записываем конференцию.

И рады сообщить, что записи доступны для просмотра!
Записи докладов конференции ALM Summit 2016
Total votes 22: ↑20 and ↓2+18
Comments0

ALM Robot, или переход на новую версию ALM – это просто

Reading time4 min
Views4.7K
Пожалуй, каждый пользователь ALM знает, что переход на новую версию является сложным процессом. В этой статье речь пойдет о новой утилите, которая облегчит жизнь администраторам. В первой части поговорим о возможностях утилиты, которая называется ALM Robot. Во второй части речь пойдет об особенностях работы с ней.

Читать дальше →
Total votes 12: ↑11 and ↓1+10
Comments1

Израильтяне совершают компьютерную революцию

Reading time2 min
Views684
Его уже назвали «священным Граалем» компьютерной технологии. Речь идет о программном обеспечении, которое позволит человеку общаться с компьютером «нормальным языком», точно так же, как люди общаются друг с другом.

Специалисты-компьютерщики во всем мире уже более десяти лет бьются над ускользающей целью, но пока безрезультатно. Однако на днях основанная в Иерусалиме компания Linguistic Agents сообщила о том, что ее специалистам удалось создать прикладную программу, которая позволит компьютерам понимать человеческую речь. Стоит ли говорить, что это приведет к настоящей революции в компьютерном мире.
Читать дальше →
Total votes 19: ↑16 and ↓3+13
Comments16
1