Comments / Profile of DSkorinkin / Habr

Даниил Скоринкин @DSkorinkin

научпоп, NLP, digital humanities

Profile Publications 3Comments 14Bookmarks 2

«Основание» Азимова наоборот

DSkorinkin Sep 28 2023 at 10:46

комментатор стоит несколько минут, потрясённый этой новой идеей, и падает замертво

Look

«Основание» Азимова наоборот

DSkorinkin Sep 24 2023 at 17:54

"Ученые в сериале, напротив, лишены сантиментов и способны на все для достижения цели". -- кажется, характерная черта современной культуры в том, что протагонист не может быть этически одномерным. Он должен сочетать добродетели либо с цинизмом, либо с какой-то явной неполиткорректностью, либо с еще какой-то как бы маргинальной чертой. Я не знаю, следствие ли это постмодерна (скорее да) но ощущаю это как довольно труднопреодолимый канон. С другой стороны, этот переход похож на переход от нравоучительной драмы 18 века к более сложным персонажам драматургии 19 века. Т.е. как будто это может быть простым следствием закона усложнения персонажей (если он есть)

Look

«Основание» Азимова наоборот

DSkorinkin Sep 24 2023 at 17:08

Случай Сринивасы Рамануджана, безусловно, выделяется, но вообще говоря опыт занятия наукой в обскурантистской среде демонстрируют, скажем, математики Ирана, в т.ч. как раз женщины. Да и на Западе есть примеры типа Уолтера Питтса, где тоже огромная начальная часть пути (до уровней высшей школы как минимум) проделана в вакууме на чистом гении и паре книжек. Да, Вы правы, "маловероятный сюжет". Но разве не на героев "маловероятных сюжетов" мы ходим смотреть, когда идем в кино? :) Ваш тезис, понятно, в том, что тут ради "повестки" слепили неправдоподобную слащавую историю, но кажется, что из всех натяжек эта — наибезобиднейшая.

Look

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

DSkorinkin Jun 11 2020 at 13:16

По-моему, сопоставлять игру команды из 5 + 1 человек с одной стороны — и одного игрока с максимально специфической функцией (вратарь) с другой сторон — в принципе неправильно. Это не очень сопоставимые сущности, они разноуровневые. Так что мне больше по душе вариант ответа из поста: «вопрос поставлен некорректно»

Look

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

DSkorinkin Jun 11 2020 at 10:51

Показательно, что самый огромный провал у машин в RuCoS (где common sense intelligence нужен), судя по лидерборду. Все в зоне 0.25 — 0.375. Но это прям реальный челлендж: я заглянул в json с вопросами и пришлось почесать репу, чтобы заполнить placeholder-ы… Иногда даже кажется, что есть неоднозначные места. Интересно, каков тут коэффициент согласия, когда вы мучаете на RuCoS людей :)

А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!

Look

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin Jan 22 2015 at 13:21

Ну, все-таки выбранный нами OWL является современным стандартом W3C для описания онтологий, этот язык живет, развивается и поддерживается силами Консорциума. А про IDEF5 не очень понятно, в каком он состоянии, поддерживается ли кем-то и насколько вообще используется… То есть наверняка в мрачных подземельях Пентагона с ним что-нибудь делают, но это не тянет на отркрытое сообщество разработчиков и пользователей.

Просто сравните OWL Overview и сайт IDEF. Что выглядит более живым?

Look

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin Jan 20 2015 at 15:44

Мы как-то пробовали немножко парсить древнегреческие мифы (на русском). Особенно весело было с преданием об Эдипе, где факты родства очень необычно выделялись, т.к. царь Эдип, как известно, женился на собственной матери.

чтобы можно было искать по запросам типа «сколько людей истребил бог/сатана?» — Да, и потом сделать крутое цифровое издание Библии в TEI с семантической разметкой и хорошим запросным интерфейсом. А что, неплохой проект в духе современных Digital Humanities.

Look

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin Jan 20 2015 at 15:25

Насколько я понимаю технологию, из Compreno нельзя выделить онтологию под какую-то конкретную предметную область

В Compreno есть универсальная семантическая иерархия, которая действительно цельная и единая (хотя и там есть отдельные прагматические классы по областям). Но это в самом парсере Compreno. А в нашей надстройке для извлечения информации, где мы моделируем онтологии и пишем правила, как раз можно выделить. Хотим – подключаем персон, хотим, не подключаем.

Т.е. во фразе «Иванушка-дурачок купил ковер-самолет» дерево с узлом-агентом с семантическим классом IVAN (потомок HUMAN_BY_NAME) из иерархии Compreno будет в любом случае, это правда. А вот персона с именем «Иванушка» из нашей онтологии, хранящей базовые сущности, может быть, а может не быть. И в факт покупки мы ее можем класть, а можем не класть. Это уже наш слой абстракции, на котором живут не классы из иерархии Compreno, а привязанные к деревьям информационные объекты.

Look

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin Jan 20 2015 at 15:23

Примерно как Томита-парсер, но с достаточно успешным снятием омонимии за счёт онтологий — Да, но это далеко не единственное преимущество.

Еще есть гораздо более гибкая работа с вариативностью языка, свободой и богатством формулировок. Например, извлечение фактов из фраз типа «Вася купил ноутбук», «Вася, сняв деньги, купил ноутбук», «Вася, сняв деньги с карты Сбербанка, купил себе ноутбук» и «Вася снял денег с карты. Потом купил ноутбук», потребует довольно громоздких и хитрых томита-грамматик из-за линейности парсера. Да и написать их так, чтобы не зацепить лишнего, будет непросто. У нас же нужное поддерево будет неизменным.

Еще есть наследование семантических классов, которое избавляет от необходимости писать на коленке газеттиры и позволяет отсекать нужные классы слов на нужной высоте в семантической иерархии.

Еще есть извлечение одних объектов с опорой на уже извлеченные другие.

Конечно, Томита — штука легкая, гибкая и удобная, но на преобразование естественного языка в некоторую машиночитаемую формальную структуру, хранящую смысл высказывания, она нисколько не претендует. А мы претендуем.

Look

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin Jan 20 2015 at 13:45

От увеличения количества правил особенно не зависит, потому что все довольно неплохо проиндексировано и отлажено (система извлечения информации разрабатывается не первый год). То есть теоретически можно написать очень неэффективную библиотеку правил, но практически а) есть некоторые механизмы защиты от этого и б) онтоинженеры стараются так не делать.

Look

Онтоинженер: работа по понятиям

DSkorinkin Dec 20 2014 at 16:49

Да, разумеется. На картинках всего не отобразить, но на самом деле на деревьях висит еще очень много всякой лингвистической информации. В частности, на узле с «ушел» будет граммема прошедшего времени, на узле с «уходит» — настоящего, на узле с «уйдет» — будущего. И не только время — вид глагола, залог, род и все остальное. Граммем очень много, они выступают такими первичными кирпичиками, с опорой на которые и строится вся синтаксическая структура.

Look

Онтоинженер: работа по понятиям

DSkorinkin Dec 18 2014 at 15:28

Protege-OWL — это все-таки отдельно стоящий редактор онтологий. У нас же редактор онтологиий — это небольшая часть довольно сложной системы, в которой можно создавать OWL-модели предметных областей и затем разрабатывать предметно-ориентированные системы извлечения информации с опорой на формализм Compreno, т.е. на представление текста в виде леса синтактико-семантических деревьев. Это такая своеобразная «фабрика моделей извлечения информации», подробнее о ней я расскажу во второй части поста.

В общем, мы решили, что мы достаточно большие и будем строить свой лунапарк с редактором онтологий, блэкджеком и всем остальным.

Look

Онтоинженер: работа по понятиям

DSkorinkin Dec 17 2014 at 12:12

Своя среда. Но при разработке мы, конечно, держали в голове имеющиеся инструменты и в чем-то вдохновлялись ими. Кстати, в первой версии поста так и было написано — «специальная среда, похожая на популярный редактор Protégé».

Look

Онтоинженер: работа по понятиям

DSkorinkin Dec 17 2014 at 11:17

Сергей, спасибо!

С историями успеха сложность в том, что даже чисто юридически не обо всем можно рассказывать, сплошные NDA. У меня во второй части поста изначально задумывался кусочек, где я говорю о конкретных проектах. Но выяснилось, что не имеем права — ~~военная~~ клиентская тайна, а ее мы свято бережем.

Look