p0b0rchy 27 июн 2019 в 18:28

Используем данные на практике

7 мин

Блог компании Конференции Олега Бунина (Онтико)Алгоритмы*Обработка изображений*Машинное обучение*Конференции

+21

Комментарии 9

nerazzgadannaya 28 июн 2019 в 10:21

А какой пул вопросов планируется про обработку текста, NLP? планируются ли доклады про развитие чат-ботов?

p0b0rchy 28 июн 2019 в 12:02

С чатботами всё непросто (вы, вероятно, это знаете). Практические задачи обычно фокусируются на узкой предметной области: техподдержка, вопросы про симптомы (на Highload был доклад про Doc+ на эту тему), такое. Не сказать, что есть общие принципы развития. Основной вопрос, который я вижу у людей на практике: где взять размеченный корпус текстов для данной предметной области (возможно, я упрощаю, поправьте, если так).

У нас пока есть планы на три кейса про обработку языков. Они могут ещё не все реализоваться (ведём переговоры), поэтому без имён и конкретики пока, но примерно так:
1) Если нет размеченного корпуса в какой-то области, как его намайнить или нагенерить
2) Как писать обработчик для языка, которого ты не знаешь
3) Как выделять в большом тексте определённые смысловые элементы (например, шутки)

worldmind 28 июн 2019 в 10:54

Начал смотреть тему ML, есть конкретный вопрос, который поднимает общую тему проверки условий применимости моделей, есть ощущение (по статьям в сети и ответам на SO), что большая часть «исследователей» не хочет и не знает.
Ещё момент, касательно уровня абстракции фреймворков, судя по обзорам многие фреймфорки называют низкоуровневыми, а среди высокоуровневых вроде как один PyTorch, по идее уровень должен расти, но возможно отрасль просто ещё не дозрела и это может быть темой для доклада.

p0b0rchy 28 июн 2019 в 12:22

Прочёл ветку комментариев, на которую вы ссылаетесь. Мне кажется, проблемы нет.

Регрессия везде есть «из коробки», работает быстро, не требует дорогого оборудования. В условиях отсутствия вычислительных мощностей лет 40 назад, вероятно, надо было задумываться, чтобы лишнее ручками не считать. Сейчас проще одну кнопку нажать и посмотреть, насколько разумные результаты получились. Если неразумные, то тогда уже можно разбираться. Такой порядок часто дешевле.

worldmind 28 июн 2019 в 14:20

Может и так, во всяком случае не ненаучных исследований такого подхода может быть достаточно.

p0b0rchy 28 июн 2019 в 12:23

А расскажите ещё, какой смысл вы вкладываете в понятие высокоуровневости фреймворка?

worldmind 28 июн 2019 в 14:22

Ну я пока не знаю деталей, ещё до экспериментов не добрался, но судя по нескольким статьям что мне попадались авторы считают PyTorch более высокоуровневым, что видимо означает возможность использовать его написав меньше число строк кода в типовых случаях.

worldmind 1 июл 2019 в 16:47

Глянул немного, всё-таки PyTorch заставляет писать шаблонный код, на первый взгляд skorch это правильное решение позволяющее переиспользовать плюшки из sklearn, например GridSearchCV.

worldmind 2 июл 2019 в 11:59

Поигрался немного с примерами, вот как-то так выглядит высокоуровневый интерфейс — gist.github.com/worldmind/04974de7539ed6dac0bf3816b9522ac7 ~15 строк на описание сети, чуть больше на кроссвалидацию с подбором параметров.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий