Комментарии / Профиль alexanderkuk / Хабр

Александр Кукушкин @alexanderkuk

Лаборатория анализа данных Александра Кукушкина

Профиль Публикации 14Комментарии 80Закладки

SAGE: коррекция орфографии с помощью языковых моделей

alexanderkuk 6 окт 2023 в 19:04

Какая производительность? Интересно сравнение с другими решениями. Какое надо железо. Сравнить кроме качества производительность и требования к железу
Что думаете про sequence tagging вместо seq2seq? Делать по аналогии с Gector Grammarly
Примеры предложений где ваше решение справляется а другие ошибаются. Какие это случаи? В таблице большая разница precision, остальные решения исправляют лишнее?

Посмотреть

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

alexanderkuk 24 апр 2023 в 12:42

Собрав "корзину" из запросов разной тематики, мы провели на ней SBS между нашей моделью и моделью от OpenAI (gpt-3.5-turbo). Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели

Вы не могли бы опубликовать список запросов?

Посмотреть

Обучение модели естественного языка с BERT и Tensorflow

alexanderkuk 18 ноя 2020 в 11:25

Модель доступна для скачивания в формате для tensorflow, pytorch, и tf-hub.

Интересно про SBERT, не могли бы раскрыть подробности:

Сравнивали с RuBERT от DeepPavlov http://docs.deeppavlov.ai/en/master/features/models/bert.html?
Какой объем обучающих текстов? Какой состав, Taiga, Lenta?
Ванильный BERT, не RoBERTa?
Код из Huggingface?
Сколько, каких GPU, сколько тренировали?
Тренировали с нуля или как DeepPavlov инициировали multilungual?

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 31 авг 2020 в 18:06

В проекте, кстати, уже есть есть такие обёртки. Там aiohttp + docker https://github.com/natasha/slovnet/blob/master/docker/slovnet-ner/exec/app.py

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 21:48

Правила для Yargy-парсера

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 16:47

Открытых решений для русского не знаю. Для тональности всего текста есть https://github.com/bureaucratic-labs/dostoevsky

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 16:47

Хорошо ли справляется выделение ФИО с приведением к норальной форме (именительный падеж)?
Да, советую пробовать свои примеры на стенде. Более подробный стенд есть на http://natasha.github.io/. Мерил качество нормализации на BSNLP-2019 https://github.com/natasha/corus#load_bsnlp, примерно 90% имён нормализуется корректно.

"Песков" будет превращен в "песок". такие кейсы как Эрик Конггорд («конггордый»)-Андерсен, или Елена Верещака («верещак»), или Николай Борцов («борец»)
Такое, конечно, Наташа старается учитывать. Наташа использует информацию о морфологии от внутреннего морфологического тегера и Pymorphy https://pymorphy2.readthedocs.io/en/latest/ для нормализации. Если оба отработают корректно, ошибки не будет

Эрик Конггорд-Андерсен». Фамилию через черточку не смог осилить полностью
Для разделения на имя и фамилию в библиотеке собран набор правил для Yargy-парсера https://github.com/natasha/yargy. Правил для фамилий с дефисом там нет.

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 16:28

Нет

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 14:09

Весь проект на Python. Нормального способа использовать с другими языками мне не известно. Только может быть заворачивать в веб интерфейс

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 11:14

Na — natasha, eval — evaluation

Посмотреть

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk 25 авг 2020 в 07:31

Кажется, не существует датасетов с эталонной разметкой с текстами из соцсетей
Понятно, что будет плохо. "Правила в Razdel оптимизированы для аккуратно написанных текстов с правильной пунктуацией"
У других готовых решений тоже будет не очень, все ориентируются на публичные датасеты, а там новости, худлит

Для соцсетей нужно делать кастомное решение, использовать статистические методы, не правила

Посмотреть

Заметки Дата Сайентиста: как измерить время забега марафона лежа на диване

alexanderkuk 6 авг 2020 в 13:06

Красивая визуализация для 2017 года moscowmarathon2017.datalaboratory.ru/results?runners=1,18

Посмотреть

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

alexanderkuk 15 мая 2019 в 16:36

Строго говоря, задачу можно решать и без машинного обучения — с помощью rule-based систем (в самом простом варианте — с помощью регулярных выражений). Это кажется устаревшим и неэффективным, однако нужно понимать, если у вас ограничена и четко очерчена предметная область и если сущность, сама по себе, не обладает большой вариативностью, то задача NER решается с помощью rule-based методов достаточно качественно и быстро.
…
Поэтому применять их имеет смысл только для ограниченных доменов и на простых и четко отделимых от остального текста сущностях.

Система которая заняла первое место на factRuEval-2016 www.pullenti.ru rule-based. Получается при большом желании можно и на непростых сущностях

Было бы интересно почитать про решение NER, которое используется в Abbyy

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 12 мая 2018 в 07:49

«Конвертор C#.NET => Python 3» ничего себе. Кажется, этого не было, когда я последний раз смотрел на Pullenti.

Спасибо! Надо будет попробовать.

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 17 мар 2018 в 22:27

1. Если будут конкретные задачи для английских текстов, думаю поддержка появится. Пока конкретных планов нет. Сейчас все задачи для русских текстов. Проблем с реализацией вроде не должно быть. Надо сделать или найти аналог pymorphy2 для английского.
2. Опять же, если появятся задачи про это, то да. Пока планов нет. Теоретически, парсер такое поддерживает.

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 15 мар 2018 в 12:41

Ой, я думал под словосочетание «Томита-парсер» вы подразумевали github.com/yandex/tomita-parser, про Масару Томита мало кто знает. Тогда «Я плохо знаю Parglare, но я бы не назвал его аналогом yandex/tomita-parser». Просто эти плюшки на практике 50% всей реализации: морфология, нормализаций, специальная процедура интерпретации, согласование, газеттир

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 15 мар 2018 в 12:18

Я плохо знаю Parglare, но я бы не назвал его аналогом Томита-парсера. Вопрос в том как туда встроить работу с морфологией, нормализацией, согласованием.

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 15 мар 2018 в 12:15

Про нормализацию не понял вопрос. Нормализация делается после применения грамматик

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 15 мар 2018 в 12:11

Правила не перемножаются. Вы можете почитать про en.wikipedia.org/wiki/Earley_parser

Посмотреть

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

alexanderkuk 15 мар 2018 в 12:11

Может быть не совсем понятно написано. В предложении «Для текстов с русскими именами качество получается ~0.95» речь идёт только про github.com/natasha/natasha-examples/blob/master/02_sad/notes.ipynb. То есть утверждается что 95% качество в примере 02_sad/notes.ipynb

Если вы введёте полное предложение, например «придя с работы Маша мыла Раму» «Маша» найдётся. Такая специфика работы NamesExtractor сейчас

Посмотреть

2 3 4