Комментарии / Профиль NewTechAudit / Хабр

NTA @NewTechAudit

Профессиональное сообщество

Профиль Публикации 282Комментарии 307Закладки 96

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

NewTechAudit 30 июн 2023 в 07:06

Добрый день!

Спасибо за интерес к посту и подсказку куда в дальнейшем можно развивать исследование возможностей библиотеки.

Посмотреть

DeepPavlov «из коробки» для задачи NLP на Python

NewTechAudit 26 июн 2023 в 09:33

Добрый день!

Спасибо за комментарий. Описанный в статье поход может быть применён к анализу резюме и вакансий с изменением парсера документов и, самое главное, подготовки адекватного списка вопросов, ответы на которые будет искать ИНС. Эксперты в области HR и специалисты по составлению промптов могли бы проработать необходимые критерии и подготовить правильные вопросы в правильной форме.

Посмотреть

Код в картинках: визуализация кода

NewTechAudit 22 июн 2023 в 09:56

Спасибо за интерес к посту!

Посмотреть

Код в картинках: визуализация кода

NewTechAudit 22 июн 2023 в 09:55

Спасибо большое! С автора возьмем объяснение.

Посмотреть

Код в картинках: визуализация кода

NewTechAudit 22 июн 2023 в 09:37

Добрый день!

Спасибо большое за замечание. Конечно же "граф потока управления", внесли исправления в пост.

Посмотреть

Заставляем трансформеров отвечать на вопросы

NewTechAudit 22 июн 2023 в 09:03

Добрый день!

Извиняюсь за ожидание.

Видимо ОЗУ забивается данными, используемые во время обработки текста, и для работы модели не остаётся памяти. Можно перед запуском модели с помощью оператора del удалить переменные с токенами – new_input_ids, new_token_type_ids и прочие – так как на таком этапе они уже не нужны, главное сохранить переменную tokens, так как она нужна для составления ответа.

Спасибо за интерес к посту!

Посмотреть

Заставляем трансформеров отвечать на вопросы

NewTechAudit 15 июн 2023 в 06:49

Добрый день!

Простите за задержку с ответом, пришлось провести небольшое исследование.

Проще всего взять ответ и найти его положение в исходном тексте, если таких мест находится несколько, то к ответу можно добавить соседние слова. Если же текст составлен из нескольких файлов, то зная их длину и последовательность добавление в основной текст, по расположению ответа можно определить и сам файл.

Спасибо за интерес к теме!

Посмотреть

Заставляем трансформеров отвечать на вопросы

NewTechAudit 7 июн 2023 в 12:21

Добрый день!

Cпециализированной модели для ответов по коду лично я не знаю. Знаю, что ChatGPT умеет хорошо отвечать на вопросы по переданному ему коду. Как вариант можно попробовать Alpaca и подобные, из минусов – им не получиться передать большой объём кода из-за ограничений размера сообщений. Ещё можно сгенерировать документацию с помощью существующих программ, как например Doxygen, а уже сгенерированный текст передать в вопросно-ответную систему.

Спасибо за вопрос!

Посмотреть

Заставляем трансформеров отвечать на вопросы

NewTechAudit 7 июн 2023 в 09:21

Добрый день!

Книгу Льва Николаевича взял для демонстрации работы, вопросно‑ответную систему можно использовать для любого текста на русском языке. Моей целью было создать инструмент для поиска ответов в объёмных документах, договорах и т.д.

Спасибо за интерес к посту!

Посмотреть

Кластеризация текста в PySpark

NewTechAudit 5 июн 2023 в 10:52

Добрый день!

Извините, задержались с ответом.

Данные очень грязные, поэтому неудивительно что ливенштейн с дбсканом мало чем помог. Также мало чем помогут модели трансформеры, поскольку примеры, которые вы ввели они будут считать за один кластер, чего вам не нужно. Поэтому можем предложить вариант без кластеризации, но основанный на регулярных выражених, например вытянуть все слова с большой буквы, чтобы их взять за нормальную форму, чтобы понять какие названия присутствуют в данных. Или искать все слова перед и после определенного слова, например до и после слова bank. И так искать организации, затем сокращения на подобии bofa приводить к виду Bank of America. И так с каждой сущностью.

Кластеризация с помощью BERT или SBERT помогут выделить прям явно отличающиеся кластеры, и уже в них можно искать отдельные сущности.

Надеемся, что совет вам пригодиться.

Посмотреть

Кластеризация текста в PySpark

NewTechAudit 1 июн 2023 в 10:35

Добрый день!

DBSCAN с Левенштейном должен был выделить явные кластеры при их наличии. Если не пробовали, точно стоит поиграться с весами операций (например сделать дешевле добавление символа, чтобы сгруппировать сокращения). Конкретнее на вопрос без более подробного описания, что не так с результатами DBSCAN, ответить не можем.

Посмотреть

Sketch: искусственный интеллект на службе аналитика данных в Pandas

NewTechAudit 29 мая 2023 в 13:10

Добрый день! Круто, что вы нашли новое применение библиотеки. Спасибо, нужно будет попробовать.

Посмотреть

Sketch: искусственный интеллект на службе аналитика данных в Pandas

NewTechAudit 29 мая 2023 в 10:10

Добрый день!

Спасибо за интерес к посту!

Посмотреть

Sketch: искусственный интеллект на службе аналитика данных в Pandas

NewTechAudit 24 мая 2023 в 13:44

Добрый день!

Спасибо за замечание. Согласен, что chatGPT не идеален. Но, что есть, то есть.

Посмотреть

Пайплайн для создания классификации текстовой информации

NewTechAudit 22 мая 2023 в 06:32

Добрый день!

Спасибо за столь развёрнутый комментарий, с ответом смогу вернуться к вам позднее.

Посмотреть

Координатный квест: как найти координаты и расстояния без регистраций и смс

NewTechAudit 18 мая 2023 в 06:23

Добрый день!

Все подробности можно узнать прейдя на github (ссылка в конце поста), там есть скрины выполнения с примерным временем. Сами точки координат размещены там же, файл border.json.

Спасибо за интерес к посту)

Посмотреть

Координатный квест: как найти координаты и расстояния без регистраций и смс

NewTechAudit 16 мая 2023 в 11:51

Добрый день!

Никакого секрета здесь нет. Просто практика работы с геоданными с последующей разработкой инструмента для расчета дистанции между точками, в том числе до границ как областей, так и стран. У меня и нет двух точек, есть только точка начала с нашим адресом отправления, а все остальное множество точек границ областей.

Посмотреть

Координатный квест: как найти координаты и расстояния без регистраций и смс

NewTechAudit 16 мая 2023 в 11:50

Добрый день!

Все правильно, в текущем варианте задачи допускалась большая погрешность и важна была быстрота исполнения, поэтому взяли такой формат расчета.

Спасибо за замечание!

Посмотреть

Координатный квест: как найти координаты и расстояния без регистраций и смс

NewTechAudit 16 мая 2023 в 06:53

Добрый день!

Спасибо за ценное замечание и интерес к посту.

Посмотреть

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit 15 мая 2023 в 08:37

Добрый день!

Все замечания по делу. Статья для людей, которые могут столкнуться с похожей проблемой, хотел продемонстрировать, что решение у данной проблемы может быть довольно простое. Упоминание про косинусное расстояние было скорее для того, чтобы читатели понимали, что подходы к сравнению строк могут отличаться. Сильно вдаваться в вектора не хотелось , чтобы не размылась суть статьи, возможно стоило сильнее проработать эту сторону.

Спасибо за обратную связь!

Посмотреть

1 2 3

5 6 ...

15 16