Как стать автором
Обновить
97
-1

Профессиональное сообщество

Отправить сообщение

Добрый день!

Спасибо за интерес к посту и подсказку куда в дальнейшем можно развивать исследование возможностей библиотеки.

Добрый день!

 Спасибо за комментарий. Описанный в статье поход может быть применён к анализу резюме и вакансий с изменением парсера документов и, самое главное, подготовки адекватного списка вопросов, ответы на которые будет искать ИНС. Эксперты в области HR и специалисты по составлению промптов могли бы проработать необходимые критерии и подготовить правильные вопросы в правильной форме.

Спасибо за интерес к посту!

Спасибо большое! С автора возьмем объяснение.

Добрый день!

Спасибо большое за замечание. Конечно же "граф потока управления", внесли исправления в пост.

Добрый день!

Извиняюсь за ожидание.

Видимо ОЗУ забивается данными, используемые во время обработки текста, и для работы модели не остаётся памяти. Можно перед запуском модели с помощью оператора del удалить переменные с токенами – new_input_ids, new_token_type_ids и прочие – так как на таком этапе они уже не нужны, главное сохранить переменную tokens, так как она нужна для составления ответа.

Спасибо за интерес к посту!

Добрый день!

Простите за задержку с ответом, пришлось провести небольшое исследование.

Проще всего взять ответ и найти его положение в исходном тексте, если таких мест находится несколько, то к ответу можно добавить соседние слова. Если же текст составлен из нескольких файлов, то зная их длину и последовательность добавление в основной текст, по расположению ответа можно определить и сам файл.

Спасибо за интерес к теме!

Добрый день!

Cпециализированной модели для ответов по коду лично я не знаю. Знаю, что ChatGPT умеет хорошо отвечать на вопросы по переданному ему коду. Как вариант можно попробовать Alpaca и подобные, из минусов – им не получиться передать большой объём кода из-за ограничений размера сообщений. Ещё можно сгенерировать документацию с помощью существующих программ, как например Doxygen, а уже сгенерированный текст передать в вопросно-ответную систему.

Спасибо за вопрос!

Добрый день!

Книгу Льва Николаевича взял для демонстрации работы, вопросно‑ответную систему можно использовать для любого текста на русском языке. Моей целью было создать инструмент для поиска ответов в объёмных документах, договорах и т.д.

Спасибо за интерес к посту!

Добрый день!

Извините, задержались с ответом.

Данные очень грязные, поэтому неудивительно что ливенштейн с дбсканом мало чем помог. Также мало чем помогут модели трансформеры, поскольку примеры, которые вы ввели они будут считать за один кластер, чего вам не нужно. Поэтому можем предложить вариант без кластеризации, но основанный на регулярных выражених, например вытянуть все слова с большой буквы, чтобы их взять за нормальную форму, чтобы понять какие названия присутствуют в данных. Или искать все слова перед и после определенного слова, например до и после слова bank. И так искать организации, затем сокращения на подобии bofa приводить к виду Bank of America. И так с каждой сущностью.

Кластеризация с помощью BERT или SBERT помогут выделить прям явно отличающиеся кластеры, и уже в них можно искать отдельные сущности.

Надеемся, что совет вам пригодиться.

Добрый день!

DBSCAN с Левенштейном должен был выделить явные кластеры при их наличии. Если не пробовали, точно стоит поиграться с весами операций (например сделать дешевле добавление символа, чтобы сгруппировать сокращения). Конкретнее на вопрос без более подробного описания, что не так с результатами DBSCAN, ответить не можем.

Добрый день! Круто, что вы нашли новое применение библиотеки. Спасибо, нужно будет попробовать.

Добрый день!

Спасибо за интерес к посту!

Добрый день!

Спасибо за замечание. Согласен, что chatGPT не идеален. Но, что есть, то есть.

Добрый день!

Спасибо за столь развёрнутый комментарий, с ответом смогу вернуться к вам позднее.

Добрый день!

Все подробности можно узнать прейдя на github (ссылка в конце поста), там есть скрины выполнения с примерным временем. Сами точки координат размещены там же, файл border.json.

Спасибо за интерес к посту)

Добрый день!

Никакого секрета здесь нет. Просто практика работы с геоданными с последующей разработкой инструмента для расчета дистанции между точками, в том числе до границ как областей, так и стран. У меня и нет двух точек, есть только точка начала с нашим адресом отправления, а все остальное множество точек границ областей.

Добрый день!

Все правильно, в текущем варианте задачи допускалась большая погрешность и важна была быстрота исполнения, поэтому взяли такой формат расчета.

Спасибо за замечание!

Добрый день!

Спасибо за ценное замечание и интерес к посту.

Добрый день!

Все замечания по делу. Статья для людей, которые могут столкнуться с похожей проблемой, хотел продемонстрировать, что решение у данной проблемы может быть довольно простое. Упоминание про косинусное расстояние было скорее для того, чтобы читатели понимали, что подходы к сравнению строк могут отличаться. Сильно вдаваться в вектора не хотелось , чтобы не размылась суть статьи, возможно стоило сильнее проработать эту сторону.

Спасибо за обратную связь!

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность