Comments 10
Отвлекаясь от технических деталей, хочу спросить: вы читали «сказкоподобного» «Тома Сойера» и «книгу ужасов» «Франкенштейна»? Вас действительно устраивает алгоритм, который утверждает, будто первая книга больше похоже на сказки Гриммов, чем вторая?

Тот же вопрос про вторые позиции: «Повесть о двух городах», по-вашему, сказкоподобна, а «Беовульф» на сказку не похож?
Другое применение — в нахождении резюме из базы по примеру резюме кандидата

там не нужна обработка текста. Составляем таблицу с ключевыми словами требований работодателя и скиллами кандидата, совмещаем записи по манхеттену.

по Эвклидову расстоянию

в практике манхеттен просто берут

данный метод может только грубо отличить тексты по ключевым словам, причём в дну кучу смысл и стилистика и словарный запас автора.

в принципе зачем считать, можно просто брать метрику по присутствии/ отсутсвии слова, или считать исключая так называемые стоп- слова — топ самых распостранённых слов, ну что вам даст подсчёт артиклей например?

надо будет самому попробовать, способ элементарен.
немного точнее можно попробовать считать комбинации из двух следующих друг за другом слов исключая стоп-слова и с учётом конца предложения.

а вот например отсортировать тексты внутри тематики, например статьи касательно нейросетей по более мелким категориям, думаю там будет всё больше фейла у этого способа

Как ни удивительно, простой метод даёт хорошие результаты.

Не, не видно что-то хороших результатов. Том Сойер как самое близкое к сказкам Гримм?


Чтобы говорить о результатах, нужно взять известный корпус, ранжированный группой людей, и сравнить ваше ранжирование с его ранжированием, метрик есть.


В коммерческих целях такую программу возможно использовать для того чтобы для заданной веб-страницы найти наиболее подходящую рекламу, сравнивая текст читаемой пользователем страницы с текстами страниц, куда ведут имеющиеся рекламные объявления.

Это если считать, что наибольший CTR у тех страниц, которые похожи по тексту… что ничем не обосновано.

И если текстовых данных по типу «Из вас выйдет ком глистов» вообще достаточно для построения сколько-нибудь релевантного запроса.
потестил, меньше всего расстояние с разными томами произведения, например властелин колец 1-2, гарри поттер 1-2, что предсказуемо. Поповоду расстояния по смыслу всё не так днозначно… почему Гарри поттер ближе к звёздным войнам чем к толкиену, а книги по физике равноудалены как от друг друга так и научно-фантастических книг…
вывод — слишком грубо. только поиск разных томов дного произведения

Для этих "книг с разными томами" даже частоты не нужны — там на уникальных словах все успешно найдется.


Поповоду расстояния по смыслу всё не так днозначно… почему

Вы даже не можете найти, почему ваш алгоритм дает такие ответы?

Книжки по физике на одну тему или на разные? Язык английский? Для русского не факт что моя программа работает сейчас.
В плане рекомендации, после «Гарри Поттера» действительно я бы лучше стал читать «Звёздные войны» чем Толкиена. По крайней мере фильмы и тот, и другой просмотрел, а «Властелин колец» смотреть не смог, выключил. У Толкиена специфический набор слов — все эти вымышленные персонажи как имена нарицательные. Это почти как другой язык получается.
У Толкиена специфический набор слов — все эти вымышленные персонажи как имена нарицательные. Это почти как другой язык получается.

А маглов и прочие хоркруксы из Поттерианы уже убрали?

по Эвклидову расстоянию между частотами слов в анализируемых текстах

Хотел бы я увидеть эти результаты для Эдгара По.
Nevermore, ну вы поняли.
Вы использовали модель текста «bag of words», в этой модели давно уже не используют простую частоту слов. Почитайте для начала про тф-идф. Примените — будет лучше. А для русского языка возьмите любую псевдоморфологию, например, на основе стемминга. Результат будет не хуже, чем в английском.
Only those users with full accounts are able to leave comments. Log in, please.