Да нет не плохо, просто размах декларированной цели поражает наповал. Может лучше немного спустить планку и попробовать научить компьютер сгенерировать читабельную статью для geektimes в стиле ализара?

Alex320 Dec 5 2017 at 16:24

попробовать научить компьютер сгенерировать читабельную статью для geektimes в стиле ализара?

Ну я хочу научить генерировать в стиле Толстого. Ну а так, да. С названием не подумал. Надо было по другому называть. Но все-таки надеюсь что хоть что-нибудь полезное вы для себя узнали. Потом еще есть идеи написать статьи по seq2seq. Может результат будет более близкий к цели

Alex320 Dec 4 2017 at 18:18

Вообще-то не все так плохо. Получившийся словарь содержит около 5 тысяч слов с их зависимостями и отношениями. В следующей статье я приведу более совершенную модель (15000 слов). Побольше расскажу о подготовке текста. И наконец в третьей части опубликую финальную модель и расскажу как с помощью нейронных сетей написать программу генерирующую текст в стиле толстого

irishrover Dec 9 2017 at 16:04

Всё как в известной поговорке: «На словах ты Лев Толстой, а на деле Пётр Толстой».

pda0 Dec 10 2017 at 00:31

Я как бы на неё старательно и намекал… :)

kayak116 Dec 2 2017 at 18:25

Спасибо за попытку! Я бы привел результаты тестов, как бы ужасны они ни были

Alex320 Dec 4 2017 at 18:33

В конце я привел один из примеров. Так же вы можете сами попытаться поискать в интернете, почитать документацию по gensim. Там есть примеры предсказывания слова на основе предыдущих

decomeron Dec 2 2017 at 20:03

Может, просто, научить писать компьютер по какой -то другой книге?

LazyCoder123 Dec 4 2017 at 18:27

Как вариант, но у Толстого очень объемные главы и много слов в предложениях. Мне кажется так лучше для быстрого обучения модели. Или не очень?

Alex320 Dec 4 2017 at 18:31

Вы правы. В моей новой модели, основанной на большом количестве книг Толстого, около 15000 слов. Для обучения и использования это очень неплохо. Хотя гугл предоставляет модели и на миллионы слов, правда и весят они парочку гигабайт. Хотя есть и отрицательная сторона — французский язык. Кстати в следующей статье приведу способ отличать французские предложения от русских с помощью nltk.

unibasil Dec 4 2017 at 18:33

Угу, по Библии. ;) Было бы занятно почитать машинное Евангелие.

UFO just landed and posted this here

Alex320 Dec 4 2017 at 18:27

Подход верный. Но сразу публиковать готовый код не интересно. Этой статьей я только хотел разжечь читателя. Дать ему отправную точку для саморазвития. Ждите следующую статью, будет интереснее.

P.S. Зря вы в коде сомневаетесь. Во первых он рабочий, во вторых я не гуглил. Тему с машинным обучением и обработкой натурального языка я знаю отлично. Не первый год интересуюсь… Но ваши замечания постараюсь учесть.

wilelf Dec 3 2017 at 12:12

— А что это у вас там за лампа? — подозрительно спросил Фарфуркис.

Старичок ударил по клавишам, потом быстро вырвал из машинки листок бумаги и рысцой поднес его Фарфуркису. Фарфуркис прочитал вслух:

— «Вопрос: что у нея… гм… у нея внутре за лпч?..» Лэпэчэ… Кэпэдэ, наверное? Что еще за лэпэчэ?

— Лампочка, значит,— сказал старичок, хихикая и потирая руки. — Кодируем помаленьку...».

VioletGiraffe Dec 10 2017 at 17:02

И всё же, когда следующая статья? Хотелось бы попробовать, но пока ведь нечего :)

Alex320 Dec 10 2017 at 19:56

ответил ниже

Alex320 Dec 10 2017 at 19:56

Уже пишу. Мне не хватает только какого нибудь эффектного теста. Подготовил новую модель. Сейчас делаю датасеты чтобы вам не приходилось обрабатывать весь огромный текст по новой.

sunsexsurf Oct 20 2021 at 16:24

Так, похоже, и не написали? Эх...

Show the best of all time