Pull to refresh

Comments 9

Я вот слышал, что сейчас практически «во всех задача NLP» лучшие результаты показывают модели, основанные на BERT, только дополнительно дообучающиеся под специфику задачи. Вы не пробовали использовать для решения этой задачи BERT?
Ещё не совсем понятен этот момент:
Одна из проблем модели на seq2seq – это невозможность привести слова, которых нет в словаре. Например, у модели нет никаких шансов вывести «obamacare» из статьи выше.

Имеется в виду, что тестовые данные содержат новые слова, которых не было в тренировочных?

Нет, к сожалению, BERT не пробовал.


Насчёт момента с невозможностью вывода несловарных слов. Имеется в виду, что абстрактные модели составляют заголовок только из слов, взятых из заранее заданного множества (собственно, словаря). Если в исходном тексте будет важное слово, которого не будет в словаре, то абстрактная модель его подставить в заголовок его не сможет. Это касается и тренировочных данных, и тестовых.

Тогда уточню ещё, чтобы до конца понять, что это за обрезанный словарь)
Видимо, словарь образуется из всего массива данных, но за исключением редких слов (и «obamacare» как раз отбросился)?
Или же он берётся из какой-то pretrained модели (из другого массива текстов)?

Словарь я готовил отдельно, он не зависит от данных, на которых проходит обучение.
Если быть точнее, то для своих экспериментов я просто находил какие-нибудь предобученные эмбеддинги (например, отсюда http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html), смотрел для каких слов они были составлены, брал первые 100k (можно больше, но от этого усложняется модель). Сами предобученные эмбеддинги, кстати, не использовал.
Судя по происхождению файла с эмбеддингами, откуда я брал слова, можно сказать, что я составил словарь из 100k самых частотных слов Википедии и корпуса Ленты, расположенных в порядке частотности.

Надо сделать такую же вещь для видео.

А можно ли этот алгоритм прикрутить к форуму? Чтобы все комментарии просеивались через такую "сетку", а на выходе иметь, например, 3 уровня детализации: "сокращённо", "средне", "подробно". Чтобы не было необходимости перечитывать всю ленту. Чтобы можно было сразу увидеть тезисно основные мысли озвученные комментаторами. Чтобы повторяющиеся и близкие по содержанию комментарии группировались. К чтобы наиболее важные, уникальное и интересные мысли поднимались вверх, в начало текста, а глупые и неинтересные опускались вниз ленты или удалялись. Думаю это значительно приблизило бы нас к краудсорсинговым социальным сетям. Будущее за коллективным мышлением онлайн усиленным искусственным интеллектом.

У форума структура сложная, там в общем случае, нет какого-то одного повествования, а куча разных мнений. Не говоря уже о том, что в одном форуме может одновременно вестись несколько разговоров параллельно между несколькими группами людей, а также могут быть просто высказывания в пустоту — короче, хаос. Чтобы такое сокращать, нужно заранее определять, какие сообщения к чему и к кому относятся (для чего нужна отдельная программа, а по-хорошему тоже нейросеть — только как её сделать?), затем сложить из этих сообщений что-то похожее на пьесу в нескольких явлениях (одно явление — общение между определённой группой людей), а затем попробовать пройтись описанным в статье алгоритмом. Либо сразу обучать генератор заголовков (можно описанный, а можно на трансформерах, используя BERT) на форумном тексте (желательно, чтобы в нём до подачи на сеть особым образом выделялись лица разговора, цитирования и прочие форумные штуки).


Для каждого уровня обобщения нужно найти соответствующую обучающую выборку на 100k+ текстов (может, и меньше, я не проводил экспериментов, как ухудшается качество от размера обучающей выборки) и попробовать запустить сетку.


В этом ещё одна проблема. Нужны не просто тексты форумов, а также сокращения текстов форумов, которые я, например, никогда не видел. Значит, их придётся составлять самому, что очень дорого.

Only those users with full accounts are able to leave comments. Log in, please.