Как стать автором
Обновить
1
0
Павел Чернов @diov

Пользователь

Отправить сообщение

Эти проекционные матрицы уже есть: Wq и Wk. Вот только на вход им подают уже смешанные данные. То есть, мы смешали зеленое с мягким, и затем просим модель научиться разделять. Модели приходится адаптироваться. Она учится не использовать пространство эмбеддингов на полную мощь, т.к. смысловые измерения смешиваются с позиционными.

Если бы мы делали concatenate(x_embedding, x_position) * Wq - думаю, мы получили бы результаты лучше.

Лично мне было бы интересно узнать больше о методах кодирования, когда мы не прибавляем (не умножаем) смысловую информацию и позиционную. А конкатенируем.
Я прочитал лишь пару не очень убедительных статей на эту тему.
Неужели больше никому не интересно исследовать эту идею?

Информация не существует "сама по себе". Если "красота - в глазах смотрящего", то информация - в его голове. Для непосвященного человека некоторый файл будет представлять собой белый шум, а для знающего - архив ZIP.

Тот самый случай, когда комментарий лучше статьи! )
Пожалуйста, напишите отдельную статью про муравьёв!

Вчитался в код, понял, что Вы считаете евклидово расстояние не между векторами из разных пространств, а между косинусной схожестью двух любых векторов из исходного пространства, и косинусной схожестью между преобразованными версиями этих же векторов, уже в преобразованном пространстве.

Идея хорошая!

Не вполне понятно, почему для сравнения алгоритмов выбрано евклидово расстояние? Во-первых, как правило, sentence transformers тренируют на косинусном расстоянии. Во-вторых, а что, после преобразования Вы также используется косинусное расстояние для поиска похожих, ведь так? Так откуда и зачем использовать евклидово?

В подтверждение гипотезы, что для симуляции работы реальной нейронной сети не нужно вычислять мембранный потенциал, спайки или, упаси боже, квантовую неопределенность.

Один ученый из мира биологии написал некое summary работ, которые подтверждают, что нейроны в обученных мозгах работают так же (или "очень похожим образом"), как нейроны в обученной искуственной нейросети. При условии, что они обучались на одной задаче, канеш.

Это вселяет надежду, что ИИ достижим в обозримом будущем.

Вот видео с его интервью, в описании к нему ссылки на все работы:
https://youtu.be/vfBAUYpMCTU

Мой вопрос остаётся тем же: о какой невычислимости Вы говорите? Оставим пока в покое тему нейросетей, и поговорим о любой простой хаотической системе.

Вот пример эмуляции двойного маятника (первое, что нашёл в поиске): https://dpvis.herokuapp.com/

Эта программа вычисляет положение маятника. Маятник проходит через точки бифуркации, "зависящие от бесконечно малых начальных условий".

Где невычислимость?

Про синхронизацию и фазовые переходы - интересно. Хотя пока непонятно, как это применить в "народном хозяйстве", т.е. в machine learning, например.
А про якобы невычислимость хочу Вам аргументированно возразить. Вы привели следующие утверждения:
"Как происходит обрушение песчаной кучи или сход снежной лавины? Это простые модели неравновесных систем и перехода через точку бифуркации.

Никаких вычислений здесь нет. Появятся они, когда вы, хотя бы в принципиальном смысле, сможете предсказывать поведение системы в точке бифуркации. Но оно зависит от бесконечно малых событий, поэтому принципиально непредсказуемо."

Но зачем нам пытаться смоделировать поведение конкретной песчаной кучи? Или сход конкретной снежной лавины? Или, например, поведение конкретного двойного маятника?

Это действительно невозможно по разным причинам: квантовые эффекты, невозможность снять точные измерения всех элементов, ограничения точности в вычислительных системах.

Но, на самом деле, такой задачи и не стоит! Ведь достаточно будет смоделиловать некую виртуальную кучу песка и убедиться, что она обрушается похожим образом на настоящую. Или смоделировать виртуальный двойной маятник и убедиться, что у него тоже есть точки бифуркации.

Та же самая логика по отношению к нейросети. Никто не ставит целью смоделировать конкретную существующую нейросеть. Успехом будет считаться, если мы смоделировали некую виртуальную сеть, и она ведёт себя похожим образом на настоящую.
Никакой невычислимости я здесь не вижу.

Вы описали довольно интересную гипотезу. Чтобы ей стать по-настоящему научной, нужно привести условия для её опровержения. Т.к. научные теории, в отличие от верований, опровергаемы.
Какой бы Вы предложили эксперимент, который бы показал, что мозг не работает как переходы между бифуркациями?
К тому же, непонятно заявление о принципиальной невычислимости бифуркаций. Что именно вы не можете там вычислить?

Я вот больше склоняюсь к мысли, что мозг - как оркестр. Когда каждый нейрон "играет" в нужное время - рождается музыка, т.е. мысль.

Интересная идея. Жаль, применима только для случая, когда парус летит в нашу сторону. Для исследования других звездных систем надо отправлять аппарат "от нас". При этом разумной кажется идея Стивена Хокинга отправлять много мелких, легких аппаратов, чтобы их можно было ускорить лазером с Земли. Мне всегда было интересно, можно ли их потом замедлить около пункта назначения. Ведь иначе у них будет совсем немного времени на сбор данных, т.к. они промчатся дальше.

Таблица с эмбеддингами для слов, построенная по корпусу языка, сработает, допустим, для 95% пользователей. А чтобы получить эмбеддинги для слов из всевозможных сленгов, нужно потратить много человеко- и машино-часов времени. Стоят ли дополнительные 5% этих усилий — большой вопрос… И каждый коллектив отвечает на него по-своему, в зависимости от целей и ресурсов.
Стало очень интересно, какое вещество отвечает за провал между зеленой и красной частью спектра (спектр поглощения)…
Зря Вы переживаете по этому поводу.
Бизнес в результате конкуренции вынужден постоянно искать способы увеличить прибыль.
Поэтому если узнают, что можно увеличить выручку или уменьшить издержки, добавив какой-то анализ данных, заказчики сами приготовят и принесут Вам данные на блюдечке.
А если это не происходит, возможно, Ваша модель не слишком помогает увеличивать прибыль.
(Или же многие заказчики ещё не готовы к этой революционной идее).
Перевести стрелки на часах — не проблема. Я говорю о другой проблеме.
Arson любит, когда в названии часового пояса указывают смещение относительно GMT.
Но в GMT нет перевода часов на летнее/зимнее время.
Внимание, вопрос: как указать центральное европейское время, если зимой и летом оно разное: GMT+01:00 или GMT+02:00?
Мне очевидно, что указывать смещение в названии часового пояса — не слишком хорошая идея.
А как же перевод часов на зимнее/летнее время в некоторых, но не во всех странах?
Поздравляю! Вы только что описали идею Reinforcement Learning.
А если быть точнее — его подраздел, который описывает планирование (Planning), баланс между изучением (exploration) и достижением результата (exploitation).
Например: алгоритм планирования Monte-Carlo Tree Search был использован при обучении модели AlphaGo, которая сумела обыграть человека в игре Го.
Интересная модель!
1. Сразу возникает вопрос безопасности.
Если пользователь потерял устройство и купил новое, как он будет доказывать, что он — это он? Что только он может говорить от своего имени. А если кто-то другой попробует сказать что-либо от его имени? Или, например, от имени Бориса Джонсона?
Как вариант — каждый должен запомнить или записать где-то секретную часть ключа. Но это не очень-то практично…
Либо доверие к новому устройству устанавливается кругом ближайших пользователей, которые «голосуют» и делают запись, например, в блокчейн о новом устройстве и его открытом ключе.
2. Вы можете сколько угодно запрещать вашей интимной фотографии показываться незнакомым людям, но как только она оказывается на устройстве вашего доверяемого лица — он сможет сделать с ней всё, что захочет.
Пример — настройки безопасности в Лицокниге, где ваш друг может взять фотку и выложить её куда угодно, несмотря ни на какие ограничения.
Я один не понял, о чём статья?
Напомнило Яндекс.Рефераты
Там тоже классные тексты получаются
«Многие кометы имеют два хвоста, однако огибающая семейства прямых раскручивает межпланетный бином Ньютона, что неудивительно. Лемма, как следует из вышесказанного, концентрирует интеграл Пуассона.»

Прочитав статью, представил, что в 1989 году могла выйти подобная статья, только про Интернет. Эдакая «Заметка об Интернете и системах связи».
В ней вполне могли бы написать, что «Интернет передаёт, от силы, 1000 писем в день. В то время как старый добрый телеграф передаёт 10^XX сообщений! Есть ли будущее у подобной университетской поделки?».
Сейчас, конечно, по прошествии 30 лет, прочитать такую статью было бы весьма уморительно…
1

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность