Comments / Profile of miralumix / Habr

How to become an author

User

Profile Publications Comments 27Bookmarks

Блеск и нищета больших языковых моделей

miralumix Apr 12 at 17:09

Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.

Что значит думать? Прохождение сигнала по нейронах - это и есть "думать". Нельзя сказать что в процессе генерации сеть "не думает".

А касательно саморефлексии - да, архитектурно это пока не возможно, но ведь мозг человека тоже сегментирован, поэтому надстройки которые добавят "возможность передумать" вполне имеют право на жизнь в лице AGI.

+4

История «некоммерческой» лаборатории OpenAI, которая полюбила деньги

miralumix Oct 2 2023 at 03:53

Про проблемы вроде все всё знают, но когда доходит до серьёзного обсуждения - все закрываются в домике под названием "это только пока", "эмерджентные способности", "закон Мура" и так далее по списку.

Говорить о проблемах нужно, но "эмерджентные способности" стали настолько заметны впервые, появились новые свойства, и разум теперь не воспринимается как что-то уникальное для человека - мы увидели зачатки разума у машины. ChatGPT для меня это как в своё время гальванический элемент.

Хм, ну давайте опять рассмотрим программирование.
На фоне этого возникает вопрос - когда же эти "проблески" перейдут именно в "настоящее понимание"?

Я не считаю, что модель обрела настоящее понимание программирования на данный момент. Моё мнение состоит в том, что для настоящего понимания программирования, как и для других алгоритмических вещей, требуются архитектурные изменения.

Понимание, о котором я говорю, включает в себя базовые вещи. Например, если предложить модели рисовать, она нарисует голову выше плеч, несмотря на то, что слово "выше" всегда было для неё всего лишь текстом [я уже приводил эту статью комментарием выше].

Мы не знаем внутренней структуры GPT-4. Мы не знаем размера обучающей выборки. Мы не знаем состава обучающей выборки. Мы тем более не знаем, что вообще есть, а чего не было в обучающей выборке. Мы можем только верить словам тех людей, которые получают очень большие деньги на нынешней лихорадке ИИ

Конечно, все мои аргументы и мнение опираются на достоверность утверждений OpenAI. Я буду очень разочарован, если лучшие специалисты мира в области искусственного интеллекта окажутся все вместе мошенниками. Но на данный момент у меня нет оснований не доверять им.

Я правильно понимаю, что вы ведёте к мысли: "Сегодня оно аппроксимирует числа лучше людей, а завтра будет аппроксимировать любые математические теоремы (и не только) лучше них"?

Я веду к мысли, что на данный момент модель аппроксимирует результат, не генерирует чушь, а именно аппроксимирует. Это может означать, что сеть понимает, что за операцией умножения стоит какой то алгоритм, но в силу линейности не может его освоить. А завтра (после архитектурных изменений) да, она будет способна осваивать алгоритмы, теоремы и, в целом, научные доказательства.

+1

Попросил нейросеть нарисовать биологические объекты: посмотрите, какая дичь получилась

miralumix Oct 1 2023 at 13:39

Чтобы правильно нарисовать велосипед, нужно понимать принципы его механики и то, зачем нужна та или иная деталь. Для нейросети же это набор картинок с разных ракурсов.

Для диффузионной нейросети - да. А вот ChatGPT умеет помогать с ремонтом велосипедов по фотографии (тык).

+1

История «некоммерческой» лаборатории OpenAI, которая полюбила деньги

miralumix Sep 30 2023 at 13:20

Отвечу тут на оба ваши комментария.

По итогу сделаны соответствующие выводы - LLM, по всей видимости, не имеют какого-то глубокого понимания входящей информации (в данном случае - кода).
Хотя не исключено, что в будущем перейдем на что-нибудь другое, что будет с легкостью преодолевать и эту задачу в том числе - но то "другое" уже по определению не будет "GPT".

Никто и не отрицает, что у GPT есть большой список проблем (масштабирование, галлюцинации, линейность). Никто не утверждает, что у неё есть глубокое понимание мира в каждой задаче. Скорее суть в том, что в некоторых задачах у нейросети появились новые свойства и проблески настоящего понимания.

Да, не исключено, что очень значительная часть чудо-способностей GPT-4 (да и остальных современных моделей) - следствие вливание настолько огромного числа данных

Именно поэтому я стараюсь фокусировать внимание не на коде и не на каких-то обыденных задачах, а именно на том, чего не было в датасете. Как по мне, это самое важное. Способность текстовой модели правильно рисовать, весьма неплохо аппроксимировать арифметику и решать B-SAT логику, делать музыку и прочее.

Как-то показывает, что все не так просто с математическими способностями

Потому что сеть без рекуррентности ограниченно способна решать задачи, которые требуют планирования. Ожидать от неё способностей математического движка при такой архитектуре было бы странностью. Но она аппроксимирует большие числа гораздо лучше, чем люди, и в этом вся суть.

+1

При высокой нагрузке корпус iPhone 15 Pro нагревается до температуры 48 °C

miralumix Sep 28 2023 at 18:50

Инновационная технология подогрева ладошек зимой, впервые в истории.

0

История «некоммерческой» лаборатории OpenAI, которая полюбила деньги

miralumix Sep 28 2023 at 00:34

Это к вопросу о "в GPT никто код не вливал, а он прогать научился", "чудо-способности, которые появляются у моделей с увеличением числа параметров" и подобных вещах, о которых вы говорите.

Погодите, я не говорил, что в GPT никто код не вливал. Когда я писал о кодинге, я не имел в виду, что сеть научилась кодить сама из ничего. Я имел в виду, что сеть научилась кодить, то есть понимает логику в коде, который видит впервые, а не просто переписывает паттерн с датасета.

GPT-3 из статьи - модель с 12 миллиардами параметров, датасет которой содержал код в крайне малых количествах (но в достаточных, чтобы научить её изредка писать совсем простенькие функции на python) - дает 0% там же.

А чему вы удивляетесь? Вполне логично, что если сеть видела мало примеров, то пусть у нее будет хоть триллион параметров, там нечего заучивать. Как по мне корректно сравнивать только модели со схожим датасетом, но разным размером, а не когда одна сеть заточена под код.

Итак, GPT-3.5 прекрасно умеет обрабатывать 150 подряд идущих одинаковых слов, причем без подсказок с моей стороны. Но вы прекрасно видели примеры из моего прошлого комментария. Мы явно видим, что у GPT-3.5 нет никакого понимания в этом плане.

Я согласился с вами что модель пока не умеет обрабатывать длинные последовательности. Суть же в другом, это не мешает модели понимать суть мира и выходить за рамки простого текста. Советую вам ознакомиться с этой статьей:

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Приведу пару цитат которые касаются "понимания" мира:

"Yet, the model appears to have a genuine ability for visual tasks, rather than just
copying code from similar examples in the training data. The evidence below strongly supports this claim,
and demonstrates that the model can handle visual concepts, despite its text-only training."
"GPT-4 demonstrates understanding of the concepts from graph theory and algorithms. It is able to reason
about an abstract graph construction, which relates to a constraint satisfaction problem, and deduce correct
conclusions about the SAT problem (to the best of our knowledge, this construction does not appear in
the mathematical literature)."
"We can see that the accuracy does not drop very much as we increase the range of the numbers, suggesting
that it is not the calculation itself that poses a problem for the model, but instead the problem seems to be
with the fact that one needs to plan ahead for the solution."

Не знаю как для вас, а для меня само это - уже "чудо-способности", я вижу там понимание мира. Вы правильно подметили, что критерии все же немного разные для человека и нейросети. То что для вас кажется легкой задачей (150 раз повторить слово), в силу особенностей архитектуры может быть сложнее для нейросети. Но это пока.

0

История «некоммерческой» лаборатории OpenAI, которая полюбила деньги

miralumix Sep 27 2023 at 18:10

Спасибо за ваш комментарий.

популярные нынче модели не понимают даже смысла слов, которые они пишут (куда уж там до логики мира)

Должен добавить, что под пониманием модели мира я имею в виду появление у модели знаний о мире, которых она не была научена специально, и которых точно не было в ее тренировочном сете. К примеру, сложение и умножение пятизначных чисел, перевод текста на другие языки или код. Да, она делает это неидеально, часто галлюцинирует, но это пока. Главное, что модель уловила суть этих концепций, отточить их до идеала никогда не поздно.

Ну ладно, дадим ему вот такой запрос.

А теперь касаемо ваших примеров, они все построены на зацикливании определенного токена N раз. С учетом того, что такое количество тех же слов подряд вряд ли встречалось в тренировочном датасете, неудивительно, что механизм внимания сходит с ума, и модель начинает галлюцинировать. Это особенность механизма внимания. У вас внимание устроено так, что когда вы видите N раз тот же текст, то берете во внимание лишь один фрагмент. Модель пока так не умеет, скорее всего, и ищет связи там, где их очевидно нет. Так как появление новых свойств сильно коррелирует с размером нейросети, думаю, GPT-5/6/7/9000 без проблем освоит задачу написания токена 150 раз.

Да и где гарантия, что с условным GPT-5/6/7/9000 не будет таких же проблем?

А вы гарантируете, что человек всегда безошибочно напишет слово 150 раз подряд? А 5000 раз? Думаю, на миллионе любой человек сойдет с ума, как бедная GPT-3.5 на ваших примерах.

0

Нейроинтерфейсы от Neuralink: проблемы и перспективы проекта по созданию интерфейса «мозг-компьютер»

miralumix Sep 27 2023 at 10:08

Думаю испытания на добровольцах более этичны чем на обезьянках

0

Эволюция CAPTCHA: доказательство PoW, продвинутые боты

miralumix Sep 26 2023 at 15:15

Тогда лучше сразу ввести верификацию по паспорту, чтобы в случае дудоса можно было просто проверить документы злоумышленника)

+1

История «некоммерческой» лаборатории OpenAI, которая полюбила деньги

miralumix Sep 26 2023 at 06:27

Память и остальное можно прикрутить, посмотрите на Evil-GPT. Отсутствие памяти не мешает нейросети понимать логику мира, хоть пока и в текстовом виде в основном.

+1

Капсулу с образцами породы астероида Бенну доставили в лабораторию Минобороны Юта для очистки и подготовки к открытию

miralumix Sep 25 2023 at 18:19

А как реализован этот поток азота? На фотографиях не видно.

0

iPhone 15 Pro оказались более хрупкими, чем iPhone 14 Pro

miralumix Sep 24 2023 at 15:59

С учетом того, что существует огромный рынок защитных чехлов, стекол и прочего, думаю, что подкупают. Просто кому-то не очень хочется терять этот рынок.

-1

Исследование: около 500 брендов покинули мировой рынок смартфонов в 2017-2023 годах

miralumix Sep 24 2023 at 15:42

А я вот наоборот, не нравится пиксель, но пользуюсь из-за GrapheneOS. Если бы можно было бы поставить графен на Samsung, то цены бы ему не было.

+1

iPhone 15 Pro оказались более хрупкими, чем iPhone 14 Pro

miralumix Sep 24 2023 at 15:33

Хитро что на презентациях показывают что угодно но не дроп тесты

+1

iPhone 15 протестировали на подключение проводного интернета через адаптер USB-C/Ethernet

miralumix Sep 24 2023 at 14:45

Они же рекламируют игровую графику в новых айфонах, как вариант стриминг игр или киберспорт

0

Пентагон запустил сайт про НЛО

miralumix Sep 5 2023 at 12:09

Или северокорейские дроны :)

0

Нулевая энергия квантовой системы не равна нулю — и это проблема современной космологии

miralumix Sep 1 2023 at 08:34

Видимо на расширение пространства

+1

Мы сами себя обманули с Биткоином

miralumix Aug 31 2023 at 08:34

Вы ошибаетесь, правительства никогда не пойдут на отсутствие контроля и свободный формат и будут всячески этому препятствовать.

0

Что содержится в вейпах? Токсины, тяжёлые металлы; возможно, радиоактивный полоний

miralumix Aug 27 2023 at 07:31

Проблема в том что они в процессе вымирания неплохо так подпортят жизнь обществу начиная от курения в общественных местах и заканчивая нагрузкой на систему здравоохранения

-3

О вычислительной природе реальности

miralumix May 28 2023 at 04:31

Но игнорирование детерминизма не означает что система перестает быть детерминистической, просто позволяет не замечать его. А нейронные сети и биткоин транзакции вполне себе детерминистичны.

+1

1