Pull to refresh

Comments 20

чем же отличается сильный ИИ от слабого.

возможность обучения на маленьком наборе данных ( всего одну картинку покажи человеку) из за наличия общего смыслового представления о мире и навыкам обучения.
хотя нет, пока что нет полного описания что это такое
остальные три критерия — нет. дура вроде IBM Watson или какая нить экспертная система может эмулировать самосознание но не являться сильным ИИ
Равно как и сильный ИИ Маугли не подходит по критериям — просто его не обучили

Автоэнкодеры не имеют к сильному ИИ никакого отношения.

У человека объёмное зрение, т.к. два глаза, поэтому он сперва ощутит форму кубика и его ориентацию в пространстве, а потом уже начнёт вникать что там на гранях написано (с поправкой на наклон и перевёрнутость грани). И читает не всегда быстро. Иначе человек мог бы легко читать текст составленный из таких повёрнутых под разным углом и сжатых букв.
А вы компутеру сразу усложнили задачу дав один глаз и показав плоское изображение 3д объекта.
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш, а для этого не только софт нужен, но тело, взаимодействующее с реальностью (можно на первых порах виртуальные)

Со стерео зрением все те же вопросы останутся. Это мы из математики умеем ловко умножать на матрицы поворота и знаем, как преобразуются координаты за счет этого. Мозгу нужно точно так же будет учиться и запоминать, как выглядят разные фигуры после поворота. Стерео лишь поможет, но не решит никаких фундаментальных проблем.

но вообще не претендую на то, что «вот так у человека», лишь демонстрация подхода. и да, а может у с рождения одноглазых так? как-то же люди с одним глазом берут объекты, не так ловко, но форму предмета понимают.

«начнёт вникать что там на гранях написано (с поправкой на наклон и перевёрнутость грани» — и вот тут как раз появится проблема трактовки, упускаемая сейчас многими.

«А вы компутеру сразу усложнили задачу дав один глаз и показав плоское изображение 3д объекта.
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш, а для этого не только софт нужен, но тело, взаимодействующее с реальностью (можно на первых порах виртуальны» — тут полностью согласен
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш

Нет, он будет сильным, когда будет обучаться так же, как человеческий детёныш.

Смысл тот же (я вкладывал)

Не совсем, мне кажется, тело, взаимодействующее с реальностью, особо не влияет на «сильность» ИИ. Важны принципы обработки информации, способности к обучению, а не условия обучения.

Проще дать ИИ вирт тело как у человека, чем потом каждый день объяснять нюансы, например смысл фразы "близок локоть — да не укусишь", или зачем в проектируемом с помощью ИИ здании писсуары и на какой высоте их вешать.

Он вполне может прочитать об этом в книге, так же как мы читаем об особенностях хвоста у животных или идиомах иностранного языка.

Сильным он будет, когда будет способен решать все задачи, решаемые людьми. А как он будет обучаться — детали реализации.

Да, я имел в виду "обучаться чему-то новому так же быстро и качественно, как человеческий детеныш".

Когда ИИ сможет создать ИИ лучше, чем он сам, улучшенный ИИ сможет создать еще более улучшенный ИИ и так далее. В итоге скайнет решит уничтожить больше половины человечества и Джон Коннор нас спасет :)
Привет.
1) Твоё решение для оценки распределения плотности — весьма интересно, но требует теоретической оценки и экспериментальной проверки для более общих случаев: а) на случай непропорционального распределения числа обучающих примеров, скажем, 1000 цифр «0», 2000 цифр «8» и лишь 100 цифр «6».
б) более сложная взвесь, например, картинки из mnist с произвольным поворотом и смещением, т.е. хотя бы 100000, а не всего 100 аффинных преобразований.
в) неразделимая комбинация различных элементов, как в CIFAR-10 и CIFAR-100. Получится ли что полезное при попытке разложить новый незнакомый объект на классы из CIFAR?
г) более сложная метрика, чем L2.
Также рассмотрено очень мало примеров, и начинает казаться, что легко можно подобрать контрпример, где что-то из описанного не будет работать.
2) Интеллектом (а тем более, сильным), увы, тут пока всё же не пахнет, потому что ты так и не показал обучения без учителя и самостоятельное очищение данных.
3) Фактически, во многих примерах, аналогия твоим действиям — переход от одного мультиклассового классификатора к N бинарным классификаторам (другая аналогия — слои CNN, по слою на признак). Ты утверждаешь, что бинарные классификаторы + оценка дисперсии их предсказаний позволяют решать задачи лучше, чем альтернативные методы.
Более того, ты теперь раскладываешь по этим бинарным классификаторам объекты. Кажется, что при комбинировании в одно целое, легко можно было бы просто подобрать уровни срабатывания для этих отдельных классификаторов чисто статистическим образом (или с помощью backpropagation), что решало бы проблему оценки плотности распределения, которую умеет делать классификатор.
4) Есть работы по VAE и GAN, где авторы пытаются добиться некоррелированности («ортогональности») координатных осей в латентном пространстве. Я бы для дальнейшего развития рекомендовал посмотреть на них и сравнить с ними.
Спасибо за конструктивную критику! :)

1) а) с непропорциональным разделением — это как раз история про то, что как бы байесов подход хорош, но он не про реальные объекты. Мы можем понять, что объект принадлежит какому-то классу, даже если никакогда не видели на входе такую реализацию. Вот потому что и приходится выдумывать систему «над», такую как общее латентное пространство, чтобы такие неровности в распределении компенсировать.
б) да, просто это уж много выч.мощности и GPU памяти нужно. работаю над этим. Не вижу теоретических пределов, почему бы не взлетело и при огромном количестве контекстов.
в) не понимаю, чем тут с CIFAR может помочь. мелкие картинки, никакой доп.закономерностей оттуда не вытащить, ну кроме аффиных преобрвазоний (а это уже очень много работ было на эту тему, те же Spatial Neural Networks)
г) безусловно.

Ну, да, пример один и в чем-то натянут. Работаю над другими задачами с помощью этого подхода — со временем станет больше.

2) конечно, не пахнет. но множественность трактовок и целеноправленное формирование абстрактных моделей, которые позволяют выбрать лучшую трактовку на нижнем уровне… ну это важная часть, пока что не нашедшая свое отражение в каждом первом ML framework.

3)CNN вообще имеет тут много общего, т.к. позиция на изображении — это тот же самый контекст, а «общее латентное пространство» — аналог общих весов в ядрах. И нет, это не бинарные классификторы, это именно что оценка функции правдопобия модели, описываемой атоэнкодером-контекстом. И да, если backpropogation всесилен и всегда находит отличный оптимум и мы знаем что за лоссы вставить, — то много проблем бы решелись. Но, как-то, это обычно не так. А как начинаются ограничения в размере обучающей выборке, то совсем все плохо. Вот и приходится что-то выдумывать.

4) Да, VAE, GAN — это определенно направления для развития. VAE дает распределение p(z) предсказуемое, а GAN вообще просто крут для формирования моделей автоэнкодеров. Теперь видя сон по ночам, просыпаюсь удовлетворенный, что потренировал свои GAN-ы, заметив пару нестыковок )))
1. Не совсем понятно как получается «Вектор правдоподобия контекстов», когда сам контекст превращается в «объект». Можно подробнее?
1. А если объект находится в нескольких контекстах. Тогда количество автоэнкодеров будет декартовым произведением множества контекстов? Или суммой?
1) да, действительно плохо описал. Смотрите, каждый контекст — автоэнкодер. Когда на него приходят входные данные, мы можем оценить p(x | этот автоэнкодер описывает сию ситуацию), т.е. правдоподие данного контекста. Оценка этой вероятности должна бы делаться согласно мат.модели, которая описана в первой половине статье, т.е. 1) невяка реконструкции 2) p(z) 3) нормировка 4) апприорная вероятность. Оказалось, что в MNIST 1ый коэффициент дает больший вклад, так что я делал лишь грубую оценку p(x|i), считая lg(p(x|i)) пропорциональным невязке автоэнкодера. Таким образом, «вектор правдопобия контекстов» — это лишь вектор невязок автоэнкодеров в моих примерах. Но в общем случае, расчет там будет сложнее.

а превращается этот вектор в объект уже в следующей области обработки информации (просто «волевым решением», а давайте попробуем и тут найти что полезного). Т.е. гипотеза как раз в том, что сам по себе этот вектор тоже может быть полезен для формирования новых абстрактных понятий. И, оказывается, бывает полезен, да.

2) Ну т.е. пространство контекстов не такое простое и линейное, как в моем примере. Скажем, если есть 10 позиций по X, 10 позиций по Y и 15 ориентаций, то контекстов будет уже 1500, т.е. произведение. Может быть, что у человека в зоне зрительной коры V1 контексты позиции и ориентации для картинки 120х120 пикселей занимает примерно 600 000 миниколонок, и занимается она узнаванием небольших элементов изображений. Если предположить, что каждая миниколонка (структурная единица неокортекса) — это вот такой автоэнкодер ответственный за позицию и ориентацию, то выходит 120х120 позиций и 40 ориентаций. А на весь неокортекс 400млн. миниколонок. Это тоже не слишком много, но, за счет разумной декомпозиции информации, значит, хватит. Т.е. одна область про трактовки в контекстах позиции и ориентации, другая про звуки при условии разной частоты и тембра звука, третья о направлении и скорости движения, четвертая про трактовку событий в различных социальных контекстах и т.п. Должно как-то хватать, архитектура (т.е. кто с чем соединен) оттачивалась эволюцией миллионами лет.
1. Спасибо, теперь понятнее.
2. А с физиологической точки зрения, контексты поворота в мозге человека дискретны? Есть ли какие исследования на эту тему?
ну вот в начале этой работы резюме про селективнсоть зоны V1: http://homepages.inf.ed.ac.uk/jbednar/papers/fischer.ms14.pdf. Это еще годах в 60х нашли (Hubel &Wisel). Там даже интересно то, что кажется не трехмерное пространство разложено на плоскость, а аж пятимерное: позиция, ориентация, масштаб, направление движения.
Смотрите, стандартная позиция, что миниколонка отвечает за детектирование именно фич. Но есть предположение, что на деле каждая миниколонка — тот еще автоэнкодер, который описывает целое многообразие фич в своем контексте. Нужно еще проводить исследования действительно ли это так. Но моя позиция, что биологическая аналогия — это хорошо, но оставлю это нейрофизиологам, надо делать алгоритмы вне зависимости нашли ли чего они или нет.
Думаю будет показательным провести эксперимент с геометрическими примитивами, такими как Шар, Куб и Цилиндр, которые для некоторых ориентаций будут трактоваться двояко.
То есть для некоторых отдельно взятых контекстов правильными будет несколько трактовок.
Можно предположить что в общем латентном пространстве произойдет некоторое «связывание» этих трактовок.
Будет интересно увидеть, как будет выглядеть результат декодирования такой неопределенной (двоякой) трактовки в различных контекстах.
Так же будет интересно пронаблюдать дедуктивное урезание неопределенной трактовки, при дополнительном предъявлении примитива с другого ракурса (тоже не определенного)
Да, такой план и был, но квадратные грани с рисунками MNIST затруднили :). Действительно, тут могут быть равновероятные результаты в каком контексте трактовать.

Все то, что Вы перечисляете — это неотъемлемая часть мат.аппарата, которую еще предстоит сделать.
Sign up to leave a comment.

Articles