Как стать автором
Обновить

Пишем поиск семантически похожих текстов (или товаров) за полчаса на Go и Postgres (pgVector)

Время на прочтение5 мин
Количество просмотров3.2K


Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?


TLDR:


  1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
  2. Сохраняем векторы в базе с помощью pgvector.
  3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
  4. Ускоряем индексами.
Читать дальше →
Всего голосов 15: ↑17 и ↓-2+19
Комментарии6

Генеративные модели от OpenAI

Время на прочтение13 мин
Количество просмотров37K


Эта статья посвящена описанию четырех проектов, объединенных общей темой усовершенствования и применения генеративных моделей. В частности, речь пойдет о методах обучения без учителя и GAN.
 
Помимо описания нашей работы, в этой статье мы хотели бы подробнее рассказать о генеративных моделях: их свойствах, значении и возможных перспективах развития.
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии2

Разреженные матрицы: как ученые ускорили машинное обучение на GPU

Время на прочтение4 мин
Количество просмотров21K
В начале декабря исследователи из OpenAI представили библиотеку инструментов, которая поможет ускорить обучение нейронных сетей на GPU от Nvidia за счет использования разреженных матриц. О том, с какими трудностями сталкиваются разработчики нейронных сетей и в чем основная идея решения от OpenAI, расскажем далее.

Читать дальше →
Всего голосов 27: ↑25 и ↓2+23
Комментарии13

Глубинное обучение с подкреплением пока не работает

Время на прочтение33 мин
Количество просмотров30K
Об авторе. Алекс Ирпан — разработчик из группы Brain Robotics в Google, до этого работал в лаборатории Berkeley Artificial Intelligence Research (BAIR).

Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.


Введение


Однажды в Facebook я заявил следующее.
Когда кто-то спрашивает, может ли обучение с подкреплением (RL) решить их проблему, я сразу отвечаю, что не может. Думаю, что это верно как минимум в 70% случаев.
Глубинное обучение с подкреплением сопровождается массой шумихи. И на то есть хорошие причины! Обучение с подкреплением (RL) — невероятно общая парадигма. В принципе, надёжная и высокопроизводительная система RL должна быть прекрасна во всём. Слияние этой парадигмы с эмпирической силой глубинного обучения очевидно само по себе. Глубинное RL — это то, что больше всего похоже на сильный ИИ, и это своего рода мечта, которая подпитывает миллиарды долларов финансирования.

К сожалению, в реальности эта штука пока не работает.

Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.
Читать дальше →
Всего голосов 59: ↑59 и ↓0+59
Комментарии34

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

Время на прочтение18 мин
Количество просмотров42K

Можете представить себе классификатор изображений, решающий практически любую задачу, и который вообще не нужно обучать? Это новая нейросеть CLIP от OpenAI. Разбор CLIP из рубрики: Разбираем и Собираем Нейронные Сети на примере Звездных Войн!

Нет данных, нет разметки, но нужен классификатор изображений для конкретной задачи? Нет времени возиться с обучением нейронной сети, но нужно получить классификацию высокой точности? Все это стало возможным. Вам нужно обучение без обучения!

Готов и туториал: Собираем нейросети. Классификатор животных из мультфильмов.
Без данных и за 5 минут. CLIP: Обучение без Обучения + код

Подробно и доступно разбираем что такое "обучение без обучения" и саму нейросеть CLIP от OpenAI. Стираем границы между Текстом и Изображением. Внимание: статья подходит под любой уровень: от нулевого до профи. Приятного прочтения!

Поехали!
Всего голосов 28: ↑28 и ↓0+28
Комментарии24

Собираем нейросети. Классификатор животных из мультфильмов. Без данных и за 5 минут. CLIP: Обучение без Обучения + код

Время на прочтение9 мин
Количество просмотров14K

Туториал: Собираем нейронную сеть на примере классификации нарисованных животных в режиме "обучения без обучения".

Цель: Научиться быстро создавать классификаторы для множества задач, без данных и без разметки, используя нейросеть CLIP от OpenAI.

Уровень: Туториал подходит под любой уровень: от нулевого до профи.

Совсем недавно я писал статью про нейронную сеть CLIP от OpenAI — классификатор изображений, решающий практически любую задачу, и который вообще не нужно обучать! Теперь давайте посмотрим, как CLIP работает на практике. Собираем CLIP из рубрики: Разбираем и Собираем Нейронные Сети на примере мультфильмов. На написание кода, и создание готового обученного классификатора у меня, и у любого, даже не знакомого с Python, уйдет именно пять минут. Интересно как? На самом деле все очень просто.

Туториал + Рабочий код: Читай и запускай! Приятного прочтения!

Поехали!
Всего голосов 16: ↑13 и ↓3+10
Комментарии18

Играем с CLIP. Создаем универсальный zero-shot классификатор на Android

Время на прочтение9 мин
Количество просмотров6.9K

TLDR: приложение можно скачать и потестить тут

Эта статья является дополненной и сильно расширенной версией моей статьи в TowardsDataScience о создании приложения, использующем новейшую мультимодальную нейросеть от OpenAI

В чем проблема классификаторов?

Многие заметили, что в последние годы все чаще для обработки изображений используется нейросетевой подход.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии7

Как быть, если ваша нейросеть включает в генерируемые тексты реальные телефонные номера людей?

Время на прочтение8 мин
Количество просмотров4.1K

Как обуздать GPT-3


Компания OpenAI готовится к открытию коммерческого API к GPT-3, своей самой новой и крупной нейросети для генерации текста. В рамках подготовки компания создаёт систему фильтрации контента, чтобы не давать ей публиковать личную информацию людей.

Инженеры разрабатывают эту систему, к примеру, для того, чтобы она не выдавала личные телефоны людей. Работа идёт уже более года, и в лаборатории машинного обучения из Сан-Франциско предполагают, что выпустят API уже в этом году.

Зачем нужен такой фильтр?


В декабре 2020 года специалисты по информатике из различных учебных заведений и компаний – например, Стэнфорда, Калифорнийского университета в Беркли, OpenAI и Google – в совместной работе показали, что GPT-2, предшественницу GPT-3, можно спровоцировать на включение в генерируемый ею текст персональной информации людей. Такая информация может включать имена людей, их адреса, телефонные номера и номера социальной страховки.

Более того, команда обнаружила, что не менее чем в 0,1% всех текстов, которые генерировала GPT-2 – и это по консервативным оценкам – цитируются длинные отрезки текста из документов, входящих в обучающий набор данных. Иначе говоря, в миллионах страниц публично доступного текста, собранных с интернета для обучения нейросети, содержится утекшая или ошибочно опубликованная личная информация, или же защищённый авторский правом контент. И все эти данные попадают в выдаваемый GPT-2 текст.
Всего голосов 17: ↑14 и ↓3+11
Комментарии9

Сможет ли Codex от OpenAI заменить программистов?

Время на прочтение7 мин
Количество просмотров12K

В августе 2021 г. компания Илона Маска по разработке искусственного интеллекта OpenAI выпустила Codex — новую систему на GPT-3, которая автоматически преобразует в код простые английские фразы. «Заменит ли она программистов?» — отвечает ранний бета-тестер.

Читать далее
Всего голосов 16: ↑10 и ↓6+4
Комментарии11

Artificial General Intelligence — поиски Святого Грааля искусственного интеллекта

Время на прочтение16 мин
Количество просмотров24K

Искусственный интеллект, способный справляться с любыми задачами не хуже человека - чем не мечта. Тема сильного искусственного интеллекта (AGI) скорей всего интересовала почти каждого, однако понять, что в ней происходит на практике оказывается весьма затруднительно. Этой статьёй я пытался для себя разобраться, как же можно описать AGI, какие направления существуют и насколько мы близки к достижению желаемого.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии16

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Время на прочтение17 мин
Количество просмотров30K

Не так давно Сбер, а затем и Яндекс объявили о создании сверхбольших русских языковых моделей, похожих на GPT-3. Они не только генерируют правдоподобный текст (статьи, песни, блоги и т. п.), но и решают много разнообразных задач, причем эти задачи зачастую можно ставить на русском языке без программирования и дополнительного обучения — нечто очень близкое к «универсальному» искусственному интеллекту. Но, как пишут авторы Сбера у себя в блоге, «подобные эксперименты доступны только компаниям, обладающим значительными вычислительными ресурсами». Обучение моделей с миллиардами параметров обходится в несколько десятков, а то сотен миллионов рублей. Получается, что индивидуальные разработчики и маленькие компании теперь исключены из процесса и могут теперь только использовать обученные кем-то модели. В статье я попробую оспорить этот тезис, рассказав о результатах попытки обучить модель с 30 миллиардами параметров на двух картах RTX 2080Ti.

Читать далее
Всего голосов 42: ↑41 и ↓1+40
Комментарии41

Искусственный интеллект в программировании: чего ждать, чего бояться

Время на прочтение5 мин
Количество просмотров15K

Недавно прогремел GitHub со своим новым продуктом Copilot. Из ближайшего прошлого помнятся слова Kite и Codota (ныне Tabnine). Всё это щупальцы искусственного интеллекта, призванные изменить отрасль разработки программного обеспечения. В целом, шум затих, пена сошла, можно смотреть в более прозрачное будущее. В этой статье я опишу свои впечатления и переживания по поводу всего этого AI-я.

Читать далее
Всего голосов 16: ↑15 и ↓1+14
Комментарии30

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Уровень сложностиСредний
Время на прочтение41 мин
Количество просмотров91K

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →
Всего голосов 289: ↑285 и ↓4+281
Комментарии120

Топ-10 ключевых анонсов от Microsoft в 2016 году

Время на прочтение5 мин
Количество просмотров14K
Традиционно провожаем уходящий 2016 год подборкой ключевых анонсов от корпорации Microsoft. Под катом мы собрали десять самых ярких и запоминающихся новостей.


Читать дальше →
Всего голосов 31: ↑28 и ↓3+25
Комментарии15

Спонсоры провалившегося проекта Voxel Quest не хотят возврата своих денег

Время на прочтение4 мин
Количество просмотров34K

Инвесторы Voxel Quest так и не дождались игры, но всё равно остались довольны




История с разработкой open-source игры Voxel Quest на «Кикстартере» очень удивительная. Она удивительна не тем, что разработчик взялся за непосильную задачу в одиночку и в итоге не справился с ней. Такое бывает сплошь и рядом. Вчера опубликовано финальное сообщение в блоге проекта, где заявлено об окончании разработки. Удивительно другое: сейчас бэкеры — инвесторы проекта, которые финансировали создание Voxel Quest — не хотят забирать свои деньги обратно!

Это история о том, как правильный подход к делу, открытость и общение с людьми, честность и преданность делу приносит удовольствие всем участникам процесса, независимо от результата. По-настоящему, это топик добра.
Читать дальше →
Всего голосов 46: ↑44 и ↓2+42
Комментарии37

OpenAI делает успехи в Dota 2: полупрофессиональные команды побеждены

Время на прочтение3 мин
Количество просмотров12K

Сражение в самом разгаре

Комплексные компьютерные программы захватывают все новые форпосты человечества, если таковыми можно считать сферы, где человек традиционно превосходит машину. Ранее это были шахматы, потом — го, после этого — многие другие компьютерные игры, включая совсем старые.

Сейчас компьютер все еще не может победить профессиональных киберспортсменов — игроков в мультиплеерные игры особого жанра — multiplayer online battle arena (MOBA). Одной из них является Dota 2, и здесь пока еще чувствуется превосходство человека над машиной (при условии, что оба поставлены в равные условия). Но компьютер уже наступает на пятки человеку — полупрофессиональные игроки уже начинают уступать искусственному интеллекту (слабой его форме, конечно).
Всего голосов 16: ↑15 и ↓1+14
Комментарии53

OpenAI преодолела значительные ограничения в ИИ для игры в Dota 2

Время на прочтение2 мин
Количество просмотров30K
ИИ для игры в Dota 2 от компании OpenAI нашумел в прошлом году, когда обыграл топовых мировых игроков. Но только в матчах 1v1 и с кучей ограничений, отчего не все воспринимали успех всерьез.

После этого компания поставила амбициозную цель — создать ИИ для командной игры и сыграть на турнире The International в конце августа 2018 на профессиональном уровне. Пока они укладываются в график.
Читать дальше →
Всего голосов 38: ↑38 и ↓0+38
Комментарии100

OpenAI Five разгромил команду людей в показательном матче Dota 2

Время на прочтение2 мин
Количество просмотров29K
Вчера в Сан-Франциско прошел показательный матч между искусственным интеллектом OpenAI Five и полупрофессиональной командой игроков в Dota 2. Среди людей были бывшие профессионалы, комментаторы и один действующий профи. В любом случае, это самая сильная команда, с которой ИИ играл с момента своего запуска в июне.


Всего голосов 36: ↑34 и ↓2+32
Комментарии107

Подробный разбор матча по Dota 2 между OpenAI и людьми в формате 5x5. Люди проиграли

Время на прочтение5 мин
Количество просмотров73K


Вчера, 5 августа, в Сан-Франциско состоялся шоу-матч между людьми и ботами OpenAI в дисциплине Dota 2. Еще в 2017 году в рамках шоу-матчей The International 2017 люди сражались с OpenAI в формате «1х1 mirror mid» и с целым рядом ограничений в пользу ботов (запрет на использование ряда предметов и механик), что закончилось поражением профессиональных игроков-мидеров.

Так как Dota 2 — дисциплина крайне разносторонняя и сложная для освоения, встреча между людьми и ИИ вновь проводилась с целым рядом ограничений, которые, однако, не слишком радикально влияли на игровой процесс:

  • пул из 18 героев в режиме Random Draft (Axe, Crystal Maiden, Death Prophet, Earthshaker, Gyrocopter, Lich, Lion, Necrophos, Queen of Pain, Razor, Riki, Shadow Fiend, Slark, Sniper, Sven, Tidehunter, Viper, или Witch Doctor);
  • без Divine Rapier, Bottle;
  • без подконтрольных существ и иллюзий;
  • матч с пятью курьерами (ими нельзя скаутить и танковать);
  • без использования скана.

Самое серьезное ограничение: крайне малый пул героев для обеих сторон. Сейчас в Dota 2 существует 115 персонажей с различными способностями и механиками их применения. OpenAI пока может совладать лишь с 18 из них. Встреча была максимально приближена к «реальным» условиям и проводилась в формате 5х5. Против ИИ играли обычные люди, в прошлом когда-то причастные к киберспорту, но сейчас не являющиеся киберспортсменами. Единственная поблажка для людей заключалась в том, что реакция ботов была ограничена 200 мс, чтобы избежать ситуаций с мгновенным «прожатием» кнопок. Итог: команда ИИ выиграла у людей со счетом 2-0 по картам. Выиграть у OpenAI удалось только после того, как героев для ИИ выбрал зрительный зал (Slark, Sven, Axe, Riki и Queen of Pain), по оценкам OpenAI шанс на победу с таким драфтом составлял всего 2,9%. Кроме этого, до начала главного матча, с ботами могли сыграть рядовые гости мероприятия, и в этих встречах доминирование ИИ было еще более наглядно, что впечатляет.
Всего голосов 72: ↑68 и ↓4+64
Комментарии441

Победит ли OpenAI Five профессиональную команду на The International

Время на прочтение4 мин
Количество просмотров12K


Прогресс искусственного интеллекта от OpenAI в освоении Dota 2 — лучшая иллюстрация мема «вот … тогда и посмотрим». Сейчас мы находимся в месте, где ИИ уже обыграл топовых игроков один на один, научился играть командой с обычными игроками, преодолел значительные ограничения, обыграл полупрофессиональную команду.

Следующий шаг — «вот обыграет лучшую команду в мире, тогда и посмотрим». Получится ли? Кто как считает.
Всего голосов 27: ↑26 и ↓1+25
Комментарии111
1
23 ...