Статьи / Закладки / Профиль mschaubert / Хабр

@mschaubert^{read⁠-⁠only}

Пользователь

Профиль Закладки 120

imf1ne 3 дек 2023 в 18:00

Подключаем умный поиск (GPT) к своей базе документов

Простой

7 мин

19K

Машинное обучение*Искусственный интеллект

Кейс

✏️ Технотекст 2023

Есть отечественный файрвол (NGFW) и есть документация для пользователей powered by GitBook. В этой документации работает простой поиск — только по словам и словосочетаниям. И это плохо, потому что нет ответов на вопросы: "Какие алгоритмы шифрования ipsec поддерживаются у вас?", "Как заблокировать ютуб?", "Как настроить DMZ?".

Хочется, чтобы поиск был “умным” и чтобы пользователи могли обращаться с подобными вопросами именно к поиску, а не к инженерам тех. поддержки. AI или ML внутри — не важно, как это называть. Но на простые вопросы из списка выше поиск должен отвечать.

Я решил эту задачу (Retrieval Question Answering), используя OpenAI API. Казалось бы, уже опубликованы сотни похожих инструкций, как это сделать. Но под катом будет не инструкция, а рассказ про сложности, которые пришлось решить на пути от идеи до запуска поиска.

+19

ru_vds 4 дек 2023 в 16:00

Мой опыт собеседования в Google [оффер на L5]

Простой

8 мин

55K

Программирование*Блог компании RUVDS.comКарьера в IT-индустрии

Кейс

Перевод

Предупреждение: я не смогу привести в статье конкретные вопросы из-за подписанного соглашения о неразглашении (NDA).

Работая в лондонском офисе Facebook в команде Instagram*, я начал задумываться о возвращении в Индию. В ноябре 2022 года со мной связался рекрутер Google. Он сообщил об открытии в Бангалоре должности уровня L5 и спросил, интересно ли мне это.

Так как я уже раздумывал о переезде в Индию, то ранее собеседовался в Google, но мне предложили более низкую должность (L4), чем я хотел; потом я устроился в META* на уровень E5.

Я ответил рекрутеру, что хочу запланировать собеседование на март 2023 года, потому что готовился стать отцом и хотел в этот важный период выделить время для своей семьи.

Рекрутер согласился на мою просьбу и предоставил материалы для подготовки к собеседованию. Он сообщил, что свяжется со мной в марте. До этого момента он регулярно писал мне, чтобы узнать, как проходит моя подготовка.

На этот раз в процессе подготовки возникла уникальная для меня сложность — счастливое пополнение в моей семье, дочка. За моё внимание боролись подгузники и кодинг, было очень сложно выделить время на сосредоточенную подготовку! У меня было примерно 25-30 дней на освоение и искусства ухода за ребёнком, и прохождения собеседования.

Читать дальше →

+82

Shannon 28 ноя 2023 в 12:14

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

8 мин

81K

Машинное обучение*Искусственный интеллект

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

+103

stalkermustang 6 мар 2023 в 08:26

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Простой

30 мин

374K

Машинное обучение*Блог компании Open Data ScienceИскусственный интеллектБудущее здесьNatural Language Processing*

Обзор

✏️ Технотекст 2023

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Погнали →

+343

283

stalkermustang 26 янв 2023 в 11:55

ChatGPT как инструмент для поиска: решаем основную проблему

40 мин

111K

Python*Машинное обучение*Блог компании Open Data ScienceNatural Language Processing*

Обзор

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →

+96

randall 9 дек 2022 в 13:10

Лонгрид по полезному чтению в 2023 году: 39 книг, которые помогут писать красивый <код>

17 мин

29K

Программирование*Блог компании CloudMTSПрофессиональная литература*Машинное обучение*Читальный зал

≀И эта статья ответит на вопрос, зачем вообще читать книги в 2023 году при великом разнообразии онлайн-курсов.

39 книг-мастридов для разработчиков, которые хотят освежить знания, быть в курсе новых технологий и прокачать свои навыки.

Каждое издание из подборки расширяет знания по целому ряду тем, связанных с разработкой.

Для вашего удобства добавил рейтинг, ссылки на переводы и картинки для тех, кто просто добавляет статью в закладки, не читая. Enjoy на новогодних праздниках или прямо сейчас.

Читать дальше →

+27

slivka_83 9 дек 2022 в 19:23

Введение в библиотеку Transformers и платформу Hugging Face

17 мин

51K

Python*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Технотекст 2022

Библиотека Transformers предоставляет доступ к огромному кол-ву современных предобученных моделей глубокого обучения. В основном основаных на архитектуре трансформеров. Модели решают весьма разнообразный спектр задач: NLP, CV, Audio, Multimodal, Reinforcement Learning, Time Series.

В этой статье пройдемся по основным ее возможностям и попробуем их на практике.

+23

exmk 12 окт 2022 в 14:46

Подпись на эллиптических кривых: всё, что нужно знать, чтобы подписать транзакцию в Bitcoin с полного нуля

18 мин

27K

Криптография*Программирование*Научно-популярноеКриптовалюты

Технотекст 2022

Это - полный разбор алгоритма подписи на эллиптических кривых (ECDSA), который является ключевым элементом большинства блокчейнов (типа Bitcoin, Ethereum, ...). С примерами кода и реализацией с полного нуля. Всё сведено к уровню школьной математики, а читать код не обязательно!)

Читать

+83

ternaus 21 сен 2022 в 01:48

Similar images: API

4 мин

4.4K

Python*Обработка изображений*Машинное обучение*Искусственный интеллект

Кортокая версия.

Я набил API, который позволяеи искать картинки похожие на искомую.

API бесплатный, на один запрос выдает до 50 похожих картинок.

В базе данных 18 миллионов изображений. Надеюсь, в ближайшее время, добавлю еще 50M.

API: LINK

Web Demo: LINK. Можно загрузить свою картинку или воспользоваться текстовым поиском. Можно кликать на картинки в результате поиска и смотреть что найдет по ней. Хороший вопрос за сколько шагов можно дойти от чего-то невинного до порнухи или хотя бы обнаженки.

+19

Laggg 11 авг 2022 в 14:00

Data Science Pet Projects. FAQ

13 мин

49K

Data Mining*Машинное обучение*Управление проектами*Блог компании Open Data ScienceИскусственный интеллект

Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science (ODS). Это третья статья на Хабре, до этого был разбор алгоритма SVM и анонс крутого NLP курса от ребят из DeepPavlov. В этой статье вы найдете идеи для новых петов и другие полезности. Итак, разберем частые вопросы и дадим определение пет-проекта:

Зачем делать пет-проекты?
Из каких этапов может состоять разработка пет-проекта?
Как выбрать тему и найти данные?
Где найти вычислительные ресурсы?
Как завернуть работающие алгоритмы в минимальный прод?
Как оформить презентабельный вид проекта?
Как и зачем искать коллабораторов?
Когда проходит ODS pet project хакатон?
Где посмотреть примеры пет-проектов и истории участников ODS?

Читать дальше →

+43

Picard 26 мая 2022 в 23:48

StyleGAN3 — изображения в разном стиле одним кликом

12 мин

17K

Python*Блог компании SkillfactoryМашинное обучение*Дизайн игр*

Туториал

Перевод

В конце 2018 года в nVidia выпустили первую StyleGAN — и сегодня любители технологий с воодушевлением смотрят в будущее безграничных развлекательных медиа, генерируемых ИИ. Это будущее на практике показывает автор, материалом которого делимся к старту флагманского курса по Data Science.

+17

alimbekovR 16 фев 2022 в 11:16

Как мы меняем Anti-spoofing модель с вендорских решений на собственные

5 мин

3.5K

Информационная безопасность*Машинное обучение*Научно-популярноеИскусственный интеллектБлог компании Beeline Казахстан

Привет! Меня зовут Ренат Алимбеков, я занимаюсь задачами, связанными с Computer Vision в Beeline Казахстан. Сейчас моя работа направлена на Anti-spoofing.

Моя основная задача сейчас — заменить вендорские решения в продуктах Beeline Казахстан на собственные. В этой статье расскажу про решение, которое будет использоваться в нашем цифровом мобильном операторе izi и необанке Simply.

В этих продуктах весь сервис предоставляется онлайн, и задача удаленной биометрии — позволить сделать все в одном приложении без визита в офис.

Еще одно применение решений — симкоматы. Мы поставили несколько симкоматов в офисах Beeline, и теперь перевыпуск сим-карты можно сделать самостоятельно, а мы можем быть уверены, что это не мошеннические действия.

Го отражать атаки

+10

Danyache 25 янв 2022 в 15:32

Как работает FaceSwap. Часть 2. Разработка от Sber AI

12 мин

7.6K

Блог компании СберОбработка изображений*Машинное обучение*Искусственный интеллект

Привет, Хабр!

В прошлой статье мы обсудили, что такое faceswap и довольно подробно разобрали существующие подходы. В этой статье мы хотим остановиться на том, как именно мы в Sber AI решаем эту задачу, а также погрузить вас в детали реализации нашего решения.

Любое обучение модели зависит от трех составляющих — данных, самой модели и процесса обучения. В статье мы бы хотели поговорить про все эти компоненты, а также про дополнительные задачи и их решения, которые позволили нашему итоговому алгоритму переноса лица выглядеть качественно как для изображений, так и для видео.

Читать дальше →

Kwent 17 ноя 2021 в 12:36

Окрашивание изображений

6 мин

5.9K

Обработка изображений*Машинное обучение*Блог компании NtechLab

Технотекст 2021

Статья про окрашивание изображений на основе работы Color2Embed: Fast Exemplar-Based Image Colorization using Color Embeddings. Рассмотрим, как переносить цвет с одной картинки на другую с помощью смеси из U-Net и StyleGAN v2.

+21

Kwent 13 июн 2013 в 20:58

Окрашивание изображений

2 мин

57K

Обработка изображений*

Из песочницы

Здравствуй, Хабрахабр. Сегодня мы будем раскрашивать.
Что здесь будет? Будет поиск цветного изображения со схожими цветами по черно-белому и метод переноса цвета с первого на второе.

Читать дальше →

+120

befuddle 16 ноя 2021 в 15:31

Обучение рукописной OCR на синте от GAN'ов

13 мин

6.4K

Блог компании СберОбработка изображений*Машинное обучение*Искусственный интеллект

Модели распознавания печатного текста (например, с фотографий документов) дают довольно высокие результаты. Это происходит за счёт ограниченного набора шрифтов, цель которых – быть максимально понятными человеку, а также благодаря генерации простой синтетики в виде печати разнообразными шрифтами текста на каком-нибудь фоне.

С распознаванием рукописных материалов дело немного сложнее. У каждого человека свой почерк, который ещё и может меняться с течением времени. Причём вариативность почерков довольно существенная, и часто мы с трудом читаем то, что написал, скажем, врач или ребёнок. Человек с течением жизни может сформировать свои привычки писать ту или иную букву определённым образом (конкретной высоты, наклона, формы и др.), причем эта буква будет такой только у одного человека. Подобную синтетику уже нельзя сымитировать, накладывая печатные шрифты на фон.

Тут же возникает трудность и с разметкой (которой особенно мало на русском языке). Например, при работе с рукописями Петра I пришлось задействовать историков. Конечно, это особый случай документов начала XVIII века, но даже в простых датасетах важно иметь дублирующую разметку нескольких человек для исправления ошибок, которые нередко совершают разметчики при чтении рукописного текста.

Мы в Sber AI заинтересовались идеей генерации синтетических рукописных изображений с помощью GAN, и в этой статье предлагаю рассмотреть несколько таких моделей. А также попробуем сгенерировать синтетику, используя одну из архитектур, и посмотрим, как сильно дополнительные данные улучшают качество OCR-модели (Optical Character Recognition).

+14

a_mongush 17 ноя 2021 в 14:45

Как самостоятельно выучиться на дата-саентиста — адаптированная подборка

Простой

6 мин

27K

Машинное обучение*

Туториал

Из песочницы

"Cтоит ли тратить деньги на тот или иной дорогой курс с codename «Стань DS за два месяца» или все же выучиться на дата-саентиста самостоятельно и бесплатно, и в таком случае, с чего начать?" такие вопросы я получаю от аудитории своего блога. Меня зовут Айра, я делаю проекты в DS&ML, продюсирую курсы по созданию ML-проектов и веду блог по теме.

Недавно собрала ответ на этот вопрос достаточно развернуто, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.

+11

Ferres 20 окт 2021 в 13:10

Препарирование нейронок, или TSNE и кластеризация на терабайтах данных

12 мин

7.4K

Python*Data Mining*Машинное обучение*Блог компании NtechLab

У вас продакшн нейронные сети, терабайты данных? Вам хочется понять, как работает нейронная сеть, но на таком объеме это сложно сделать? Сложно, но можно. Мы в NtechLab находимся именно в той ситуации, когда данных так много, что привычные инструменты интроспекции нейронных сетей становятся не информативны или вовсе не запускаются. У нас нет привычной разметки для обучения атрибутов. Но нам удалось вытащить из нейронной сети достаточно, чтобы классифицировать все имеющиеся данные на понятные человеку и учтенные нейронной сетью атрибуты. В этом посте мы расскажем, как это сделать.

ValentinDom 25 окт 2021 в 15:33

7 платформ для подготовки к техническому интервью на английском языке

4 мин

13K

Учебный процесс в ITУправление персоналом*Карьера в IT-индустрииБлог компании Geekfactor.io

Перевод

Требования к соискателям на должности разработчиков ПО быстро меняются. Если раньше достаточно было разбираться в структурах данных и основных алгоритмах, чтобы успешно пройти собеседование и получить работу, то сегодня компании ищут кандидатов с практическим опытом и навыками.

Именно поэтому многие интервьюеры и не задают вопросы о структуре данных и алгоритмах. Их интересует умение работать с разными технологиями и взаимодействовать с другими.

Чтобы подготовиться к поиску работы, соискателям будет полезно попрактиковаться в написании кода и в прохождении тренировочных собеседований. Сегодня доступно множество книг и ресурсов, например Cracking The Coding Interview и популярные сайты с заданиями по программированию.

Ниже я представляю список лучших, на мой взгляд, платформ по подготовке разработчиков к собеседованиям.

Смотреть список

ValentinDom 29 окт 2021 в 16:05

Как студент строительного факультета подготовился к устройству на работу в Амазон

13 мин

27K

Программирование*Учебный процесс в ITКарьера в IT-индустрииIT-компанииБлог компании Geekfactor.io

Перевод

Компания Geekfactor cовместно с Getmentor.dev проводит программу подготовки к трудоустройству в зарубежные стартапы (бесплатно помогаем подготовиться к интервью и показываем резюме классным компаниям) — почитать о ней подробней и зарегистрироваться можно тут. Первый бесплатный вебинар с экспертами программы пройдёт 2-го ноября. Предлагаем вашему вниманию статью о самостоятельном изучении программирования и подготовке к трудоустройству в Amazon.

Последние несколько месяцев многие друзья и начинающие специалисты просят рассказать о моем опыте подготовки и успешного прохождения собеседования на должность инженера-разработчика программного обеспечения в Amazon.

В этой статье я хочу предложить вам «дорожную карту», которая поможет подготовиться к работе в компании мечты. Постараюсь говорить кратко, по существу, не перегружая вас лишней информацией, и осветить все темы, независимо от наличия или отсутствия опыта. Даже если вы никогда не писали код, прочитав статью, вы сможете составить четкий план, который позволит получить работу в компании мечты.

Как устроиться в Амазон?

2 3 4 5 6