Pull to refresh
0
0

Пользователь

Send message

Лекции Технопарка: мастер-класс Алексея Рыбака «Про то, что я бы хотел, чтобы мне рассказали, пока я учился»

Reading time25 min
Views47K
Сегодня мы начинаем серию публикаций новых мастер-классов Технопарка. И первая из них — мастер-класс Алексея Рыбака на свободную тему, в котором он поделился со студентами соображениями о том, чем работа в реальной жизни отличается от учебы. Видео смотрите на нашем сайте, а адаптированную расшифровку — ниже.

Я работаю в компании Badoo достаточно долго, и на моих глазах этот проект из маленького стартапа превратился в большую компанию с сотнями инженеров и тысячным парком серверов, распределенных по нескольким дата-центрам. Сейчас я хотел бы рассказать о том, что считаю достаточно интересным для студентов, выбравших профессию программиста.

Не буду рассказывать о современных трендах и о том сегодня важно и нужно — об этом вам многие могут рассказать. Вместо этого поговорим о некой общечеловеческой адаптации бывших студентов к работе, которую каждый человек проходит в течение одного, а порой и нескольких лет. Процесс этот достаточно болезненный, и далеко не все «правильно» проходят эту адаптацию. Именно эта тема должна больше интересовать студентов и выпускников, чем какие-то модные технологические фишки. Хотя о них мы тоже поговорим, когда коснемся темы самообразования.


Читать дальше →
Total votes 66: ↑61 and ↓5+56
Comments15

MANET радиостанции: тенденции и перспективы

Reading time6 min
Views12K

В этой статье мы рассмотрим зачем нужны MANET радиостанции, их область применения и перспективы. Сразу оговорюсь, здесь пойдет речь о портативных (ручных) станциях, с относительно небольшой батареей.

Зачем это нужно и кому?

Прошло довольно много времени со дня первой публикации о MANET, мир шагнул в новую реальность, появились и приобрели массовый характер стриминговые видео сервисы, всевозможные сенсоры, дроны, автономные платформы генерирующие большие объемы данных и т.д. Я уже молчу о смартфонах и планшетах - всему этому чуду для нормальной работы нужны широкополосные каналы с низкой задержкой. Понятно, что если есть нормальное покрытие LTE или WiFi, то большинство базовых потребностей связи будет сразу закрыто. Но что если покрытия нет?

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments8

Дообучение ruGPT-3.5 13B с LoRA

Level of difficultyMedium
Reading time10 min
Views17K

Добрый день, уважаемые читатели и авторы Хабра!

Сегодня я рад представить вам подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

В данной публикации мы разберем каждый этап обучения модели, начиная от подготовки данных и заканчивая конвертацией в формат GGML. Буду рад, если мой опыт и знания помогут вам в вашем исследовании и экспериментах в этой захватывающей области!

Читать далее
Total votes 30: ↑30 and ↓0+30
Comments27

Stable Diffusion: text-to-person

Level of difficultyEasy
Reading time35 min
Views27K

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

Читать далее
Total votes 30: ↑30 and ↓0+30
Comments29

Разбираем TLS по байтам. Кто такой этот HTTPS?

Level of difficultyMedium
Reading time32 min
Views24K


Подключение к сайту бывает защищённым, а бывает нет — это надо знать всем детям. Только мало детей знают, что это значит и как работает.

Я, изучая веб-разработку, узнал об HTTP. Разобраться в нём несложно: в каждой статье о протоколе множество наглядных примеров запросов и ответов. Затем узнал о схеме HTTPS, с которой всё не так наглядно. В ней используется то ли SSL, то ли TLS, и что-то где-то шифруется, и зачем-то нужны какие-то сертификаты. Короче, всё расплывалось в тумане: где пример ответа, запроса, сертификата, как его создать, зачем он нужен и почему гайд по созданию http-сервера уже написал каждый школьник, а https-сервер — недоступная для начинающих разработчиков роскошь?

В связи с этим, предлагаю обсудить протокол TLS и его роль в вебе. Статья состоит из двух частей. В первой поговорим о защите соединения: от чего и как защищаемся, почему именно так, а не иначе, сколько и каких ключей для этого нужно, и разберёмся с системой сертификатов; а в конце создадим свой сертификат и посмотрим, как его использовать для разработки.

Во второй обсудим, как это дело реализуется в протоколе TLS и разберём формат TLS-пакетов по байтам. Статьи рассчитаны в первую очередь на изучающих веб-разработку, знакомых с HTTP и жаждущих осознать, кто такое https. Но материал актуален для любых применений TLS, будь то веб или не веб.
Читать дальше →
Total votes 52: ↑51 and ↓1+60
Comments21

LASSO и Ridge Регрессия. Что же значит та картинка

Reading time8 min
Views21K

Пыталась я вникнуть в устройство регрессии LASSO и Ridge… И сделала объективный вывод, что верхнеуровнево про них много где хорошо и подробно написано. Человеку непосвящённому легко найти понятные объяснения, просто погуглив. Но я-то человек посвящённый! Я хочу понять! Но вот беда — в русскоязычных блогах я нигде не смогла найти толкового прояснения некоторых метаматематических моментов работы лассо и ридж регрессии. Пришлось доходить до понимания самой с опорой на пару англоязычных источников, и я решила изложить некоторую математику, лежащую в основе лассо и ридж в этой статье.

Читать далее
Total votes 11: ↑11 and ↓0+11
Comments7

Python, корреляция и регрессия: часть 2

Reading time12 min
Views30K

Предыдущий пост см. здесь. Этот пост посвящен регрессии.

Хотя, возможно, и полезно знать, что две переменные коррелируют, мы не можем использовать лишь одну эту информацию для предсказания веса олимпийских пловцов при наличии данных об их росте или наоборот. При установлении корреляции мы измерили силу и знак связи, но не наклон, т.е. угловой коэффициент. Для генерирования предсказания необходимо знать ожидаемый темп изменения одной переменной при заданном единичном изменении в другой.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments0

Множественная кусочно-постоянная регрессия

Level of difficultyMedium
Reading time3 min
Views2.6K

Описан алгоритм построения кусочно-постоянной зависимости переменной y от взвешенной суммы x=w_1x_1+\ldots+w_px_p, минимизирующей сумму квадратов отклонений y от средних значений на диапазонах изменения величины x.

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments13

Большой список генеративных нейросетевых сервисов: 99 причин подружиться с ИИ

Reading time16 min
Views15K

После того как блестящий дебют ChatGPT сделал большие языковые модели (LLM) основным центром приложения инвестиций в ИТ, новые продукты на основе генеративного ИИ сыпятся на удивленных пользователей как из рога изобилия. Буквально каждую неделю лидеры ИТ-индустрии и небольшие «ламповые» стартапы презентуют нам новые умные сервисы, способные эффективно автоматизировать рутину и облегчить человеку раскрытие его творческого потенциала. 

Разобраться с самыми перспективными нейросетями поможет наша краткая «шпаргалка» с их перечислением и краткой сервисной информацией. В список вошли как непосредственно LLM, так и наиболее интересные нейросетевые генеративные решения на их основе.

Читать далее
Total votes 16: ↑16 and ↓0+16
Comments1

Реально Бесконечное (лето) RuGPT3.5: Генерация новеллы на ходу нейросетью

Level of difficultyMedium
Reading time24 min
Views23K

Я уж было подумал, что эпоха локальных трансформерных нейросетей ушла, оставив после себя невеликое наследие (можно пересчитать на пальцах), однако неделю назад RuGPT3.5 от сбера вышла в открытый доступ и обещала быть мощной моделью, о ней и пойдёт речь в этой статье.

Будет создан прототип text adventure, основанного на тексте Everlasting summer, проведена оценка потенциала RuGPT3.5 в разных аспектах подобной задачи и проведено дообучение модели для получения лучших результатов.

Перейти на другую временную линию
Total votes 27: ↑26 and ↓1+30
Comments23

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Level of difficultyMedium
Reading time6 min
Views4K

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Читать дальше →
Total votes 39: ↑39 and ↓0+39
Comments3

Мы создали большой диалоговый датасет

Level of difficultyEasy
Reading time8 min
Views6.3K

Те, кто когда-нибудь хотел обучить своего диалогового чат-бота, непременно сталкивались с отсутствием датасетов с адекватными диалогами. В открытом доступе, в основном, лишь наборы комментариев с Пикабу и Хабра, парсинг телеграм чатов, и диалоги из литературы. Мягко говоря, всё это "не очень". Поэтому, мы решили использовать ChatGPT для генерации подходящего датасета.

Читать далее
Total votes 5: ↑4 and ↓1+4
Comments6

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Reading time6 min
Views22K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее
Total votes 11: ↑11 and ↓0+11
Comments25

Пишем свой Chat GPT

Level of difficultyEasy
Reading time12 min
Views12K

По работе активно использую ChatGPT, часто бывает ситуации, когда модель позволяет найти решение, о котором даже не подозревал. В этом году он стал реальными помощником в поиске информации наравне с Google. Если в Google нужно вводить точный запрос и искать в выдаче подходящее решение, то Chat позволяет найти решение по описанию проблемы или проверить гипотезы. 

У меня давно было желание  поработать с непосредственно с самим API от Open AI и с другими LLM моделями. Решил написать свой чат с возможностью адаптировать под внутренние нужды команды в дальнейшем. Проект выложен в открытый доступ, скачать можно по ссылке. Сам проект находится в активной разработке, так что вы можете писать ваши замечания / пожелания в комментариях или отправить ваш pull request с исправлениями. Будем оперативно исправлять ошибки. 

На бэкенде был выбран Python, Django Rest Framework. На фронтенде React, Redux, Saga, Sass. Начнем с бэкенда, им занимался Егор. Далее про серверную часть проекта он пишет от себя.

Читать далее
Total votes 5: ↑4 and ↓1+5
Comments12

Кто же такая это ваша LoRA

Level of difficultyMedium
Reading time5 min
Views37K

В сети в последнее время регулярно мелькают статьи типа - как обучить Stable Diffusion генерировать ваши фотографии/фотографии в определенном стиле/фотографии определенного лора/такие фотографии итп.

Однако к сожалению, даже на хабре, об этой технологии рассказывают супер-поверхностно - как скачать какую-то GUI программу, и куда тыкать кнопочки. Поэтому я решил исправить это недоразумение, и выпустить первую статьи на русском, где полностью рассказывается что по настоящему стоит за этими 4-мя буквами.

Читать далее
Total votes 32: ↑30 and ↓2+35
Comments18

Камера, нейронки и дымящийся микро-ПК: дешевая и практичная альтернатива радару

Reading time9 min
Views4.4K

В этом посте мы расскажем, как дошли до идеи отказа от использования радара при фотовидеофиксации нарушений. А также о том, как: подружили камеры с сверточными нейросетями, научили эту дружную «компанию» отличать грузовики от легковушек, точно фиксировать скорость и направление движения, а заодно засекать проезды на красный свет.

Читать далее
Total votes 28: ↑27 and ↓1+28
Comments22

Каким образом спецслужбы отслеживают пользователей мессенджеров (без доступа к устройству и ключам)

Level of difficultyEasy
Reading time3 min
Views56K

Недавно в сети получила широкую огласку и негодование информация об отслеживании фактов взаимодействия между пользователями популярных мессенжджеров. Я решил привести алгоритм реализации данных действий, опираясь только на информацию, доступную при анализе трафика.

Читать далее
Total votes 53: ↑51 and ↓2+65
Comments177

Kandinsky 2.2 — новый шаг в направлении фотореализма

Level of difficultyMedium
Reading time7 min
Views51K

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

Читать далее
Total votes 60: ↑55 and ↓5+65
Comments168

Локализация игр при помощи ChatGPT — недорого и качественно. Гайд

Level of difficultyEasy
Reading time5 min
Views9.3K

Не каждый инди-разработчик может позволить себе перевод игры у профессиональной студии, но упускать аудиторию - нельзя. А машинный перевод игры хоть и делается недорого и быстро - также он почти всегда неточен, прямолинеен и просто некрасив.

Однако, при помощи ChatGPT мы можем сильно улучшить его качество, сделав перевод действительно похожим на работу человека!

В статье мы подключим ChatGPT к вашей таблице локализации, укажем контекст перевода, и немного поговорим о стоимости.

Читать далее
Total votes 12: ↑11 and ↓1+11
Comments6

Подвижный человек. Эл Кавадло

Level of difficultyEasy
Reading time6 min
Views11K

Эл Кавадло, известный персональный тренер с 20-летним стажем, выпустил новую книгу, в которой представил программу тренировок на развитие подвижности для повседневной жизни. Ориентировался он на мужчин старше сорока, но также уточняет, что программа подойдёт и всем остальным, кто хочет развить или вернуть былую подвижность.

Читать далее
Total votes 21: ↑14 and ↓7+11
Comments15

Information

Rating
Does not participate
Registered
Activity