Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

SeregaChipset 26 дек 2023 в 19:00

Монтаж уличной ip-камеры и вывод изображения по RTSP (python, raspberry pi)

Средний

6 мин

22K

Python*Обработка изображений*Параллельное программирование*Умный домИнженерные системы*

Из песочницы

Камеры видеонаблюдения стали для многих стран обыденностью, например в Китае, они могут свисать гроздьями, через каждые 5 метров, по улице. Но в провинции России это все еще может быть в новинку. Я отношусь к видеонаблюдению по большей мере положительно. Ведь вид камеры, даже превентивно может предотваратить хулиганство (однажды я использовал муляжи камер в офисе:)), а главное это возможность контроллировать обьект наблюдения.

Этот пост про монтаж уличной камеры, на стену многоквартирного дома и программную реализацию - вывод изображения, без использования стандартной программы, оптимизацию (размещение на raspberry pi).

+17

Pro2492 26 дек 2023 в 15:14

Что нового в Midjourney 6? 5 видимых отличий от 5.2

Простой

3 мин

12K

Обработка изображений*

Обзор

Recovery Mode

Теперь изображения сложно отличить от реальных фото - морщины, складки, красные глаза, текстура кожи — генерации выглядят почти идеально.

+13

litwr2 26 дек 2023 в 10:16

Цветные фотки на первых ПК

Средний

14 мин

4.8K

Обработка изображений*История ITСтарое железоВидеокартыНастольные компьютеры

Обзор

Когда впервые на ПК стали работать с фотографиями? Какие из этих систем вошли в историю, а какие остались практически неизвестными? Следующий обзор - это попытка ответа на эти и сопутствующие вопросы с техническими деталями. Конечно, это про Амигу, но не только.

SmartEngines 26 дек 2023 в 10:15

Томографический калейдоскоп, или подведение итогов уходящего 2023 года вместе с STE

Простой

9 мин

1.1K

Блог компании Smart EnginesАлгоритмы*Обработка изображений*Математика*Софт

Привет, Хабр. На пороге Новый год. Как всегда в конце года хочется понять, а чем же был для нас, компании Smart Engines, год уходящий? Продуктивным - да, и бизнес-результаты, и научные достижения, и технологии - как игрушки на елке - радуют. А где же игрушки - спросите вы и будете правы. Ведь один их сверкающий вид открывает двери празднику. А ниже они обязательно будут. Сегодня мы поделимся с вами нашим взглядом на 12 месяцев, а поможет в этом наш STE. Тот самый продукт для томографической реконструкции, над которым мы не устаем трудиться, дополняя, стабилизируя и запуская, как проходческий щит, в неосвоенные туннели условий томографической съемки.

Результат наших трудов покажем на томографии 12 объектов, каждый из которых символизирует один из 12 месяцев года. Да-да, интересная задача перед нами стояла в декабре - собрать 12 объектов, сфотографировать, сделать томографию и соорудить календарь из них. Кстати, и ты, дорогой читатель, можешь стать обладателем календаря от Smart Engines, но обо всем по порядку!

PatientZero 21 дек 2023 в 10:48

Зернистые градиенты на CSS и SVG

Простой

5 мин

5.9K

CSS*Обработка изображений*Графический дизайн*

Туториал

Перевод

Изучая графику на Dribbble или Behance, вы найдёте там дизайнеров, использующих простую технику добавления в изображения текстур: шум. Добавление шума делает сплошные цвета или плавные градиенты, например, тени, более реалистичными. Но несмотря на любовь дизайнеров к текстурам, шум редко применяется в веб-дизайне.

В этой статье мы при помощи CSS и SVG сгенерируем цветной шум, позволяющий добавлять текстуру к градиенту.

+21

kucev 19 дек 2023 в 12:18

Заблуждения о семантической сегментации

4 мин

1.3K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.

Читать дальше →

NewTechAudit 14 дек 2023 в 07:07

Я знаю, что ты делал этой ночью

Средний

11 мин

16K

Python*Обработка изображений*Машинное обучение*

Кейс

✏️ Технотекст 2023

Привет, Хабр!

Сегодня с вами участники профессионального сообщества NTA Промкин Михаил, Мымрин Дмитрий и Господарикова Ирина.

Одной из областей применения ИИ сегодня является автоматизация контроля за сотрудниками. В данном посте мы рассмотрим приложение технологий ML к задаче детектирования спящих людей (в частности, охранников на рабочем месте) по видеозаписям камер наблюдения.

Обсудим технические аспекты этого процесса, а также потенциальные преимущества и перспективы, которые предоставляет применение искусственного интеллекта в обеспечении безопасности на рабочем месте.

Узнать больше

ferluht 10 дек 2023 в 13:48

Как обучить нейросеть рисовать в стиле любого художника

Средний

4 мин

16K

Обработка изображений*Искусственный интеллектБудущее здесь

Туториал

Прошло 3 года с момента когда я обучал StyleGAN на панельках и мне стало интересно что там сейчас с генерацией картинок. А там - ого - можно дообучить целый stable diffusion на любом стиле любого художника! Как? А вот щас расскажу

+26

SmartEngines 8 дек 2023 в 11:46

Российской OCR – 30 лет. Вспоминаем, как появилась первая отечественная технология распознавания (Часть 1. OCR Tiger)

Простой

11 мин

3.3K

Блог компании Smart EnginesПрограммирование*Обработка изображений*История ITИскусственный интеллект

Ретроспектива

В 2023 году первой российской коммерческой технологии распознавания текста исполнилось ровно 30 лет. В честь этой знаковой даты мы решили подготовить серию материалов о том, когда появились и что из себя представляли первые отечественные OCR. Кто был главными участниками в гонке по созданию систем распознаванию? Как так вышло, что в середине 90-х OCR была признана второй по значимости софтовой разработкой после ОС? Как выглядела первая OCR-ка для Mac? Ответим на эти и многие другие вопросы, присаживайтесь поудобнее.

Во время подготовки текстов мы побеседовали с директором по науке и душой нашей компании, доктором технических наук, профессором, членом-корреспондентом РАН Владимиром Львовичем Арлазаровым. Он – как, кстати, и еще несколько членов нашей команды Smart Engines – принимал непосредственное участие в создании первых систем автоматического ввода текста.

Сегодня речь пойдет про OCR Tiger и про то, как эта система работает.

+14

atomnijpchelovek 5 дек 2023 в 15:55

Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата

Простой

7 мин

2.9K

Python*Обработка изображений*

Кейс

Привет, я Дима Абакумов, разработчик в диджитал-агентстве ДАЛЕЕ. Расскажу, как я написал бота на Python, который находит дубли мемов в нашем мем-чате, и какие методы сравнения изображений для этого использовал.

zoldaten 5 дек 2023 в 12:34

Перевод игры The Invincible на другой язык

6 мин

2.5K

Работа с видео*Обработка изображений*Игры и игровые консолиNatural Language Processing*

Туториал

Относительно недавно вышедшая игра «The Invincible» не имеет альтернативной озвучки — только чопорный английский. Возможно ли силами одного человека за относительно короткий срок (1-2 дня) перевести игру (сделать «озвучку»), например, на «великий, могучий, правдивый и свободный» язык? Попробуем.

Читать дальше →

hukenovs 1 дек 2023 в 10:48

GigaChat и русский жестовый язык

Средний

4 мин

2.4K

Блог компании SberDevicesОбработка изображений*Accessibility*Машинное обучение*Искусственный интеллект

Всем привет! Меня зовут Капитанов Александр, я отвечаю за направление компьютерного зрения в SberDevices. В этой статье я расскажу о том, как моя команда Vision RnD разработала серию моделей SignFlow, обеспечивающих перевод с жестового языка на русский и американский английский в реальном времени с высокой метрикой качества. На основе этих моделей мы реализовали прототип общения с генеративной языковой моделью GigaChat, что является первым в мире открытым решением задачи общения с искусственным интеллектом при помощи русского жестового языка (РЖЯ). Далее я расскажу о разработке модели, тонкостях обучения, демо-стенде и интеграции с GigaChat.

+18

klimensky 22 ноя 2023 в 14:44

Как настольная игра и небоскребы вдохновили на разработку QR-кода

13 мин

5.5K

Блог компании FirstVDSОбработка изображений*Сжатие данных*История ITНаучно-популярное

Ретроспектива

Про QR код на том же Хабре есть огромное количество информации. Ничего удивительного: сейчас сложно найти отрасль, где бы он не применялся. Тут и банковские операции, и идентификация товаров, и цифровые визитки. Преимущества очевидны: считывается мгновенно любым смартфоном, причем даже если треть QR кода повреждена, а еще хранит до 2935 байт двоичного кода.

Но сегодня поговорим не про технические нюансы. Вы знали, что его придумали благодаря любви к играм и небоскребам? Если не знали, устраивайтесь поудобнее — поговорим об истории появления QR кода.

+19

kuznetsoff87 22 ноя 2023 в 12:00

Kandinsky Video — первая российская модель генерации видео по тексту

Сложный

8 мин

12K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.

Жозеф Плато, август 1833 года

В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).

+36

ddimitrov 22 ноя 2023 в 11:54

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

43K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.

Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.

В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

+58

Weilard 20 ноя 2023 в 15:19

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Средний

48 мин

8.9K

Разработка игр*Обработка изображений*Компьютерная анимация*

Туториал

«Галоп пикселя», часть I — базовые понятия, этапы взросления, прикладные упражнения (линк)
«Галоп пикселя», часть II — перспектива, цвет, анатомия и прикладные упражнения (линк)
«Галоп пикселя», часть III — Анимация (линк)
«Галоп пикселя», часть IV — Анимация света и тени (линк)
«Галоп пикселя», часть V — Анимация персонажей. Ходьба (линк)
«Галоп пикселя», часть VI — Анимация персонажей. Бег (линк)

Доброго времени суток, Хабр. Мы продолжаем цикл «Галоп Пикселя». И хотя паузы между главами этой саги достигли практически четырехлетнего перерыва — я рад (надеюсь и вы тоже) продолжить двигаться вперёд. Миля за милей, дорога за дорогой, в этой вечной былине о пиксель-арте. Пространном повествовании о пикселях, их жизни, способе их создания, приёмах и уловках в работе с ними.

На этот раз речь пойдёт о создании анимации бега, от истоков малых кадрами и цветами — к ренессансу больших разрешений и буйству цветов. В статье будут разобраны примеры самых разных типов анимаций, будет определена разница между шагом и бегом. Мы затронем как создание игровых ассетов, так и сущности близкие к анимационным заставкам, в простонародье известные как синематики.

Сегодняшняя публикация станет ещё одной вехой, которая могла бы стать финальным аккордом в нашей истории. Но мне думается, что это… скорее окончание базового цикла, но не истории в целом, которую можно продолжать ещё долго. Существует масса неисследованных территорий, нехоженых дорог и мест, куда ещё не ступала нога пытливых археологов от мира любителей пиксель-арта. Лопаты в руки, друзья. Лопаты в руки.

Лопатить пиксели

+92

antipov_dmitry 20 ноя 2023 в 11:40

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Средний

13 мин

2.3K

Data Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

FAQ

Привет! Я занимаюсь разметкой данных для ИИ: экспертно и с большой любовью. Задачи компьютерного зрения — одни из самых популярных и поэтому поговорим про них.

Прочитав статью вы узнаете как алгоритму отличить гейшу от китаянки, кто такая майко, как не перепутать лапшу с автобусом и правильно найти тунца.

Практически сразу после выхода zero-shot модели SAM (Segment Anything Model) для компьютерного зрения мы с командой активно ее внедрили в свою платформу разметки данных и стали использовали в разных задачах.

Хочется поделиться опытом и ответить на самый популярный вопрос — насколько SAM ускоряет разметку данных?

В статье будет очень много гифок и интерактива.

+10

SmartEngines 20 ноя 2023 в 11:00

Рассеяние вокруг нас: что это такое и какое место оно занимает в компьютерной томографии?

Простой

14 мин

1.5K

Блог компании Smart EnginesОбработка изображений*Математика*Физика

Обзор

Мы в компании Smart Engines разрабатываем томографическое программное обеспечение и стараемся делать это как можно качественнее, без появления на изображении реконструкции визуальных искажений, так называемых артефактов. Одной из причин возникновения артефактов является несоответствие модели формирования изображения в измерениях и модели описания данных для алгоритмов томографической реконструкции.

В классической постановке КТ описанием внутренней структуры образца служит пространственное распределение коэффициента ослабления рентгеновского излучения, причем зондирующее излучение считается монохроматическим. Однако в реальных установках это не так, существенное влияние на изменение модели формирования изображений оказывают эффекты второго порядка. Одним из которых является рассеянное излучение. Что такое рассеяние, каким оно бывает и как выглядят артефакты рассеяния в томографии, - расскажем в сегодняшней нашей статье.

Ilya12c 16 ноя 2023 в 13:04

Из фото в 3D, ч.2: калибровка камеры

Сложный

13 мин

6.5K

Блог компании Magnus TechАлгоритмы*Обработка изображений*Математика*Фототехника

Туториал

Фото до (слева) и после (справа) калибровки камеры

В первой части статьи мы немного поупражнялись на яблоках, чтобы понять, как 3D-объекты проецируются на 2D-плоскость фотографии. Заодно мы описали математическую модель камеры и ее параметры.

Знаешь параметры — ~~живешь в Сочи~~ можешь восстановить 3D-сцену или ее характеристики: высоту здания, расстояние до пешехода, загруженность самосвала. Словом, сплошная польза для целого ряда отраслей.

А вот как именно определить эти заветные параметры, так и осталось за кадром. К тому же мы рассматривали простейшую модель pinhole, но в реальной жизни все сложнее. У большинства камер есть линзы, которые искажают изображения (вспомните эффект fisheye). Все эти «рыбьи глаза»‎ и другие отклонения нужно как-то корректировать.

О том, как восстанавливать параметры камеры (калибровать ее) и нивелировать искажения (дисторсию), читайте в этой публикации.

Также из нее вы узнаете:

• как выглядит математическая модель калибровки и дисторсии;

• как собрать датасет для калибровки;

• какие есть методы калибровки;

• детали одного из этих методов.

+14

Ilya_Ryabov 16 ноя 2023 в 10:43

Создание видео zoom in и zoom out с помощью inpainting в Kandinsky

Средний

5 мин

2.6K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Из песочницы

Развитие text2image-моделей открывает новые интересные возможности для создания креативного контента. Функция inpainting в Kandinsky позволяет создавать видео zoom in и zoom out с иллюзией приближения или отдаления от единого изображения. Таким образом Sber AI с коллегами из SberDevices продолжают развивать генеративные модели и расширяют творческие возможности умных устройств семейства "Салют".

+10

1 2 3

5 6 ...

107 108

Обработка изображений *

Монтаж уличной ip-камеры и вывод изображения по RTSP (python, raspberry pi)

Что нового в Midjourney 6? 5 видимых отличий от 5.2

Цветные фотки на первых ПК

Томографический калейдоскоп, или подведение итогов уходящего 2023 года вместе с STE

Истории

Зернистые градиенты на CSS и SVG

Заблуждения о семантической сегментации

Я знаю, что ты делал этой ночью

Как обучить нейросеть рисовать в стиле любого художника

Российской OCR – 30 лет. Вспоминаем, как появилась первая отечественная технология распознавания (Часть 1. OCR Tiger)

Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата

Перевод игры The Invincible на другой язык

GigaChat и русский жестовый язык

Как настольная игра и небоскребы вдохновили на разработку QR-кода

Ближайшие события

Kandinsky Video — первая российская модель генерации видео по тексту

Kandinsky 3.0 — новая модель генерации изображений по тексту

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Рассеяние вокруг нас: что это такое и какое место оно занимает в компьютерной томографии?

Из фото в 3D, ч.2: калибровка камеры

Создание видео zoom in и zoom out с помощью inpainting в Kandinsky

Вклад авторов