Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

Odin_Himself 23 фев в 16:19

Работаю на стройке, чтобы писать статьи на Хабре

Простой

8 мин

HabrОбработка изображений*Читальный зал

Кейс

В этой статье я хотел бы совсем чуть-чуть порассуждать о том, с какими намерениями авторы приходят на Хабр, а также рассказать вам чем занимаюсь лично я, чтобы быть одним из авторов Хабра.

-1

adugin 21 фев в 13:22

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

8 мин

854

Блог компании МТСБлог компании MTS AIОбработка изображений*Искусственный интеллект

Привет, Хабр! На связи вновь Андрей Дугин, руководитель группы видеоаналитики компании MTS AI. Сегодня я закончу рассказ о том, как мы с помощью ИИ выбираем обложки для сериалов в KION. Первую часть можно прочитать здесь.

Firemoon 20 фев в 14:43

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

5 мин

7.3K

Блог компании SelectelОбработка изображений*Графический дизайн*Искусственный интеллект

Перед началом зимних каникул, 21 декабря 2023 года, Midjourney открыли «ранний доступ» к шестой версии. Спустя почти два месяца, 15 февраля 2024, она стала стала моделью по умолчанию, несмотря на сохранившийся статус альфа-тестирования.

Привет, Хабр! Меня зовут Вова Туров, я разработчик в Selectel. В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.

Читать дальше →

+55

ternaus 20 фев в 07:06

Albumentations: XYMasking

Простой

7 мин

882

Python*Обработка изображений*Машинное обучение*

Туториал

Короткая версия

После длинного вступления, будет туториал по применению аугментации XYMasking к спектрограммам от ЭЭГ. Кто экономит время - код с примерами можно найти по ссылке в документации библиотеки.

Длинная версия

Albumentations - это Open Source библиотека для аугментации изображений.

Аугментация - это умное слово, которое в переводе с русского на русский означает "преобразование".

Q: Зачем это надо?

A: Основное применение - тренировка нейронных сетей на картиночных данных, например ImageNet.

Чем больше разнообразных данных сеть видит при тренировке, тем выше шансы, что она выучит закономерности, а не просто запомнит их.

На практике, пока прошлый батч картинок обрабатывается сетью на GPU, CPU занимается подготовкой нового батча, причем к каждому изображению применяются различные аугментации. Это позволяет достигнуть большего разнообразия данных, которые видит сеть.

Благодаря такому подходу нейронная сеть никогда не видит один и тот же набор пикселей, что способствует более высокой точности и обобщающей способности.

tadzh_nahal 16 фев в 12:30

Boximator: ИИ-модуль от ByteDance Research как новая веха в области генерации видео

Средний

8 мин

1.3K

Блог компании BotHubРабота с видео*Обработка изображений*Машинное обучение*Искусственный интеллект

Обзор

Одной из главных целей в генерации видео с помощью искусственного интеллекта является создание полностью управляемого, а также достоверного движения объектов. С помощью изменения сцен и улучшения качества по заданным критериям на основе предпочтений пользователя генерация контента выходит на совершенно новый уровень. К нему сделала шаг команда ByteDance Research, представив Boximator (box + animator) – новый инструмент для работы с видео на основе ИИ. ByteDance – родитель небезызвестного Tik-Tok, а из этого следует, что в скором времени там следует ожидать больше искусственно генерируемого контента. По-настоящему танцующих девушек или реального липсинка, судя по всему, станет значительно меньше :)

В этой статье вы познакомитесь с новой разработкой, узнаете о её новаторстве, архитектуре и функциях, а также о её преимуществах перед конкурентами.

Приятного прочтения!

SmartEngines 15 фев в 10:58

Как правильно генерировать обучающие данные для OCR?

Простой

7 мин

1.6K

Блог компании Smart EnginesОбработка изображений*Математика*Машинное обучение*Искусственный интеллект

Мы в Smart Engines много пишем про распознавание документов. И, конечно, для распознавания документов нам требуется обучать нейросети, в частности, сети, распознающие текст на картинке. А им, как известно, нужно больше ~~золота~~ данных. И сегодня мы бы хотели поговорить о влиянии обучающих данных на итоговую сеть и о том, как такие данные синтезировать.

AndreyDmitriev 13 фев в 16:10

Об особенностях хранения 16 бит изображений в PNG формате

Простой

11 мин

4.3K

Обработка изображений*LabVIEW*

Кейс

Вашему вниманию предлагается небольшая заметка, посвящённая особенностям хранения одноканальных (серых) 16 бит изображений (как беззнаковых, так и знаковых) в PNG формате. В некоторых случаях интенсивности пикселей, получаемые из такого файла могут не соответствовать изначальным интенсивностям, под катом мы заглянем во внутренности PNG файла и разберёмся, почему так происходит.

+69

SmartEngines 13 фев в 11:32

Алгоритм реконструкции динамических томографических процессов

Средний

17 мин

459

Блог компании Smart EnginesОбработка изображений*Математика*Искусственный интеллект

Привет, Хабр! Мы уже рассказывали про наши успехи в рентгеновской томографии. В этом же посте мы хотим поделиться с вами деталями наших исследований в динамической или 4D томографии. Здесь, для исследования объекта, который менялся в процессе проведения измерений, нам пришлось разработать новый алгоритм томографической реконструкции и даже провести гидродинамическое моделирование.

Но давайте обо всём по порядку.

Codeup1054 9 фев в 12:51

«Машинное чтение» цифровых и не только индикаторов без ИИ и нейронок на Python

9 мин

4.7K

Python*Обработка изображений*Умный домDIY или Сделай самЭкология

Кейс

В этой статье рассмотрим простой алгоритм обработки и распознавания значений из массива фотографий с показаниями цифровых индикаторов.

Не будет машинного обучения, нейросетей, только стандартные библиотеки Python для работы с изображениями.

+15

Squirrelfm 9 фев в 08:15

Создание сцен с одинаковыми героями с помощью AI и при чем тут дипфейки Тейлор Свифт

Средний

9 мин

3.4K

Блог компании RaftОбработка изображений*Машинное обучение*Искусственный интеллект

Туториал

Вы, вероятно, слышали о Тейлор Свифт и очень креативном наборе изображений, созданных одним из её фанатов. Что могу сказать - это был лишь вопрос времени, когда кто-то это сделает. Как мы знаем - не бывает плохой рекламы, однако что если вас зовут не Тейлор Свифт, и никто не создает и не ищет ваши изображения в Google?

Хотя это действительно очень печально, по крайней мере вы можете создать свои собственные изображения. Правда если вы хотите использовать генеративные модели для создания последовательных историй с элементами сюжета, это не так просто, как вам могло показаться. Создать одного-двух персонажа с помощью Dall-e или Stable Diffusion довольно просто. Но что, если вы хотите создать целую историю с одними и теми же персонажами в разных обстановках и стилях? Исследователи генеративных моделей неустанно работают над тем, чтобы упростить для вас процесс создания собственного творческого искусства с вашим любимым актером, но пока что это не так просто.

Так что же мы можем сделать сейчас? Давайте посмотрим.

+18

Fil 8 фев в 16:28

Разбираем самый маленький JPEG в мире

10 мин

12K

Алгоритмы*Обработка изображений*Сжатие данных*

Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.

+41

AndreyDmitriev 8 фев в 13:00

Об отображении 10-бит цвета с использованием OpenGL (GLFW)

Простой

13 мин

3.7K

Обработка изображений*Мониторы и ТВ

Кейс

Вашему внимания предлагается небольшой этюд, посвящённый отображению 10-битного цвета (1024 градаций по каждому каналу) на мониторе через OpenGL при помощи библиотеки GLFW. Под катом мы напишем пару небольших приложений, открывающих два окна, где рассмотрим тестовые изображения в восьмибитном и десятибитном режимах на оборудовании, поддерживающем такую опцию. Включение 10 бит в основном позволяет избавиться от эффектов «полосатости» (также используются термины «бандинг» или «постеризация»), возникающих на протяжённых градиентах со слабо меняющейся интенсивностью, когда вы начинаете видеть границы между отдельными градациями, но по какой-либо причине не хотите пользоваться дизерингом, подмешивая в изображение шум.

Читать далее про тысячу оттенков серого

+25

Kit_Cat 7 фев в 20:18

Neural ODE: встреча с дифференциальными Уравнениями

Средний

8 мин

4.9K

Python*Обработка изображений*Математика*Машинное обучение*Искусственный интеллект

Дифференциальные уравнения и нейронные сети вместе? Не может быть или может... Neural ODE – подход в глубоком обучении, объединяющий идеи нейронных сетей и обыкновенных дифференциальных уравнений. Выглядит пугающе, давайте проверим!

adugin 5 фев в 18:10

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

18 мин

1.3K

Блог компании МТСБлог компании MTS AIОбработка изображений*Искусственный интеллект

Привет, Хабр! Меня зовут Андрей Дугин, я руководитель группы видеоаналитики компании MTS AI. В статье раскрою то, как мы создаём постеры для сериалов и подбираем материалы для обложек фильмов в онлайн-кинотеатре KION. О том, как мы решили эту задачу, я постараюсь рассказать максимально подробно и с техническими деталями. Забегая вперёд, упомяну, что для выбора одной-единственной обложки приходится обрабатывать сотни тысяч кадров фильмов и сериалов. Конечно же, не вручную. Интересно, как всё это реализовано? Тогда прошу под кат.

vladoossss 3 фев в 17:32

YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью

Средний

5 мин

10K

Обработка изображений*Машинное обучение*Искусственный интеллект

Из песочницы

Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?

В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры.

+18

Clickru 25 янв в 13:10

Создаем запросы для «картиночных» нейросетей: 4 помощника

3 мин

1.9K

Блог компании Click.ruОбработка изображений*Искусственный интеллект

Вам не обязательно придумывать промпты для генеративных нейросетей самостоятельно, если вы хотите получить картинку, соответствующую вашим требованиям. Существуют специализированные конструкторы, библиотеки с запросами, генераторы и даже маркетплейсы. С их помощью можно не только упростить использование «картиночных» нейросетей, но и сэкономить время на создание креативов для рекламных кампаний, которые вы можете запускать с помощью click.ru и других сервисов. Еще больше площадок для генерации промптов вы найдете в этой статье.

curious_odd_man 23 янв в 12:45

Оптическое распознавание символов и разбор чеков Rimi

Средний

11 мин

2.3K

Open source*HabrЗанимательные задачкиОбработка изображений*Искусственный интеллект

Из песочницы

Некоторое время назад в нашей стране крупные сети магазинов стали вводить электронные чеки. В частности, магазины сети Rimi. Эти чеки покупатель получает по почте в виде PDF документа. У меня скопилось много таких чеков, и мне стало интересно посмотреть на разного рода статистику: например, на цены на различные товары в разное время, сколько чего было приобретено и т. п.

К сожалению, PDF документы, которые покупатели получают – это картинка. Получить интересующую меня информацию из них без оптического распознавания символов (OCR) невозможно. Однако, OCR, как оказалось, не на столько хорош, чтоб идеально справиться и точно всё распознать с первого раза. И это несмотря на то, что чеки достаточно хорошего качества: строки ровные, нет никаких артефактов в виде тёмных пятен, буквы достаточно одинаковые (правда присутствуют несколько разных шрифтов).

+13

Bright_Translate 21 янв в 13:00

Разбираем самый маленький PNG в мире

Простой

9 мин

35K

Блог компании RUVDS.comАлгоритмы*Обработка изображений*Сжатие данных*

Обзор

Перевод

Самый миниатюрный PNG в мире весит 67 байт и представляет собой один чёрный пиксель. Выше вы видите его в 200-кратном увеличении.

Красота, не так ли?

Состоит этот файл из четырёх частей:

Сигнатура PNG, одинаковая во всех файлах этого формата: 8 байт.
Метаданные изображения, включая его размеры: 25 байт.
Данные пикселя: 22 байта.
Маркер «конец изображения»: 12 байт.

Далее я опишу этот файл подробнее и постараюсь объяснить принцип работы формата PNG.

В качестве небольшой затравки скажу, что в конце предстоит неожиданный поворот. Хотя, надеюсь, вам и без того интересно побольше узнать о PNG.

Читать дальше →

+124

112

ZlodeiBaal 18 янв в 03:50

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Средний

8 мин

15K

Блог компании RecognitorАлгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Аналитика

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем.
И можно ли уже выгнать на мороз лишних "ресерчеров"?!

+65

GEOGRAMMA 17 янв в 16:30

Основы обработки радиолокационных данных дистанционного зондирования Земли

Средний

31 мин

Алгоритмы*Обработка изображений*Геоинформационные сервисы*Big Data*Научно-популярное

Обзор

Из песочницы

В настоящее время все более востребованными становятся данные радиолокационного наблюдения (РЛН) с космических аппаратов дистанционного зондирования Земли. Наблюдая повышенный интерес к этой предметной области с одной стороны и явный недостаток информационных материалов по теме обработки радиолокационных данных ДЗЗ с другой, решили написать статью, которая, надеемся, будет полезна для всех интересующихся темой ДЗЗ.

+14

3 4 ...

107 108

Обработка изображений *

Работаю на стройке, чтобы писать статьи на Хабре

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

Albumentations: XYMasking

Истории

Boximator: ИИ-модуль от ByteDance Research как новая веха в области генерации видео

Как правильно генерировать обучающие данные для OCR?

Об особенностях хранения 16 бит изображений в PNG формате

Алгоритм реконструкции динамических томографических процессов

«Машинное чтение» цифровых и не только индикаторов без ИИ и нейронок на Python

Создание сцен с одинаковыми героями с помощью AI и при чем тут дипфейки Тейлор Свифт

Разбираем самый маленький JPEG в мире

Об отображении 10-бит цвета с использованием OpenGL (GLFW)

Neural ODE: встреча с дифференциальными Уравнениями

Ближайшие события

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью

Создаем запросы для «картиночных» нейросетей: 4 помощника

Оптическое распознавание символов и разбор чеков Rimi

Разбираем самый маленький PNG в мире

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Основы обработки радиолокационных данных дистанционного зондирования Земли

Вклад авторов