Как стать автором
Обновить
44.59

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Работаю на стройке, чтобы писать статьи на Хабре

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров7K

В этой статье я хотел бы совсем чуть-чуть порассуждать о том, с какими намерениями авторы приходят на Хабр, а также рассказать вам чем занимаюсь лично я, чтобы быть одним из авторов Хабра.

Читать далее
Всего голосов 53: ↑26 и ↓27-1
Комментарии44

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

Время на прочтение8 мин
Количество просмотров854

Привет, Хабр! На связи вновь Андрей Дугин, руководитель группы видеоаналитики компании MTS AI. Сегодня я закончу рассказ о том, как мы с помощью ИИ выбираем обложки для сериалов в KION. Первую часть можно прочитать здесь.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

Время на прочтение5 мин
Количество просмотров7.3K

Перед началом зимних каникул, 21 декабря 2023 года, Midjourney открыли «ранний доступ» к шестой версии. Спустя почти два месяца, 15 февраля 2024, она стала стала моделью по умолчанию, несмотря на сохранившийся статус альфа-тестирования.

Привет, Хабр! Меня зовут Вова Туров, я разработчик в Selectel. В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.
Читать дальше →
Всего голосов 57: ↑56 и ↓1+55
Комментарии3

Albumentations: XYMasking

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров882

Короткая версия

После длинного вступления, будет туториал по применению аугментации XYMasking к спектрограммам от ЭЭГ. Кто экономит время - код с примерами можно найти по ссылке в документации библиотеки.

Длинная версия

Albumentations - это Open Source библиотека для аугментации изображений.

Аугментация - это умное слово, которое в переводе с русского на русский означает "преобразование".

Q: Зачем это надо?

A: Основное применение - тренировка нейронных сетей на картиночных данных, например ImageNet.

Чем больше разнообразных данных сеть видит при тренировке, тем выше шансы, что она выучит закономерности, а не просто запомнит их.

На практике, пока прошлый батч картинок обрабатывается сетью на GPU, CPU занимается подготовкой нового батча, причем к каждому изображению применяются различные аугментации. Это позволяет достигнуть большего разнообразия данных, которые видит сеть.

Благодаря такому подходу нейронная сеть никогда не видит один и тот же набор пикселей, что способствует более высокой точности и обобщающей способности.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Истории

Boximator: ИИ-модуль от ByteDance Research как новая веха в области генерации видео

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.3K

Одной из главных целей в генерации видео с помощью искусственного интеллекта является создание полностью управляемого, а также достоверного движения объектов. С помощью изменения сцен и улучшения качества по заданным критериям на основе предпочтений пользователя генерация контента выходит на совершенно новый уровень. К нему сделала шаг команда ByteDance Research, представив Boximator (box + animator) – новый инструмент для работы с видео на основе ИИ. ByteDance – родитель небезызвестного Tik-Tok, а из этого следует, что в скором времени там следует ожидать больше искусственно генерируемого контента. По-настоящему танцующих девушек или реального липсинка, судя по всему, станет значительно меньше :)

В этой статье вы познакомитесь с новой разработкой, узнаете о её новаторстве, архитектуре и функциях, а также о её преимуществах перед конкурентами.

Приятного прочтения!

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Как правильно генерировать обучающие данные для OCR?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

Мы в Smart Engines много пишем про распознавание документов. И, конечно, для распознавания документов нам требуется обучать нейросети, в частности, сети, распознающие текст на картинке. А им, как известно, нужно больше золота данных. И сегодня мы бы хотели поговорить о влиянии обучающих данных на итоговую сеть и о том, как такие данные синтезировать.

Далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Об особенностях хранения 16 бит изображений в PNG формате

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.3K

Вашему вниманию предлагается небольшая заметка, посвящённая особенностям хранения одноканальных (серых) 16 бит изображений (как беззнаковых, так и знаковых) в PNG формате. В некоторых случаях интенсивности пикселей, получаемые из такого файла могут не соответствовать изначальным интенсивностям, под катом мы заглянем во внутренности PNG файла и разберёмся, почему так происходит.

Читать далее
Всего голосов 69: ↑69 и ↓0+69
Комментарии4

Алгоритм реконструкции динамических томографических процессов

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров459

Привет, Хабр! Мы уже рассказывали про наши успехи в рентгеновской томографии. В этом же посте мы хотим поделиться с вами деталями наших исследований в динамической или 4D томографии. Здесь, для исследования объекта, который менялся в процессе проведения измерений, нам пришлось разработать новый алгоритм томографической реконструкции и даже провести гидродинамическое моделирование.

Но давайте обо всём по порядку.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

«Машинное чтение» цифровых и не только индикаторов без ИИ и нейронок на Python

Время на прочтение9 мин
Количество просмотров4.7K

В этой статье рассмотрим простой алгоритм обработки и распознавания значений из массива фотографий с показаниями цифровых индикаторов.

Не будет машинного обучения, нейросетей, только стандартные библиотеки Python для работы с изображениями.

Читать далее
Всего голосов 15: ↑15 и ↓0+15
Комментарии14

Создание сцен с одинаковыми героями с помощью AI и при чем тут дипфейки Тейлор Свифт

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.4K

Вы, вероятно, слышали о Тейлор Свифт и очень креативном наборе изображений, созданных одним из её фанатов. Что могу сказать - это был лишь вопрос времени, когда кто-то это сделает. Как мы знаем - не бывает плохой  рекламы, однако что если вас зовут не Тейлор Свифт, и никто не создает и не ищет ваши изображения в Google?

Хотя это действительно очень печально, по крайней мере вы можете создать свои собственные изображения. Правда если вы хотите использовать генеративные модели для создания последовательных историй с элементами сюжета, это не так просто, как вам могло показаться. Создать одного-двух персонажа с помощью Dall-e или Stable Diffusion довольно просто. Но что, если вы хотите создать целую историю с одними и теми же персонажами в разных обстановках и стилях? Исследователи генеративных моделей неустанно работают над тем, чтобы упростить для вас процесс создания собственного творческого искусства с вашим любимым актером, но пока что это не так просто.

Так что же мы можем сделать сейчас? Давайте посмотрим.

Читать далее
Всего голосов 20: ↑19 и ↓1+18
Комментарии6

Разбираем самый маленький JPEG в мире

Время на прочтение10 мин
Количество просмотров12K

Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.

Читать далее
Всего голосов 41: ↑41 и ↓0+41
Комментарии6

Об отображении 10-бит цвета с использованием OpenGL (GLFW)

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров3.7K

Вашему внимания предлагается небольшой этюд, посвящённый отображению 10-битного цвета (1024 градаций по каждому каналу) на мониторе через OpenGL при помощи библиотеки GLFW. Под катом мы напишем пару небольших приложений, открывающих два окна, где рассмотрим тестовые изображения в восьмибитном и десятибитном режимах на оборудовании, поддерживающем такую опцию. Включение 10 бит в основном позволяет избавиться от эффектов «полосатости» (также используются термины «бандинг» или «постеризация»), возникающих на протяжённых градиентах со слабо меняющейся интенсивностью, когда вы начинаете видеть границы между отдельными градациями, но по какой-либо причине не хотите пользоваться дизерингом, подмешивая в изображение шум.

Читать далее про тысячу оттенков серого
Всего голосов 25: ↑25 и ↓0+25
Комментарии85

Neural ODE: встреча с дифференциальными Уравнениями

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.9K

Дифференциальные уравнения и нейронные сети вместе? Не может быть или может... Neural ODE – подход в глубоком обучении, объединяющий идеи нейронных сетей и обыкновенных дифференциальных уравнений. Выглядит пугающе, давайте проверим!

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Ближайшие события

Как мы с помощью ИИ выбираем обложки для сериалов в KION: кейс MTS AI

Время на прочтение18 мин
Количество просмотров1.3K

Привет, Хабр! Меня зовут Андрей Дугин, я руководитель группы видеоаналитики компании MTS AI. В статье раскрою то, как мы создаём постеры для сериалов и подбираем материалы для обложек фильмов в онлайн-кинотеатре KION. О том, как мы решили эту задачу, я постараюсь рассказать максимально подробно и с техническими деталями. Забегая вперёд, упомяну, что для выбора одной-единственной обложки приходится обрабатывать сотни тысяч кадров фильмов и сериалов. Конечно же, не вручную. Интересно, как всё это реализовано? Тогда прошу под кат.

Читать далее
Всего голосов 17: ↑10 и ↓7+3
Комментарии7

YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров10K

Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?

В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры.

Читать далее
Всего голосов 22: ↑20 и ↓2+18
Комментарии10

Создаем запросы для «картиночных» нейросетей: 4 помощника

Время на прочтение3 мин
Количество просмотров1.9K

Вам не обязательно придумывать промпты для генеративных нейросетей самостоятельно, если вы хотите получить картинку, соответствующую вашим требованиям. Существуют специализированные конструкторы, библиотеки с запросами, генераторы и даже маркетплейсы. С их помощью можно не только упростить использование «картиночных» нейросетей, но и сэкономить время на создание креативов для рекламных кампаний, которые вы можете запускать с помощью click.ru и других сервисов. Еще больше площадок для генерации промптов вы найдете в этой статье.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Оптическое распознавание символов и разбор чеков Rimi

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.3K

Некоторое время назад в нашей стране крупные сети магазинов стали вводить электронные чеки. В частности, магазины сети Rimi. Эти чеки покупатель получает по почте в виде PDF документа. У меня скопилось много таких чеков, и мне стало интересно посмотреть на разного рода статистику: например, на цены на различные товары в разное время, сколько чего было приобретено и т. п.

К сожалению, PDF документы, которые покупатели получают – это картинка. Получить интересующую меня информацию из них без оптического распознавания символов (OCR) невозможно. Однако, OCR, как оказалось, не на столько хорош, чтоб идеально справиться и точно всё распознать с первого раза. И это несмотря на то, что чеки достаточно хорошего качества: строки ровные, нет никаких артефактов в виде тёмных пятен, буквы достаточно одинаковые (правда присутствуют несколько разных шрифтов).

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии20

Разбираем самый маленький PNG в мире

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров35K

Самый миниатюрный PNG в мире весит 67 байт и представляет собой один чёрный пиксель. Выше вы видите его в 200-кратном увеличении.

Красота, не так ли?

Состоит этот файл из четырёх частей:

  1. Сигнатура PNG, одинаковая во всех файлах этого формата: 8 байт.
  2. Метаданные изображения, включая его размеры: 25 байт.
  3. Данные пикселя: 22 байта.
  4. Маркер «конец изображения»: 12 байт.

Далее я опишу этот файл подробнее и постараюсь объяснить принцип работы формата PNG.

В качестве небольшой затравки скажу, что в конце предстоит неожиданный поворот. Хотя, надеюсь, вам и без того интересно побольше узнать о PNG.
Читать дальше →
Всего голосов 140: ↑132 и ↓8+124
Комментарии112

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров15K

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем.
И можно ли уже выгнать на мороз лишних "ресерчеров"?!

Читать далее
Всего голосов 67: ↑66 и ↓1+65
Комментарии9

Основы обработки радиолокационных данных дистанционного зондирования Земли

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров6K

В настоящее время все более востребованными становятся данные радиолокационного наблюдения (РЛН) с космических аппаратов дистанционного зондирования Земли. Наблюдая повышенный интерес к этой предметной области с одной стороны и явный недостаток информационных материалов по теме обработки радиолокационных данных ДЗЗ с другой, решили написать статью, которая, надеемся, будет полезна для всех интересующихся темой ДЗЗ.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии15

Вклад авторов