Pull to refresh
23
0
Denis Tsarev @dennyoi

CEO Morizo Digital

Send message

Размышления о высококачественных данных, собранных людьми

Level of difficultyHard
Reading time19 min
Views3.7K


Высококачественные данные — это «топливо» для современных моделей глубокого обучения. Большая часть данных, размеченных под конкретные задачи, создается живыми людьми — аннотаторами, которые занимаются классификацией или проводят RLHF-разметку для LLM alignment. Многие из представленных в этой публикации методов машинного обучения могут помочь улучшить качество данных, но главным остается внимание к деталям и скрупулёзность.

Сообщество разработчиков машинного обучения осознает ценность высококачественных данных, но почему-то складывается впечатление, что «все хотят работать над моделями, а не над данными» (Sambasivan et al. 2021).


Рисунок 1. Два направления обеспечения высокого качества данных.
Читать дальше →
Total votes 26: ↑26 and ↓0+26
Comments2

Аналог фейсбучной ленты для Телеграма. Тупенький ИИ OLEG

Reading time10 min
Views5.8K

Этот пост — о том, как я решил сделать систему коллаборативной фильтрации постов из пабликов Телеграма на основе машинного обучения.


И сделал: OLEG AI


Идея


В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.


Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту "информационного корма". В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.


И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?


А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments23

Не диспансеризация, а чекап: как мы формализовали проведение аудитов инфраструктуры

Reading time9 min
Views4.5K

— Знаете, у нас в последнее время тормозят системы, бухгалтерия нервничает, отгрузки продукции задерживаются. Надо это как-то исправить. 

— А вы примерно понимаете, что является причиной такой низкой скорости приложений?

— Ну, предполагаем, что проблема с серверами баз данных, но твердой уверенности в этом нет.

Это один из сценариев, когда начинать нужно с технического аудита. По итогам он дает возможность, например, не перекраивать всю инфраструктуру, а вносить тонкие настройки, которые помогут жить эффективно с тем же пластом бизнес- приложений. 

Слова «аудит» многие пугаются. Думают, будто это длительный и сложный процесс, который потребует от ИТ-директора полного вовлечения. Поэтому мы все чаще говорим про «обследования» или даже «чекапы» — аудиты минимум на половину автоматизированные. Ниже расскажем, в каких еще случаях такие аудиты могут быть полезны компаниям и какие методики помогают выжать максимум пользы из них при достаточно небольших затратах.

Читать далее
Total votes 21: ↑19 and ↓2+17
Comments5

Нейросети для программистов: уже что-то умеют или еще пока совсем джуны?

Level of difficultyEasy
Reading time8 min
Views9.9K

Я Григорий Тумаков, CTO в Моризо Диджитал. Эта статья — про то, как мы в компании решили протестировать нейросети для рабочих задач.

Для начала опросил коллег, кто и чем уже пользовался для облегчения процессов разработки. Затем суммировал свой опыт, добавил комментарии коллег. Публикую наш опыт: что мы нашли полезного для себя в сфере нейронок. И мой собственный реальный проект, который я с помощью нейросетей сделал.

Disclaimer: это не полноценный обзор, а скорее эксперимент. Не судите строго 🙂

Читать далее
Total votes 9: ↑8 and ↓1+7
Comments11

Требования ГОСТ на автоматизированные системы в ИБ-проектах. Что изменилось и как это применять?

Reading time17 min
Views94K

Традиционно разработчики документации на автоматизированные системы при создании и обеспечении защиты этих систем применяли ГОСТы 34-й серии. С 2022 года наконец-то произошло обновление старых стандартов в рамках новой серии национальных и межгосударственных стандартов на автоматизированные системы (далее — ГОСТ на автоматизированные системы).

В этой статье мы проясним основные особенности применения ГОСТ на автоматизированные системы, а также разберемся в изменениях, которые произошли в 2022 году.

Читать далее
Total votes 13: ↑13 and ↓0+13
Comments7

AI-генераторы порно фото: этика, тренды и законодательство

Level of difficultyEasy
Reading time6 min
Views67K
image

В последнее время, AI-генераторы порно фото стали частью большого обсуждения в сфере искусственного интеллекта, и порно индустрия не исключение. Интерес к этой теме растет, как и количество споров вокруг неё.

AI-генераторы порно фото — это программы, использующие алгоритмы машинного обучения для создания реалистичных изображений. Они могут генерировать фото, которые кажутся настоящими, но на самом деле являются продуктом алгоритма.

AI использует обширные базы данных изображений для обучения, а затем, основываясь на этом обучении, создает новые изображения. Это может включать и порно фото, что и вызывает этические дискуссии.
Читать дальше →
Total votes 88: ↑80 and ↓8+72
Comments247

Как самостоятельно издать книгу? На примере книги «Антихрупкость в IT»

Reading time17 min
Views3K

Прошлой осенью моя книга Антихрупкость в IT вышла в цифровой и аудио-версии, а в январе этого года книга появилась на Озоне в бумажном варианте. Я издал книгу самостоятельно при том, что в начале пути у меня не было опыта и знаний о том, как издаются книги.

В этой статье я опишу весь процесс издания книги: какие шаги нужно сделать, на что обратить внимание, какие подводные камни есть на этом пути:

Читать далее
Total votes 18: ↑16 and ↓2+14
Comments1

Технология покраски деревянных фигурок для настольных игр от Meeplewood. Путь технологии

Level of difficultyEasy
Reading time17 min
Views14K

Эта статья посвящена описанию моего пути созданию (отработки) технологии производства деревянных фигурок Meeplewood. В статье вы найдете трудности, которые пришлось преодолеть и решения, которыми это было сделано.

Статья описывает технологию, которая применялась нами в период с 2017 по 2019 год. С весны 2019 мы перешли на другой техпроцесс - более производительный и более экологичный. Тем не менее фигурки, произведенные по описанному тех.процессу проложили нам дорогу успеха к международному рынку фигурок и крупным заказам от издательств.

Читать далее
Total votes 91: ↑90 and ↓1+89
Comments37

История программирования: от Ады Лавлейс и Тьюринга до советских инженеров и российских IT-специалистов

Level of difficultyEasy
Reading time16 min
Views9K

Привет! Меня зовут Денис Царев, я генеральный директор компании-разработчика цифровых сервисов «Моризо Диджитал». Сегодня IT-отрасль переживает серьезные изменения, что, естественно, вызывает беспокойство и желание предусмотреть возможные риски. Но для того, чтобы разобраться в текущей ситуации, я рекомендую глубже познакомиться с истоками IT-отрасли. Об этом я планирую рассказывать в своем блоге. Сегодня предлагаю вашему вниманию первую статью, где рассказываю об истории появления IT-специалистов, развитии отраслевых услуг и продуктов в целом. А также о становлении профессии программиста в мире и в России. 

Читать далее
Total votes 19: ↑12 and ↓7+5
Comments23

Прикормочный кораблик на arduino

Level of difficultyEasy
Reading time10 min
Views17K

Сборка прикормочного кораблика на радиоуправлении начиналась в рамках моего первого студенческого проекта на arduino. Я жил далеко от городской суеты, поэтому приходилось в основном использовать только те компоненты, которые были на руках. Задача была проста - создать кораблик, который сможет разносить корм для рыбы с полезной нагрузкой около двух килограмм. Что бы достичь своих целей я должен был решить список следующих задач:

Читать далее
Total votes 74: ↑74 and ↓0+74
Comments52

Сколько стоит умный дом? Рассказываю, как строил свой и что получилось за 1000 руб./м²

Level of difficultyEasy
Reading time25 min
Views94K

Подробный рассказ о том, как я свой дом и сад сделал умными. С фото, техническими деталями, стоимостями и выводами на будущее.

Читать
Total votes 300: ↑298 and ↓2+296
Comments296

Сахар для слоненка — быстрый старт c PostgreSQL для команд в НЛМК

Level of difficultyEasy
Reading time8 min
Views7.9K

На протяжении более чем 10 лет работы с PostgreSQL, периодически наблюдаю, как команды на начальном этапе, зачастую, не уделяют внимание ролевой модели базы, или как вся команда работает под суперпользователем postgres и забывает про версионирование схемы.

В процессе общения с различными командами в НЛМК у меня появилась идея предложить им «преднастроенный PostgreSQL». Как в итоге сделали — под катом.

Читать далее
Total votes 25: ↑25 and ↓0+25
Comments5

Робот-не-пылесос с ножом или как мы делали смарт-ножницы на колесах

Reading time7 min
Views11K

Эта история началась в октябре 2019 года. К нам пришел владелец  крупного производства натяжных потолков и сказал: «Хочу максимально оптимизировать производство, избежать ошибок, вызванных человеческим фактором, повысить производительность и точность, не теряя качества готовой продукции». Подумав и оценив свои силы, мы решили попробовать создать робота-раскройщика. Мы - это тимлид, 3 программиста, инженер-конструктор и безопасник

Читать далее
Total votes 99: ↑99 and ↓0+99
Comments91

OSINT или как посмотреть на свою сеть глазами хакера

Reading time6 min
Views77K


Добрый день! Сегодня я вам расскажу какую информацию об организации можно обнаружить в открытых источниках и как ей может воспользоваться потенциальный злоумышленник. Многие из вас наверняка слышали об OSINT (Open Source INTelligence, перечень мероприятий, направленный на сбор информации из открытых источников), который чаще всего используется для сбора информации о конкретном человеке. Но также OSINT можно использовать для поиска информации о конкретных организациях для оценки защищенности. Ведь согласитесь, полезно посмотреть, что о вас есть в открытом доступе и как вы выглядите со стороны потенциального злоумышленника.
Читать дальше →
Total votes 13: ↑12 and ↓1+11
Comments5

Как я решил сделать игру, вдохновившись Heroes of Might and Magic, и потерял деньги (часть 3)

Reading time8 min
Views21K

Данная история состоит из трёх частей, т.к. я выпустил три игры:

●     Beasts Battle

●     Necromancer Returns

●     Magicians Legacy

 

В прошлых частях я рассказал, как я пришел к разработке гексагональной пошаговой игры Beasts Battle и как не отбились мои расходы на игру Necromancer Returns.

Здесь можно почитать первую и вторую статьи. 

 

Фальстарт

В феврале 2018 года вышла игра Necromancer Returns, которая не оправдала мои ожидания по продажам, и я ушел в депрессию. Но в апреле 2018 года у меня возникла мысль сделать следующую игру на основе этого движка, только чтобы вся графика была уже нарисована в 3D и отрендерена под 2D в изометрии. Мысль была такая: “по-быстрому” придумать новый мир, нарисовать его, запихнуть новых юнитов — и готово. Я списался с художником, который подключился в конце разработки Necromancer Returns и стал для меня основным. Он полностью перерисовал весь интерфейс для мобильной версии Necromancer Returns, а потом мы обновили и версию в Steam. 

Читать далее
Total votes 50: ↑46 and ↓4+42
Comments38

Dialogflower — Google Dialogflow для Яндекс Алисы

Reading time7 min
Views20K

Несколько месяцев назад Яндекс запустил бету своего голосового помощника «Алиса», в которой открыл ее API. И вот совсем недавно выкатил все в паблик. Теперь миллионы пользователей могут запускать различные функции и сервисы голосом прямо из мобильного поиска, навигатора и из Яндекс браузера. Неудивительно, что голосовых навыков становится все больше. Но API диалогов предполагает, что вы должны уметь программировать, у вас должен быть свой сервер с HTTPS, и вдобавок вы должны уметь обрабатывать запросы на естественном языке…

Между тем уже давно существует бесплатный и довольно удобный конструктор диалогов от Google под названием Dialogflow. Он конечно же не поддерживает протокол Алисы из коробки, вот и пришла мысль исправить эту ситуацию, чтобы разработчики (и не только) быстро и без серверов создавали навыки для Алисы, которые умеют понимать естественную речь и контекст диалога.
Total votes 18: ↑18 and ↓0+18
Comments8

Интерактивные 3D-карты своими руками

Reading time18 min
Views25K
Если 3D-графика не ваша основная специализация, все равно, возможно, вам придется или, как в случае автора этого доклада Александра Амосова (@s9k), захочется с ней работать. Порог входа не так высок, можно взять технологию WebGL доступную в браузере, популярный фрэймворк Three.js и небольшой компанией единомышленников сделать своими руками интересный проект. Именно на примере такого проекта, начатого в рамках хакатона Avito, и разберем основные этапы, обратим внимание на проблемные места, и, наконец, замотивируемся на создание чего-то такого же прикольного, как эта карта офиса.



Проект, кстати, интересен и сам по себе. В современных больших опенспейсах ориентироваться в пространстве, находить нужных людей или переговорки зачастую очень сложно. Конечно, можно сделать схему в Excel, но не всегда это супер хорошее решение. У Александра Амосова появилась идея сделать это более удобно, которой он поделился на Frontend Conf, а ниже расшифровка его доклада.


Total votes 29: ↑29 and ↓0+29
Comments5

Как «пробить» человека в Интернет: используем операторы Google и логику

Reading time9 min
Views928K

В очередной статье нашего цикла публикаций, посвященного интернет-разведке, рассмотрим, как операторы продвинутого поиска Google (advanced search operators) позволяют быстро находить необходимую информацию о конкретном человеке.


В комментариях к первой нашей статье, читатели просили побольше практических примеров и скриншотов, поэтому в этой статье практики и графики будем много. Для демонстрации возможностей «продвинутого» поиска Google в качестве целей были выбраны личные аккаунты автора. Сделано это, чтобы никого не обидеть излишним интересом к его частной жизни. Хочу сразу предупредить, что никогда не задавался целью скрыть свое присутствие в интернете, поэтому описанные методы подойдут для сбора данных об обычных людях, и могут быть не очень эффективны для деанонимизации фэйковых аккаунтов, созданных для разовых акций. Интересующимся читателям предлагаю повторить приведенные примеры запросов в отношении своих аккаунтов и оценить насколько легко собирать информацию по ним.


Читать дальше →
Total votes 122: ↑105 and ↓17+88
Comments108

Всего понемногу: автомобиль, облако, Raspberry Pi и CAN

Reading time13 min
Views42K
Развлекательный центр (in-vehicle infotainment, IVI) стал неотъемлемой частью современного автомобиля. Если раньше это был просто радиоприемник, затем кассетный магнитофон, потом музыку можно было слушать просто с флэшки, а теперь едва хватает двух дисплеев по 10.25-дюймов для приборной панели и развлекательного центра в новом Mercedes A-класса. Кстати, IVI – это уже не только музыка, но и навигация, доступ к Интернет и многие другие возможности внутри транспортного средства, которые потихоньку дают старт воплощению концепции «подключенного автомобиля» (Connected Car). Пожалуй, автотранспорт так же очень близок к реализации концепции Интернета вещей (IoT). И все это достигается благодаря «ассимиляции» компьютера и автомобиля.

В продолжении предыдущей заметки «Автомобиль, Интернет вещей и прочие технологии» хотелось бы рассмотреть идеи для воплощения автомобильного компьютера на уровне открытых проектов и немного затронуть современные тенденции в этом ключе.


Image: Bringing its A game: new 2018 Mercedes A-class hatch revealed – CAR Magazine
Total votes 14: ↑13 and ↓1+12
Comments6

Парсинг сайтов или долгострои Московской области

Reading time8 min
Views10K

Ознакомившись с рынком первичного жилья в Московской области, мы, конечно же, столкнулись с наличием обманутых дольщиков и проблемных объектов, так называемых «долгостроев». Естественно, встал вопрос, насколько вероятна такая ситуация.


Была поставлена цель выполнить классификацию объектов первичного строительства по всеобъемлющему набору признаков: сведений об объекте, застройщике и т.д. Однако общедоступные данные оказались довольно скудными. Все же некоторую дескриптивную статистику собрать удалось…

Читать дальше →
Total votes 23: ↑22 and ↓1+21
Comments7
1
23 ...

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity