Articles / Bookmarks / Profile of dennyoi / Habr

Denis Tsarev @dennyoi

CEO Morizo Digital

Profile Publications 8Comments 643Bookmarks 847

Rubcov Apr 4 at 13:42

Размышления о высококачественных данных, собранных людьми

Hard

19 min

3.7K

Machine learning*Natural Language Processing*Data Engineering*Magnus Tech corporate blog

Translation

Высококачественные данные — это «топливо» для современных моделей глубокого обучения. Большая часть данных, размеченных под конкретные задачи, создается живыми людьми — аннотаторами, которые занимаются классификацией или проводят RLHF-разметку для LLM alignment. Многие из представленных в этой публикации методов машинного обучения могут помочь улучшить качество данных, но главным остается внимание к деталям и скрупулёзность.

Сообщество разработчиков машинного обучения осознает ценность высококачественных данных, но почему-то складывается впечатление, что «все хотят работать над моделями, а не над данными» (Sambasivan et al. 2021).

Рисунок 1. Два направления обеспечения высокого качества данных.

Читать дальше →

+26

Yorick May 9 2021 at 14:12

Аналог фейсбучной ленты для Телеграма. Тупенький ИИ OLEG

10 min

5.8K

Python*Machine learning*

Этот пост — о том, как я решил сделать систему коллаборативной фильтрации постов из пабликов Телеграма на основе машинного обучения.

И сделал: OLEG AI

Идея

В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.

Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту "информационного корма". В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.

И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?

А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Читать дальше →

SerVerchenov Jun 22 2021 at 10:03

Не диспансеризация, а чекап: как мы формализовали проведение аудитов инфраструктуры

9 min

4.5K

IT Infrastructure*КРОК corporate blogServer Administration*

— Знаете, у нас в последнее время тормозят системы, бухгалтерия нервничает, отгрузки продукции задерживаются. Надо это как-то исправить.

— А вы примерно понимаете, что является причиной такой низкой скорости приложений?

— Ну, предполагаем, что проблема с серверами баз данных, но твердой уверенности в этом нет.

Это один из сценариев, когда начинать нужно с технического аудита. По итогам он дает возможность, например, не перекраивать всю инфраструктуру, а вносить тонкие настройки, которые помогут жить эффективно с тем же пластом бизнес- приложений.

Слова «аудит» многие пугаются. Думают, будто это длительный и сложный процесс, который потребует от ИТ-директора полного вовлечения. Поэтому мы все чаще говорим про «обследования» или даже «чекапы» — аудиты минимум на половину автоматизированные. Ниже расскажем, в каких еще случаях такие аудиты могут быть полезны компаниям и какие методики помогают выжать максимум пользы из них при достаточно небольших затратах.

+17

VokaMut Mar 20 at 11:15

Нейросети для программистов: уже что-то умеют или еще пока совсем джуны?

Easy

8 min

9.9K

Programming*Artificial IntelligenceThe future is here

Case

Я Григорий Тумаков, CTO в Моризо Диджитал. Эта статья — про то, как мы в компании решили протестировать нейросети для рабочих задач.

Для начала опросил коллег, кто и чем уже пользовался для облегчения процессов разработки. Затем суммировал свой опыт, добавил комментарии коллег. Публикую наш опыт: что мы нашли полезного для себя в сфере нейронок. И мой собственный реальный проект, который я с помощью нейросетей сделал.

Disclaimer: это не полноценный обзор, а скорее эксперимент. Не судите строго 🙂

Nikolai1974 Jun 17 2022 at 14:49

Требования ГОСТ на автоматизированные системы в ИБ-проектах. Что изменилось и как это применять?

17 min

94K

Information Security*Technical Writing*Angara Security corporate blog

Традиционно разработчики документации на автоматизированные системы при создании и обеспечении защиты этих систем применяли ГОСТы 34-й серии. С 2022 года наконец-то произошло обновление старых стандартов в рамках новой серии национальных и межгосударственных стандартов на автоматизированные системы (далее — ГОСТ на автоматизированные системы).

В этой статье мы проясним основные особенности применения ГОСТ на автоматизированные системы, а также разберемся в изменениях, которые произошли в 2022 году.

+13

Quled Jan 7 at 17:54

AI-генераторы порно фото: этика, тренды и законодательство

Easy

6 min

67K

Image processing*Machine learning*History of ITArtificial IntelligenceHealth

Analytics

В последнее время, AI-генераторы порно фото стали частью большого обсуждения в сфере искусственного интеллекта, и порно индустрия не исключение. Интерес к этой теме растет, как и количество споров вокруг неё.

AI-генераторы порно фото — это программы, использующие алгоритмы машинного обучения для создания реалистичных изображений. Они могут генерировать фото, которые кажутся настоящими, но на самом деле являются продуктом алгоритма.

AI использует обширные базы данных изображений для обучения, а затем, основываясь на этом обучении, создает новые изображения. Это может включать и порно фото, что и вызывает этические дискуссии.

Читать дальше →

+72

247

AlexanderByndyu Sep 27 2023 at 12:56

Как самостоятельно издать книгу? На примере книги «Антихрупкость в IT»

17 min

Professional literature*Reading room

Tutorial

Прошлой осенью моя книга Антихрупкость в IT вышла в цифровой и аудио-версии, а в январе этого года книга появилась на Озоне в бумажном варианте. Я издал книгу самостоятельно при том, что в начале пути у меня не было опыта и знаний о том, как издаются книги.

В этой статье я опишу весь процесс издания книги: какие шаги нужно сделать, на что обратить внимание, какие подводные камни есть на этом пути:

+14

aresteil May 14 2023 at 10:18

Технология покраски деревянных фигурок для настольных игр от Meeplewood. Путь технологии

Easy

17 min

14K

Popular scienceDIYChemistry

Retrospective

Эта статья посвящена описанию моего пути созданию (отработки) технологии производства деревянных фигурок Meeplewood. В статье вы найдете трудности, которые пришлось преодолеть и решения, которыми это было сделано.

Статья описывает технологию, которая применялась нами в период с 2017 по 2019 год. С весны 2019 мы перешли на другой техпроцесс - более производительный и более экологичный. Тем не менее фигурки, произведенные по описанному тех.процессу проложили нам дорогу успеха к международному рынку фигурок и крупным заказам от издательств.

+89

dennyoi May 15 2023 at 15:04

История программирования: от Ады Лавлейс и Тьюринга до советских инженеров и российских IT-специалистов

Easy

16 min

Привет! Меня зовут Денис Царев, я генеральный директор компании-разработчика цифровых сервисов «Моризо Диджитал». Сегодня IT-отрасль переживает серьезные изменения, что, естественно, вызывает беспокойство и желание предусмотреть возможные риски. Но для того, чтобы разобраться в текущей ситуации, я рекомендую глубже познакомиться с истоками IT-отрасли. Об этом я планирую рассказывать в своем блоге. Сегодня предлагаю вашему вниманию первую статью, где рассказываю об истории появления IT-специалистов, развитии отраслевых услуг и продуктов в целом. А также о становлении профессии программиста в мире и в России.

nielsanderson Apr 23 2023 at 01:45

Прикормочный кораблик на arduino

Easy

10 min

17K

Developing for Arduino*DIYElectronics for beginners

From sandbox

Сборка прикормочного кораблика на радиоуправлении начиналась в рамках моего первого студенческого проекта на arduino. Я жил далеко от городской суеты, поэтому приходилось в основном использовать только те компоненты, которые были на руках. Задача была проста - создать кораблик, который сможет разносить корм для рыбы с полезной нагрузкой около двух килограмм. Что бы достичь своих целей я должен был решить список следующих задач:

+74

dust70 Mar 21 2023 at 10:04

Сколько стоит умный дом? Рассказываю, как строил свой и что получилось за 1000 руб./м²

Easy

25 min

94K

Wiren Board corporate blogSmart HouseIOTDIYSystems engineering*

Case

Подробный рассказ о том, как я свой дом и сад сделал умными. С фото, техническими деталями, стоимостями и выводами на будущее.

Читать

+296

296

e11it Mar 16 2023 at 16:51

Сахар для слоненка — быстрый старт c PostgreSQL для команд в НЛМК

Easy

8 min

7.9K

PostgreSQL*DevOps*Группа НЛМК corporate blog

Tutorial

На протяжении более чем 10 лет работы с PostgreSQL, периодически наблюдаю, как команды на начальном этапе, зачастую, не уделяют внимание ролевой модели базы, или как вся команда работает под суперпользователем postgres и забывает про версионирование схемы.

В процессе общения с различными командами в НЛМК у меня появилась идея предложить им «преднастроенный PostgreSQL». Как в итоге сделали — под катом.

+25

amazing_mike Feb 7 2023 at 09:07

Робот-не-пылесос с ножом или как мы делали смарт-ножницы на колесах

7 min

11K

Robotics development*Programming microcontrollers*Robotics

Case

Эта история началась в октябре 2019 года. К нам пришел владелец крупного производства натяжных потолков и сказал: «Хочу максимально оптимизировать производство, избежать ошибок, вызванных человеческим фактором, повысить производительность и точность, не теряя качества готовой продукции». Подумав и оценив свои силы, мы решили попробовать создать робота-раскройщика. Мы - это тимлид, 3 программиста, инженер-конструктор и безопасник

+99

RNZH Sep 21 2020 at 09:54

OSINT или как посмотреть на свою сеть глазами хакера

6 min

77K

Information Security*System administration*Network technologies*TS Solution corporate blog

Tutorial

Добрый день! Сегодня я вам расскажу какую информацию об организации можно обнаружить в открытых источниках и как ей может воспользоваться потенциальный злоумышленник. Многие из вас наверняка слышали об OSINT (Open Source INTelligence, перечень мероприятий, направленный на сбор информации из открытых источников), который чаще всего используется для сбора информации о конкретном человеке. Но также OSINT можно использовать для поиска информации о конкретных организациях для оценки защищенности. Ведь согласитесь, полезно посмотреть, что о вас есть в открытом доступе и как вы выглядите со стороны потенциального злоумышленника.

Читать дальше →

+11

Greenolor Nov 2 2020 at 10:54

Как я решил сделать игру, вдохновившись Heroes of Might and Magic, и потерял деньги (часть 3)

8 min

21K

Game development*Lua*Games monetization*Game design*Games and game consoles

Данная история состоит из трёх частей, т.к. я выпустил три игры:

● Beasts Battle

● Necromancer Returns

● Magicians Legacy

В прошлых частях я рассказал, как я пришел к разработке гексагональной пошаговой игры Beasts Battle и как не отбились мои расходы на игру Necromancer Returns.

Здесь можно почитать первую и вторую статьи.

Фальстарт

В феврале 2018 года вышла игра Necromancer Returns, которая не оправдала мои ожидания по продажам, и я ушел в депрессию. Но в апреле 2018 года у меня возникла мысль сделать следующую игру на основе этого движка, только чтобы вся графика была уже нарисована в 3D и отрендерена под 2D в изометрии. Мысль была такая: “по-быстрому” придумать новый мир, нарисовать его, запихнуть новых юнитов — и готово. Я списался с художником, который подключился в конце разработки Necromancer Returns и стал для меня основным. Он полностью перерисовал весь интерфейс для мобильной версии Necromancer Returns, а потом мы обновили и версию в Steam.

+42

morfeusys Jun 1 2018 at 10:47

Dialogflower — Google Dialogflow для Яндекс Алисы

7 min

20K

Programming*Yandex API*Artificial IntelligenceDIY

Tutorial

Несколько месяцев назад Яндекс запустил бету своего голосового помощника «Алиса», в которой открыл ее API. И вот совсем недавно выкатил все в паблик. Теперь миллионы пользователей могут запускать различные функции и сервисы голосом прямо из мобильного поиска, навигатора и из Яндекс браузера. Неудивительно, что голосовых навыков становится все больше. Но API диалогов предполагает, что вы должны уметь программировать, у вас должен быть свой сервер с HTTPS, и вдобавок вы должны уметь обрабатывать запросы на естественном языке…

Между тем уже давно существует бесплатный и довольно удобный конструктор диалогов от Google под названием Dialogflow. Он конечно же не поддерживает протокол Алисы из коробки, вот и пришла мысль исправить эту ситуацию, чтобы разработчики (и не только) быстро и без серверов создавали навыки для Алисы, которые умеют понимать естественную речь и контекст диалога.

+18

mi5ha6in May 7 2018 at 15:14

Интерактивные 3D-карты своими руками

18 min

25K

Working with 3D-graphics*Конференции Олега Бунина (Онтико) corporate blogWebGL*

Если 3D-графика не ваша основная специализация, все равно, возможно, вам придется или, как в случае автора этого доклада Александра Амосова (@s9k), захочется с ней работать. Порог входа не так высок, можно взять технологию WebGL доступную в браузере, популярный фрэймворк Three.js и небольшой компанией единомышленников сделать своими руками интересный проект. Именно на примере такого проекта, начатого в рамках хакатона Avito, и разберем основные этапы, обратим внимание на проблемные места, и, наконец, замотивируемся на создание чего-то такого же прикольного, как эта карта офиса.

Проект, кстати, интересен и сам по себе. В современных больших опенспейсах ориентироваться в пространстве, находить нужных людей или переговорки зачастую очень сложно. Конечно, можно сделать схему в Excel, но не всегда это супер хорошее решение. У Александра Амосова появилась идея сделать это более удобно, которой он поделился на Frontend Conf, а ниже расшифровка его доклада.

+29

alexdorofeeff Feb 14 2017 at 19:09

Как «пробить» человека в Интернет: используем операторы Google и логику

9 min

928K

Information Security*Эшелон corporate blog

Tutorial

В очередной статье нашего цикла публикаций, посвященного интернет-разведке, рассмотрим, как операторы продвинутого поиска Google (advanced search operators) позволяют быстро находить необходимую информацию о конкретном человеке.

В комментариях к первой нашей статье, читатели просили побольше практических примеров и скриншотов, поэтому в этой статье практики и графики будем много. Для демонстрации возможностей «продвинутого» поиска Google в качестве целей были выбраны личные аккаунты автора. Сделано это, чтобы никого не обидеть излишним интересом к его частной жизни. Хочу сразу предупредить, что никогда не задавался целью скрыть свое присутствие в интернете, поэтому описанные методы подойдут для сбора данных об обычных людях, и могут быть не очень эффективны для деанонимизации фэйковых аккаунтов, созданных для разовых акций. Интересующимся читателям предлагаю повторить приведенные примеры запросов в отношении своих аккаунтов и оценить насколько легко собирать информацию по ним.

Читать дальше →

+88

108

mrKron Feb 25 2018 at 18:09

Всего понемногу: автомобиль, облако, Raspberry Pi и CAN

13 min

42K

Unet corporate blogIOTCar Gadgets

Развлекательный центр (in-vehicle infotainment, IVI) стал неотъемлемой частью современного автомобиля. Если раньше это был просто радиоприемник, затем кассетный магнитофон, потом музыку можно было слушать просто с флэшки, а теперь едва хватает двух дисплеев по 10.25-дюймов для приборной панели и развлекательного центра в новом Mercedes A-класса. Кстати, IVI – это уже не только музыка, но и навигация, доступ к Интернет и многие другие возможности внутри транспортного средства, которые потихоньку дают старт воплощению концепции «подключенного автомобиля» (Connected Car). Пожалуй, автотранспорт так же очень близок к реализации концепции Интернета вещей (IoT). И все это достигается благодаря «ассимиляции» компьютера и автомобиля.

В продолжении предыдущей заметки «Автомобиль, Интернет вещей и прочие технологии» хотелось бы рассмотреть идеи для воплощения автомобильного компьютера на уровне открытых проектов и немного затронуть современные тенденции в этом ключе.

Image: Bringing its A game: new 2018 Mercedes A-class hatch revealed – CAR Magazine

+12

zxcv198511 Jan 31 2018 at 15:56

Парсинг сайтов или долгострои Московской области

8 min

10K

Python*Data Mining*

From sandbox

Ознакомившись с рынком первичного жилья в Московской области, мы, конечно же, столкнулись с наличием обманутых дольщиков и проблемных объектов, так называемых «долгостроев». Естественно, встал вопрос, насколько вероятна такая ситуация.

Была поставлена цель выполнить классификацию объектов первичного строительства по всеобъемлющему набору признаков: сведений об объекте, застройщике и т.д. Однако общедоступные данные оказались довольно скудными. Все же некоторую дескриптивную статистику собрать удалось…

Читать дальше →

+21

2 3 ...

41 42