Статьи / Закладки / Профиль Dreamlone / Хабр

Михаил Сарафанов @Dreamlone

Data scientist

Профиль Публикации 5Комментарии 14Закладки 111

itmo_nsslab 26 апр в 13:55

Искусство README

Простой

13 мин

7.9K

Perl*Open source*Node.JS*GitHub*

Туториал

Перевод

Привет, Хабр!

На связи Андрей из сообщества ITMO.OpenSource. Мы считаем, что важно делать открытую науку, поэтому пишем об открытом коде, проводим митапы «Scientific Open Source» и разрабатываем научные решения с открытым кодом.

Мы убеждены, что открытая наука – это не просто код на github, но и совокупность факторов, которые позволяют этим кодом эффективно воспользоваться: запустить, модифицировать, внедрить в другие проекты. Поэтому я решил перевести популярную статью JS-разработчицы Киры Окли «Art of README». Несмотря на разницу в экосистемах (я пишу преимущественно на Python), мне кажется, многие идеи этой статьи актуальны для любого проекта на любом языке.

+21

InlyIT 24 апр в 11:46

Я программист, и я тупой

2 мин

67K

Учебный процесс в ITБлог компании InlyIT

Перевод

Я пишу код за деньги уже пятнадцать лет. Пробовал себя и в других ролях – управление продуктом, аналитика, тестирование, – но как-то не пошло. И с течением лет пришел к осознанию, что я не очень умный. К сожалению.

Никаких особых медицинских диагнозов мне не ставили, но мои умственные способности крайне ограниченны. Даже те задачи на Leetcode, которые попроще, вызывают у меня затруднения. Когда я читаю о самом обычном алгоритме консенсуса, у меня кипит мозг. У меня плохо получается отслеживать сложные зависимости в кодовой базе. Я не способен освоить модные языки вроде Rust (пытался, но по правде сказать, для меня это чересчур). Я терпеть не могу микросервисы и современный фронтенд: там слишком много движущихся частей, и уследить за всеми я не в состоянии.

Как же я выхожу из положения?

Читать дальше →

+316

330

difhel 13 апр в 14:10

Вы должны перестать вручную писать Dockerfile'ы

Средний

3 мин

52K

DevOps*

Из песочницы

Перевод

Вы тоже устали вручную заполнять Dockerfile и docker-compose.yaml под каждый новый проект?

Я всегда задумывался, применяю ли я известные best practices, когда пишу конфиг для Docker, и не занесу ли я случайно какие-нибудь уязвимости, вручную заполняя конфиг-файлы.

Что же, теперь мне больше не придется беспокоиться об этом, благодаря добрым людям из Docker, которые недавно реализовали инструмент для этого - docker init .

Интересно, как экономить время и быстро генерировать конфиги, даже если вы не профи в Docker? Прошу под кат.

+76

itmo_nsslab 4 апр в 17:04

Open Source в российском ИИ: исследование ландшафта

Простой

7 мин

Open source*GitHub*Машинное обучение*Блог компании ИТМОИскусственный интеллект

Аналитика

Привет, Хабр!

Это исследователи из NSS Lab ИТМО и создатели сообщества ITMO.OpenSource. Мы считаем, что важно делать не просто науку, а открытую науку, результатами которой можно легко воспользоваться. Поэтому пишем об открытом коде, проводим митапы «Scientific Open Source» и разрабатываем научные решения с открытым кодом. Эта статья написана на материале исследования, которое мы презентовали на последнем митапе. В ней поговорим об открытом научном коде, посмотрим, как с ним обстоят дела в разных организациях, и поделимся подборкой репозиториев, которые могут решать различные научные задачи.

+19

lena_gavrina 29 мар в 13:25

Старикам тут не место: есть ли эйджизм в ИТ

Простой

5 мин

32K

Блог компании Альфа-БанкУправление персоналом*Карьера в IT-индустрииIT-компании

Мнение

✏️ Технотекст 2023

Привет! Это Лена, ответственная за HR Tech в Альфа-Банке. Сегодня поговорим об эйджизме. Подумаем, как не бояться отказов по причине «ищем до 35».

Да, дискриминация по возрасту запрещена Трудовым кодексом, но отсеивать резюме всё ещё можно. Также поищем примеры, когда бумерам и зумерам хорошо работается вместе.

+73

179

akimovpro 14 дек 2023 в 10:08

Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа

Средний

27 мин

34K

Машинное обучение*Искусственный интеллект

Обзор

Перевод

AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что оптимизируют свою работу с помощью AI и в ус не дуют. Все эти возвышенные презентации про amazing и awesome инновации от людей, которые слабо себе представляют, чем энкодер отличается от декодера и почему трансформеры в нейросетях не сражаются с автоботами, мало того, что набивают оскомину и отнимают время, так еще и погружают в грёзы бизнес-руководителей и создают крайне завышенные ожидания.

Вспоминаю, как на одном обмене опытом со стартапами они чётко делились на 2 группы: первая – с менеджерами про невероятные инновации и всеобщее благоденствие, а вторая – с инженерами, которые с красными глазами рассказывали, что так и не смогли победить галлюцинации, что окно контекста заканчивается очень быстро и что для того, чтобы на нормальном продакшн использовании вся эта магия заработала, нужны огромные инвестиции в инфраструктуру, оркестратор, агенты, векторные базы, кратковременную и долговременную память и так далее. Поэтому хотелось собрать в одном месте понятное руководство и для разработчиков, пробующих LLM-ки для своих задач, и для людей из бизнеса, чтобы погрузить в контекст.

+25

Albert_Wesker 10 мар в 11:01

SQL в качестве API

Сложный

11 мин

13K

Программирование*SQL*Блог компании Timeweb CloudAPI*

Обзор

Перевод

SQL в API???

Верно, вы уже успели подумать: «это же безумие, предоставлять API, который принимает SQL». Да, это ужасная идея. Особенно, если API обращён к Интернету. Делать так небезопасно, вы напрашиваетесь на атаки в виде SQL-инъекций. Поддержка такого интерфейса превратится в кошмар, а сама реализация бэкенда будет замкнута на конкретную технологию (это будет какая-нибудь база данных ANSI SQL).

Но справедливо ли такое суждение? Время его пересмотреть!

Читать дальше →

+40

PatientZero 8 мар в 14:16

Почему Facebook* не использует Git

8 мин

40K

Git*Системы управления версиями*Mercurial*GitHub*

Перевод

Я работаю над созданием Graphite, источником вдохновения для которого стал внутренний инструментарий Facebook. Когда я решил создать стартап с друзьями, то никогда раньше не слышал о Mercurial, хотя всегда страстно любил инструменты разработчика. Мой предыдущий опыт разработки включал в себя личные проекты, домашнюю работу в колледже, разработку для iOS в Google и развитие инфраструктуры в Airbnb. На протяжении всей моей карьеры использование git было таким же естественным, как воздух. Он настолько популярен, что лично я считал его единственным подходящим инструментом для создания изменений в коде и управления ими.

Забавно, что специалист по Mercurial Грегори Gregory Szorc работал рядом со мной в Airbnb, хотя я знал его только как приятного коллегу, но не представлял, что он контрибьютор.

В 2021 году мои коллеги по команде Томас и Ник раскрыли мне глаза. Они пришли из Facebook и, к моему удивлению, едва знали Git. Зато они имели глубокое понимание паттернов Mercurial и рабочего процесса Facebook на основе «многослойных diff» (stacked diff). Со временем они убедили меня в полезности этого паттерна и мы развернули направление развития компании, чтобы реализовать многослойные diff для разработчиков GitHub.

Но пост посвящён не нашему стартапу. Он о важном вопросе, не дававшем мне покоя последние три года. Почему фейсбукеры не пользуются Git? Зачем они выбрали Mercurial и создали на его основе собственные рабочие процессы? Я знаю что Google не пользуется Git, но это логично, культура разработки Google возникла на пять лет раньше Git. Facebook же был основан примерно в то же время, что и создан Git, около 2004 года, и ко времени, когда Facebook начал серьёзно выбирать инструментарий для управления исходниками, Git был старше и популярнее Mercurial. Так почему же Facebook не использует Git?

+62

299

Bright_Translate 8 мар в 16:00

Как работает код, который спит месяц

Средний

7 мин

12K

JavaScript*Программирование*Совершенный код*Блог компании RUVDS.com

Туториал

Перевод

В первой части этого небольшого цикла статей мы говорили о том, что механизм устойчивого выполнения (durable execution) сохраняет состояние программы в журнале, а также о связанных с этим сложностях в случае обновлений служебного кода, ведущих к утрате журналом актуальности. Мы увидели, что ограничение времени выполнения обработчика существенно облегчает эту проблему. Но… не ведёт ли это к потере одного из наиболее интересных свойств устойчивого выполнения — возможности создавать бизнес-процессы, работающие с длительными паузами? В Restate мы считаем, что при использовании правильных примитивов можно ничего не потерять.

Тем не менее, если вы любите писать код с долгими периодами ожидания, потому что он хорошо согласуется с вашей моделью мышления, то Restate поможет вам реализовать это в полной мере. Если же вы цените устойчивое выполнение, но скептично относитесь к долго выполняющимся обработчикам и проблемам с их версионированием, то для этого есть решение. Ниже описаны несколько способов получить те же свойства путём добавления в этот механизм устойчивого обмена сообщениями и состояния.

Читать дальше →

+39

vgubaydulin99 7 мар в 18:30

Как за один pet-проект получить два диплома

Средний

12 мин

23K

Python*Искусственный интеллектDIY или Сделай сам

Из песочницы

✏️ Технотекст 2023

Все же знают серию компьютерных футбольных симуляторов FIFA? Раньше я много играл в эту игру. Кто-то скажет, что это бесполезная трата времени, но я с этим не согласен. Эта игра вдохновила меня на разработку pet-проекта, который стал моим бакалаврским дипломом.

Во время игры в FIFA пользователь видит небольшую карту с местоположением игроков и мяча на поле, данный элемент интерфейса является очень полезной фичей, без которой невозможно представить полноценный игровой процесс. Мне показалось, что данную карту было бы неплохо перенести в реальный мир, используя видеозапись матча и нейросеть.

+61

IPOSharks 3 мар в 14:59

Технологические компании, в которые нельзя было вкладываться – крупнейшие провалы 2023

Простой

10 мин

15K

Беспроводные технологии*Венчурные инвестиции

Дайджест

Обзор стартапов, которые смогли добраться до оценок в миллиарды долларов, но в итоге оказались на экономическом дне. Вас ждут беспилотные такси, индусы, лебеди и обманы инвесторов.

+37

stalkermustang 28 фев в 07:55

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Средний

41 мин

94K

Машинное обучение*Научно-популярноеИскусственный интеллектБудущее здесь

Обзор

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →

+281

120

DimDimDimDimDim 27 фев в 18:55

Как быстро написать API на FastAPI с валидацией и базой данных

11 мин

20K

Веб-разработка*Python*Блог компании SelectelAPI*

Обзор

✏️ Технотекст 2023

Все веб-запросы обрабатываются на сервере — это хорошо всем известно. Но бывает, когда нужно написать специальный программный интерфейс, так называемый API, через который пользователи смогут централизованно получать данные и вносить изменения, например, в свой профиль.

В этой статье мы разработаем простой API с помощью самого популярного стека и FastAPI. Рассмотрим важные концепции в работе с этим фреймворком, набросаем базовую структуру проекта и развернем приложение на облачном сервере. Подробности под катом!

Читать дальше →

+43

vltsu 27 фев в 10:09

Как мы оцифровали футбольные матчи с помощью CV

11 мин

Работа с видео*Анализ и проектирование систем*Блог компании ЯндексОбработка изображений*Искусственный интеллект

Кейс

✏️ Технотекст 2023

Привет! Меня зовут Владимир Цуканов, я СТО спортивного направления в Яндекс Плюсе. Мы занимаемся съёмкой, обработкой и стримингом спортивных событий. В этом посте я расскажу о работе с технической съёмкой и анализом футбольных матчей.

Расскажу о том, как и на что снимать футбол, если вы хотите его проанализировать, какие есть сложности в плане распознавания толпы бегающих спортсменов, как отреагирует машинное зрение, если за мяч начнётся нешуточная борьба, чем вся эта затея полезна для тренеров и экспертов и многое, многое другое.

+42

MagisterLudi 13 мая 2022 в 12:20

OSINT по спутниковым изображениям

3 мин

41K

Информационная безопасность*Блог компании Timeweb CloudГеоинформационные сервисы*Космонавтика

Мы живем в такое время, когда снимок со спутника можно получить в один клик. В оптическом, в инфракрасном и в радиодиапазоне. А еще историю изменений в определенной координате за несколько лет.

Зеленый Кот нашел разбившуюся советскую исследовательскую станцию «Марс-3» по снимкам со спутника, тысячи экологов следят за лесами Амазонки и состоянием береговой линии, школьники делают учебные проекты по слежке за популяцией моржей, репортеры проводят расследования, освобождают рабов, мониторят лагеря беженцев.

Предлагаю вам подборку бесплатных ресурсов и проектов со спутниковыми данными, программами обработки этих данных и полезные статьи.

Читать дальше →

+53

Bright_Translate 23 фев в 16:00

Труд разработчиков открытого ПО заслуживает оплаты

Простой

8 мин

9.8K

Open source*Управление разработкой*Блог компании RUVDS.comКарьера в IT-индустрииФинансы в IT

Мнение

Перевод

Предупреждение. Пишу я из чувства негодования, и мне не особо хочется сдерживать тон. Если вы не желаете выслушивать мои резкие высказывания на тему опенсорса, то лучше эту статью не читайте.

Недавно в сердцах я написал на Mastodon такой пост:

«Мы считаем, что сфера опенсорса должна быть жизнеспособной, а труд мейнтейнеров должен оплачиваться!»

Мейнтейнер: *вносит коммерческие возможности*
Мы: «Не таким образом».

Мейнтейнер: *работает на крупную технологическую корпорацию*
Мы: «Не таким образом».

Мейнтейнер: *привлекает инвестирование*
Мы: «Не таким образом».

Эта моя публикация вызвала вирусную реакцию, получив множество встречных аргументов и критики (а также немало согласия, и это приятно). Думаю, часть критических ответов объясняется моим намеренно вольным изложением и придирчивостью читателей к терминологии, но некоторые всё же стали следствием искреннего недопонимания моих язвительных высказываний. Я сам виноват, что поднял этот вопрос без должной ясности вместо того, чтобы говорить прямо. Поэтому в текущей статье я выражу свои размышления в виде более рассудительной и развёрнутой тирады.

Мой основной посыл в том, что труд специалистов, работающих в сфере опенсорса, заслуживает оплаты. Без исключений. Нам следует перестать критиковать идею оплаты труда мейнтейнеров и начать её ценить. Да, все используемые для этого механизмы в том или ином смысле несовершенны, но лишь потому, что сам мир таков. И дело не в том, что люди берут деньги. Наезжать на мейнтейнеров, которые нашли способ устроить себе жизнь, неправильно.

Читать дальше →

+67

zhurus 21 фев в 11:00

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

17 мин

16K

Блог компании ЯндексМашинное обучение*Научно-популярноеData Engineering*Блог компании Yandex Cloud & Yandex Infrastructure

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений.

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.

+36

rahmanny 20 фев в 13:31

Пароли в открытом доступе: ищем с помощью машинного обучения

Средний

18 мин

9.6K

Информационная безопасность*.NET*C#*Машинное обучение*Блог компании Lamoda Tech

Туториал

✏️ Технотекст 2023

Я больше 10 лет работаю в IT и знаю, что сложнее всего предотвратить риски, связанные с человеческим фактором.

Мы разрабатываем самые надежные способы защиты. Но всего один оставленный в открытом доступе пароль сведет все усилия к нулю. А чего только не отыщешь в тикетах Jira, правда?

Привет, меня зовут Александр Рахманный, я разработчик в команде информационной безопасности в Lamoda Tech. В этой статье поделюсь опытом, как мы ищем в корпоративных ресурсах чувствительные данные — пароли, токены и строки подключения — используя самописный ML-плагин. Рассказывать о реализации буду по шагам и с подробностями, чтобы вы могли создать такой инструмент у себя, даже если ML для вас — незнакомая технология.

+30

smirnovevgeny 19 фев в 10:00

Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Средний

22 мин

17K

Big Data*Блог компании Альфа-БанкМашинное обучение*Карьера в IT-индустрииИскусственный интеллект

Кейс

✏️ Технотекст 2023

Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.

+22

Dreamlone 19 фев в 11:11

Data Scientist in Helsinki. Мое небольшое исследование про поиск работы в Финляндии в 2024 году

Простой

6 мин

7.5K

Исследования и прогнозы в IT*Карьера в IT-индустрииСтатистика в IT

Аналитика

Превью фото сделано мной зимой 2022 года в Вуосаари - зимняя природа в Финляндии очень живописная

Привет, хабр!

Под катом хотел бы обсудить тему поиска работы в период зимы 2023-2024 года it-специалистом в Финляндии. Про “исследование” я конечно сильно сказал, это скорее можно назвать приведением статистики, которую мне удалось собрать за период поиска с ноября 2023 по январь 2024 года и некоторые мои субъективные ощущения. В общем, если заинтересовались, - поехали!

tutkia

+12

2 3 4 5 6