Articles / Bookmarks / Profile of wol4aravio / Habr

Валентин Пановский @wol4aravio

Data scientist | Academic | Amateur photographer

Profile Publications 5Comments 20Bookmarks 298

AKlimenkov May 8 at 17:10

Чудесное совпадение или ожидаемая связь: почему π²≈g

Easy

5 min

59K

Entertaining tasksMathematics*Reading roomPopular science

Давайте ненадолго перенесёмся в школьные годы и вспомним уроки математики и физики. Помните, чему равно число π? Естественно, помните, мы же на Хабре! А чему равно π в квадрате? Это тоже странный вопрос. Конечно, 9,87. А чему равно ускорение свободного падения g помните? Ещё бы, это число так тщательно вдолбили в нашу память, что захочешь — не забудешь: 9,81 м/c². Конечно, оно может варьироваться, но для решения базовых школьных задачек мы обычно использовали именно это значение.

А теперь, внимание, следующий вопрос: а с какого это перепугу π² примерно равно g?

+222

181

toxic_manager 45 minutes ago

Уровни зрелости функции исследований в организациях

17 min

106

Development Management*Product Management*Personnel Management*

Думаю, у каждого рисечера есть история про то, как он устроился в новую компанию, казалось бы, большую и успешную, и вдруг обнаружил, что тут продакт-менеджеры глубинными интервью называют праздную болтовню с клиентами, аналитики понятия не имеют, что такое статзначимость, а вся исследовательская работа больше похожа карго-культ папуасов, чем на научный поиск истины. Ты, конечно, ведомый благородным порывом, пытаешься научить неразумных аборигенов правильно работать, но почему-то сталкиваешься с жестким отпором, казалось бы, от образованных и неглупых людей, которые с непонятным упорством отстаивают свое право верить в магию. Такие истории есть и у меня. К сожалению, много.

В какой момент я стал задумываться, что за таким поведением лежит не просто глупость и плохое образование отдельно взятых менеджеров, а что-то большее. Зрелость исследований нельзя рассматривать отдельно от зрелости организации, а любая организация, хотя и существует как результат взаимодействия людей, обретает самостоятельную реальность, которая развивается по своим собственным законам, которую зачастую уже не контролируют даже собственники бизнеса, подталкивает сотрудников действовать так, как они действуют, и даже думать так, как они думают.

В этой статье я попытался показать, как может (и в большинстве скорее всего будет) выглядеть функция исследований на разных этапах развития организации. Я не стал привязываться к какой-то конкретной шкале зрелости бизнеса - Грейнера, Адизеса, Бека и других, но по возможности упоминал их в тексте в качестве отсылок для сопоставления.

-1

FreightOne May 7 at 16:43

Когда достаточно простого класса Python — взять и начать управлять ML-экспериментами

Medium

7 min

3.6K

Python*Machine learning*Studying in ITПервая грузовая компания (ПГК) corporate blog

Мы в ПГК занимаемся грузоперевозками, причем решаем различные транспортные задачи не только методами математической оптимизации, но и с помощью моделей машинного обучения. Наши дата-сайентисты проводят десятки экспериментов — в том числе и без необходимости прибегать к инструментам логирования вроде MLflow. В этом им помогает компактный Python-класс. Расскажем, как он устроен, и поделимся кодом.

SloNN May 2 at 09:00

Как Яндекс создал свою шину данных, чтобы передавать сотни гигабайт в секунду

Easy

7 min

35K

High performance*Open source*IT Infrastructure*Yandex Cloud & Yandex Infrastructure corporate blogYDB corporate blog

Roadmap

10 лет назад сотни серверов Яндекса работали на Apache Kafka®, но в этом продукте нам нравилось далеко не всё. Наши задачи требовали единой шины для передачи всех видов данных: от биллинговых до журналов приложений. Сегодня объёмы достигли уже десятков тысяч именованных наборов сообщений.

При таком количестве данных в Apache Kafka® становилось сложно управлять правами доступа, организовывать распределённую работу нескольких команд и многое другое. Проблемы роста и отсутствие подходящего решения в открытом доступе привели к тому, что мы разработали своё решение YDB Topics и выложили его в опенсорс в составе платформы данных YDB. В этом посте расскажу о предпосылках создания продукта, нашей архитектуре передачи данных, возникающих задачах и возможностях, которые появились вместе с YDB Topics.

+68

olivera507224 Apr 26 at 01:16

TarantoolScript: статическая типизация в Lua-скриптах Tarantool

Easy

7 min

1.8K

Lua*TypeScript*Tarantool*

From sandbox

Recovery Mode

Если вам когда-нибудь доводилось писать скрипты для Тарантула, то вы наверняка сможете понять мою боль. Тарантул - удивительный инструмент, который позволяет не только хранить относительно большие объёмы данных и обеспечивать поразительно быстрое выполнение операций CRUD над этими данными, но и предоставляет очень широкие возможности для обработки этих данных непосредственно в среде Тарантула. И под обработкой данных я имею ввиду не просто их валидацию и выполнение над ними каких-то математических операций, а почти весь спектр возможностей, предоставляемых языком Lua и ещё целую кучу полезных модулей, входящих в пакет поставки Тарантула или устанавливаемых из сторонних источников.

Для того чтобы написать, например, полноценный HTTP-сервер на Тарантуле (прошу не пинать меня за эту формулировку), нам нужно знать совсем немного - основы синтаксиса языка Lua и API основных модулей самого Тарантула. И вот если с Lua всё совсем просто - изучить этот язык за один вечер, я уверен, мало для кого окажется непосильной задачей - то вот с модулями Тарантула всё немного сложнее. Можно вдоль и поперёк проштудировать всю официальную документацию и уже непосредственно во время написания скрипта столкнуться с одной неприятной проблемой - писать относительно большие вещи для Тарантула жутко неудобно.

ArtemBoiko Apr 25 at 09:25

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Easy

5 min

3.2K

Open source*Data Mining*CAD/CAM*Open data*Data Engineering*

Opinion

В 2024 году ни одна крупная компания в мире, работающая с CAD (BIM) данными, не получает доступ к данным из CAD (BIM) программ через API или плагины.

Все крупные компании, работающие с форматами CAD (BIM), работают с определенными SDK, а форматы, содержащие данные о строительных проектах становятся взаимозаменяемы.

skillfactory_school Apr 25 at 07:20

Исследование веб-приложений с помощью утилиты Ffuf

Medium

7 min

Information Security*Skillfactory corporate blog

Tutorial

В сфере информационной безопасности и тестирования веб-приложений каждая малейшая уязвимость может привести к серьезным последствиям. Надежным помощником в обнаружении скрытых угроз и проведения глубокого анализа безопасности веб-систем может стать утилита Ffuf. Разбираемся с фаззингом с Ffuf и исследуем несколько ключевых методов его применения.

r3code Apr 24 at 15:02

Как ELK довел нас… до Vector.dev и Clickhouse

Hard

7 min

6.3K

DevOps*

Tutorial

Меня зовут Дима Синявский, я SRE-инженер в Vi.Tech — это IT-дочка ВсеИнструменты.ру. В этой статье расскажу я вам о том как мы развивались и с нами развивалась наша система логирования. Почему вам нужен Vector.dev + Clickhouse для хранения и когда это выгодно.

Когда компания была маленькой нам хватало и блокнота, чего сейчас уже не скажешь.
У нас 931 000 пайплайнов в месяц, 4 кластера Kubernetes: от 170 до 190 нод в каждом, и 200 ГБ логов ежедневно.

cat elk-vector.md | more // Прочитать...

+29

navrocky Apr 23 at 23:52

Удобное управление тестовыми окружениями в docker-compose

Easy

2 min

5.8K

Website development*Open source*C++*IT Infrastructure*

Review

Всем привет, хочу рассказать о своей утилите dcw (Docker Compose Workspace) для удобного управления тестовыми окружениями на базе docker-compose.

+33

prinkov Apr 16 at 12:06

Непрекращающиеся AB-тесты: как делать продукт лучше и знать об этом

Easy

8 min

1.5K

Web services testing*Increasing Conversion Rate*Product Management*Statistics in ITGarage Eight corporate blog

Opinion

Основное предназначение A/B тестов — оценить эффективность вносимых изменений и, в случае увеличения целевых метрик, зафиксировать эти изменения, а в случае снижения — откатить. Как правило, один из критериев хорошего дизайна A/B-теста — это конкретное и реалистичное с практической точки зрения время его проведения.

Такой подход логичен, довольно хорошо изучен и не нуждается в очередном обсуждении. В этой же статье предлагаю обсудить не самые популярные подходы к тестированию: тесты, у которых есть начало, но нет конца, где эффект изменений может меняться за короткий промежуток времени, а тестируемые изменения — всегда в процессе частичного релиза.

aio350 Apr 16 at 11:01

Руководство по Next.js. 1/3

Medium

45 min

7.6K

Website development*JavaScript*Timeweb Cloud corporate blogReactJS*

Review

Hello world!

Представляю вашему вниманию первую часть обновленного руководства по Next.js.

На мой взгляд, Next.js — это лучший на сегодняшний день инструмент для разработки веб-приложений.

Предполагается, что вы хорошо знаете JavaScript и React, а также хотя бы поверхностно знакомы с Node.js.

Обратите внимание: руководство актуально для Next.js версии 14.

При подготовке руководства я опирался в основном на официальную документацию, но в "отсебятине" мог и приврать (или просто очепятаться) 😁 При обнаружении подобного не стесняйтесь писать в личку 😉

Парочка полезных ссылок:

Читать дальше →

+18

Serine Apr 11 at 10:31

Как мы делаем опенсорс курсы для программистов от программистов

Easy

8 min

34K

Python*Rust*Learning languages

Review

Мы разочаровались в курсах по программированию и поэтому сделали свои собственные. Не для вайтишников, а для типичных разрабов. В процессе нас хакнул инфлюенсер и забанил сервер телеграма.

Покоцанные, но не сломленные, мы представляем проект, над которым работали полтора года по ночам. Курсы по программированию с задачами в online IDE и прагматичной теорией. Никаких сертификатов и гарантий трудоустройства. Сплошной хардкор и опенсорс!

Читать дальше →

+137

myoffice_ru Apr 11 at 16:04

Я изучила 900 самых популярных инструментов ИИ на базе open source — и вот что обнаружила

8 min

32K

Open source*Machine learning*МойОфис corporate blogArtificial Intelligence

Translation

Четыре года назад ИТ-эксперт Чип Хуэн* проанализировала экосистему ML с открытым исходным кодом. С тех пор многое изменилось, и она вернулась к изучению темы, на этот раз сосредоточившись исключительно на стеке вокруг базовых моделей.

О результатах исследования читайте под катом.

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис.

+42

Aeza Apr 1 at 15:14

Радикальная защита селфхостинга. Уровень: хардвар и хардкор

Medium

6 min

9.3K

HostingProgramming microcontrollers*Developing for Arduino*DIYAéza corporate blog

From sandbox

✏️ Technotext 2023

Сейчас у многих есть свой личный сервер. Насколько вы задумывались о безопасности? Настроили вход по ssh‑ключам, firewall и на этом всё? Давайте поговорим про РЕАЛЬНУЮ безопасность.

Эта статья о том, как запариться, распилить свой ноутбук болгаркой, вставить туда микроконтроллер и интегрировать всё это с умным домом. Или по‑простому: радикальная защита селфхостинга — уровень «хардкор».

Вводные
У меня был старый ноутбук Thinkpad t440p, который лежал без дела. Я решил сделать на нем селфхостинг.

+53

MaxRokatansky Nov 1 2021 at 19:03

RCA для дата-инженеров

8 min

1.4K

OTUS corporate blogData Engineering*

Translation

Существует миллион разных причин, по которым могут возникать сбои в работе конвейеров данных, и нет ни одного универсального подхода, помогающего сразу понять, как и почему они случаются. В этой статье я расскажу вам о пяти шагах, которые нужно совершить дата-инженеру, чтобы провести анализ первопричин (Root Cause Analysis - RCA) проблем с качеством и пригодностью данных (Data Quality).

konstantin-s-yakovlev Mar 26 at 16:02

Много-агентное планирование траекторий в децентрализованном режиме: эвристический поиск и обучение с подкреплением

Medium

17 min

2.9K

Algorithms*Machine learning*Artificial IntelligenceAIRI corporate blog

Привет! Меня зовут Константин Яковлев, я научный работник и вот уже более 15 лет я занимаюсь методами планирования траектории. Когда речь идет о том, чтобы построить траекторию для одного агента, то задачу зачастую сводят к поиску пути на графе, а для этого в свою очередь обычно используют алгоритм A* или какие‑то из его многочисленных модификаций. Если же агентов много, они перемещаются в рабочем пространстве одновременно, то задача (внезапно) становится несколько более сложной и применить напрямую A* не получится. Вернее получится, но лишь для небольшого числа агентов (проклятье размерности, куда деваться). Тем не менее для централизованного случая, т. е. для случая, когда есть один (мощный) вычислитель, с которым связаны все агенты и который всё про всех знает, решить задачу много‑агентного планирования можно достаточно эффективно. Можно даже находить оптимальные решения для умеренного количества агентов за относительное приемлемое время (например, порядка 1 секунды на современном десктопном PC для 30–50 агентов).

Если же говорить о децентрализованном случае, т. е. о том случае, когда агентам необходимо действовать индивидуально (например, нет устойчивой связи с центральным контроллером), опираясь лишь на собственные (локальные) наблюдения и опыт, то с хорошими решениями задачи становится гораздо сложнее. Когда я говорю «хорошие решения», я имею в виду прежде всего такие алгоритмы, которые бы давали стройные теоретические гарантии в общем случае. Хотя бы гарантии того, что каждый агент дойдёт (за конечное время) до своей цели. Тем не менее, задача интересная и специалисты из индустрии и академии её пытаются решать.

В этом посте я расскажу о наших свежих наработках в этой области, а именно о гибридном методе, которые сочетает в себе принципы классического эвристического поиска (A*) и обучения с подкреплением (PPO). Метод получился неплохим, превосходящим многие современные аналоги по результатам экспериментов, а соответствующая статья была принята на The 38th AAAI Conference on Artificial Intelligence (пока доступен только препринт). Это одна из топовых академических конференций по искусственному интеллекту, которая в этом (2024) году проходила в Канаде (спойлер: я сам визу получить не успел, но моим коллегам и со‑авторам, кто имел ранее выданные Канадские визы, удалось принять личное участие и достойно представить нашу науку на мировом уровне).

Итак, поехали!

+27

Develp10 Mar 23 at 23:06

Лучшие бесплатные ресурсы для изучения этичного хакинга и кибербезопасности

Easy

6 min

34K

Information Security*

Информационная безопасность (ИБ) или кибербезопасность – это одна из самых важных и актуальныхобластей современной науки и технологий. В условиях постоянного развития интернета, киберпреступности и глобальной информатизации, специалисты по информационной безопасности востребованы как никогда.

ИБ занимаются защитой данных, систем и сетей от несанкционированного доступа, взлома, кражи, подделки и других угроз. Работа таких специалистов требует не только глубоких знаний в области математики, программирования, криптографии и юриспруденции, но и творческого мышления, аналитических способностей и умения решать сложные задачи.

Изучение информационной безопасности – это интересный и увлекательный процесс, который открывает перед вами множество возможностей для карьерного роста, профессионального развития и личностного совершенствования.

Платные курсы могут быть довольно дорогими, особенно если вы только начинаете изучать информационную безопасность. Тратить большие суммы денег на курсы может быть нецелесообразно.

В этой статье я собрал большой список курсов, книг, репозиториев и каналов на тематику кибербезопасности, которые помогут вам на пути становления белым хакером и подскажут какие перспективы вас ждут в этой области.🛡️

+43

AmneziaAdept Mar 21 at 21:25

Ыыыы ыыыыыыыыыы с помощью AmneziaЫЫЫ

3 min

61K

Information Security*Open source*Network technologies*Amnezia VPN corporate blog

Ну что теперь будем писать про VPN вот так?

Кстати, в Китае вместо слова VPN вы часто можете встретить «Science Online»（科学上网), «ladder»（梯子), или «Internet accelerator»（上网加速器), все это обозначает VPN. В России, кажется еще все не так плохо, но это не точно. С первого марта писать о VPN на русскоязычных площадках нельзя, наказание для площадок — блокировка на территории России. При этом считаются как новые статьи, так и статьи, опубликованные до вступления в силу приказа о запрете. В скором времени, крупные ресурсы будут блокировать любую информацию о VPN, поэтому мы настоятельно советуем подписываться на телеграм каналы разных VPN, в том числе на наш. Мы не знаем сколько еще статей нам отведено на Хабре, и как хабр дальше будет показывать статьи со словом VPN в разных странах.

А теперь о хорошем.

Самый ожидаемый нашими пользователями бесплатный VPN AmneziaFree v.2 c защитой от блокировок наконец‑то готов. Должны признаться, последнее время мы много работали над self‑hosted приложением AmneziaVPN, а так же над протоколом AmneziaWG (или по простому — AWG, его мы используем в бесплатном VPN), поэтому работа над проектом AmneziaFree v.2 немного затянулась. В любом случае, мы очень рады, что наконец можем пригласить Вас присоединиться к числу пользователей нашего бесплатного сервиса. Все так же, как и раньше, без регистрации, рекламы и ограничении по сроку работы.

Бесплатный VPN AmneziaFree v.2, можно использовать только для популярных недоступных на территории России сайтов (не будем их перечислять, вы и сами их знаете), список достаточно большой, поэтому, скорее всего, то что вам надо в нем есть. При этом, не заблокированные в России сайты, будут открываться напрямую, без VPN. То есть напрямую с Вашего IP‑адреса.

+135

124

tmat Mar 19 at 20:05

Сначала войдите через Телеграм

5 min

38K

Website development*Instant Messaging*

Tutorial

Как-то мне понадобилось ограничить доступ к статическому сайту. Я написал сервер, который просит пользователей войти через Телеграм и пропускает только людей из белого списка. Ничего сложного, но вдруг кому-то понадобится.

+61

nrsharip Mar 18 at 17:32

Основные типы распределений вероятностей в примерах

Medium

15 min

14K

Python*Algorithms*Mathematics*Statistics in ITInfographics

From sandbox

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

+58

2 3 ...

14 15