Articles / Bookmarks / Profile of serhit / Habr

How to become an author

Хитрин Сергей @serhit

Бизнес-анализ, управление проектами, разработка

Profile Publications 11Comments 43Bookmarks 202

hommforever Apr 16 at 13:01

Яндекс запустил Нейро. Рассказываем, как он работает

Medium

14 min

44K

Search engines*Яндекс corporate blogAlgorithms*Machine learning*Artificial Intelligence

Сегодня мы запустили новый сервис Нейро — новый способ поиска ответов на вопросы. Пользователь может задать Нейро любой вопрос, а тот сам подберёт подходящие материалы в Поиске, проанализирует их и соберёт найденную информацию в одном ответе, подкрепив его ссылками на источники. Нейро объединил опыт Яндекса в создании поисковых технологий и больших языковых моделей.

Меня зовут Андрей Сюткин, и я отвечаю за ML-трек в Нейро. В этой статье покажу, как выглядит архитектура Нейро и как формируются ответы на технологическом уровне. Ну и, конечно же, поговорим о нейросетях, в том числе о YandexGPT 3, без обучения которых новый сервис просто не увидел бы свет.

Читать далее

+88

veseluha Apr 13 at 18:00

Решение систем линейных уравнений с помощью Python

7 min

7.3K

Python*Mathematics*BotHub corporate blog

Как‑то я наткнулась на статью, где говорилось о SymPy, а именно о возможности решения систем уравнений с ее помощью. Если кратко, то это бесплатная библиотека для символьных вычислений на языке Python. В символьных вычислениях компьютер работает с уравнениями и выражениями как с последовательностью символов, тогда как в численных оперирует приближёнными числовыми значениями.

И поскольку линейные уравнения встречаются не только в математике, а также и в физике, и в ифнформатике, и во многих других областях, мне бы хотелось рассмотреть возможность их решения с Python.

Приятного прочтения )

Читать далее

+12

difhel Apr 13 at 14:10

Вы должны перестать вручную писать Dockerfile'ы

Medium

3 min

50K

Translation

Вы тоже устали вручную заполнять Dockerfile и docker-compose.yaml под каждый новый проект?

Я всегда задумывался, применяю ли я известные best practices, когда пишу конфиг для Docker, и не занесу ли я случайно какие-нибудь уязвимости, вручную заполняя конфиг-файлы.

Что же, теперь мне больше не придется беспокоиться об этом, благодаря добрым людям из Docker, которые недавно реализовали инструмент для этого - docker init .

Интересно, как экономить время и быстро генерировать конфиги, даже если вы не профи в Docker? Прошу под кат.

Читать далее

+76

nrsharip Apr 11 at 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Medium

15 min

6.1K

Python*Algorithms*Mathematics*Statistics in ITInfographics

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее

+24

vladis_rich Mar 22 at 12:07

Как оценка актуальности резюме помогла работодателям эффективнее находить кандидатов

8 min

5.1K

Machine learning*AvitoTech corporate blog

Владислав Урих, продуктовый аналитик Авито Работы, рассказал, как мы придумали новый подход к оценке актуальности резюме, и, благодаря этому, увеличили количество сделок, повысили retention работодателей в повторную покупку, и выросли в выручке категории.

Читать далее

+5

egaoharu_kensei Mar 8 at 22:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Hard

34 min

13K

Python*Data Mining*Algorithms*Machine learning*Artificial Intelligence

Tutorial

✏️ Technotext 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

Читать далее

+36

Serg_SH Mar 6 at 10:37

Типовой процесс разработки решений на базе ИИ и типовые ошибки при их внедрении

6 min

2.3K

ГК ICL corporate blogMachine learning*Development Management*Artificial Intelligence

Opinion

Когда мы говорим про решения на базе ИИ, кто-то может представлять себе просто обученные модели машинного обучения или нейросети, кто-то магический черный ящик, который умеет «делать магию» и желательно с «точностью 100%», а кто-то просто кусок кода, который надо заставить работать. И с определенной точки зрения каждый будет прав. Кто и в какой части прав, как все происходит чаще всего и какие типовые ошибки ждут на пути внедрения решений на базе ИИ – об этом решил рассказать в статье ниже.

Читать далее

+3

Flokis_guy Mar 6 at 13:31

WaveSync: Новый путь к нелинейному анализу эмбеддингов

Medium

8 min

2.3K

Mathematics*Machine learning*Natural Language Processing*

WaveSync — новый алгоритм для детального, нелинейного и быстрого анализа сходства эмбеддингов и векторов.

Алгоритм является в большинстве задач заменой линейному косиносному сходству. Он позволяет улучшить точность обработки языка и открывает новые перспективы для разработчиков и исследователей в области NLP.

Читать далее

+6

rahmanny Feb 20 at 13:31

Пароли в открытом доступе: ищем с помощью машинного обучения

Medium

18 min

9.5K

Information Security*.NET*C#*Machine learning*Lamoda Tech corporate blog

Tutorial

✏️ Technotext 2023

Я больше 10 лет работаю в IT и знаю, что сложнее всего предотвратить риски, связанные с человеческим фактором.

Мы разрабатываем самые надежные способы защиты. Но всего один оставленный в открытом доступе пароль сведет все усилия к нулю. А чего только не отыщешь в тикетах Jira, правда?

Привет, меня зовут Александр Рахманный, я разработчик в команде информационной безопасности в Lamoda Tech. В этой статье поделюсь опытом, как мы ищем в корпоративных ресурсах чувствительные данные — пароли, токены и строки подключения — используя самописный ML-плагин. Рассказывать о реализации буду по шагам и с подробностями, чтобы вы могли создать такой инструмент у себя, даже если ML для вас — незнакомая технология.

Читать далее

+30

heinrich_wirth Feb 20 at 15:01

Классификация облака точек с ограниченными данными: воксели и сиамские сети

Medium

8 min

2.2K

Python*Machine learning*Artificial Intelligence

Case

После первого поста на Хабре моя карьера сделала неожиданный поворот, и я оказался перед непростой задачей классификации, которая потребовала от меня изучения новых для себя архитектур и подходов. В этой статье я поделюсь опытом решения задачи классификации облака точек, имея лишь 10 примеров для каждого класса. Мы поговорим о том, как преобразование данных в воксельное представление и использование сиамских нейронных сетей с 3D свертками помогло достичь отличных результатов.

Читать далее

+3

Fid0 Feb 10 at 10:30

Увеличиваем оперативную память программиста, тренируясь в dual-n-back

Medium

9 min

8.8K

Lifehacks for geeksBrainHealth

Однажды я заметил, что мне сложно уследить за логикой внутри третьего вложенного цикла. Значения переменных в голове уплывали от меня по мере того, как я представлял, как они должны меняться по ходу кода.

После этого я задумался, как бы мне увеличить мозговой ресурс для решения подобных задач. И вбил в поисковик “Увеличение оперативной памяти человека”.

Через N времени гугления я наткнулся на ряд ссылок, ведущих к упражнению «Задача n‑назад», наиболее распространенный вариант которой называется «dual‑n-back».

Увеличить оперативную память

+25

ER_LONGBORDER Feb 8 at 15:53

Merlion Framework или как упростить работу с временными рядами

11 min

2.8K

Python*Programming*Data visualization*Machine learning*Sportmaster Lab corporate blog

Единственная причина для существования времени — чтобы все не случилось одновременно.

Альберт Эйнштейн

Привет! Меня зовут Дмитрий, я дата-инженер в SM Lab, и в этом посте хочу рассказать вам о Merlion Framework. В посте мы рассмотрим его архитектуру, полезные функции и отличия от аналогов, разберём пару практических примеров, а также посмотрим, как всё считать и на какие метрики стоит обращать внимание.

В нашем мире время является незаметным четвертым измерением, по оси которого можно упорядочивать разные события.

Временной ряд – это набор данных, описывающих изменения какой-либо переменной во времени.

Задача анализа и предсказания временных рядов остаётся актуальной для бизнеса, ведь для успешного планирования возникает необходимость прогнозирования, например, следующих показателей:

Читать далее

+19

mr-pickles Feb 5 at 12:22

Оффлайновое использование Git

Easy

6 min

12K

Website development*Git*Server Administration*Wunder Fund corporate blog

Translation

Некоторые компании, защищая свои системы от несанкционированного доступа, используют изолированные компьютерные сети, или полностью обходятся без сетей. Работа в таких системах может быть сопряжена со сложностями, но нельзя сказать, что в них невозможно разрабатывать программные проекты. А особую важность в подобных ситуациях имеет подбор подходящего инструмента для контроля версий наподобие Git.

Система контроля версий Git вполне благополучно работает без удалённого репозитория. Такова её природа. При таком подходе можно создавать ветви репозитория, можно индексировать файлы и коммитить их в репозиторий. Всё выглядит так же, как и при обычной работе.

Читать далее

+36

zumrus Jan 31 at 17:15

От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023

Medium

8 min

1.3K

Big Data*Machine learning*Artificial IntelligenceAIRI corporate blog

Digest

Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.

Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.

О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.

Читать далее

+6

vladimirkhrypun Feb 1 at 13:34

Как сэкономить четверть бюджета проекта внедрения с помощью чек-листа качества бизнес-требований

7 min

4.9K

System Analysis and Design*Project management*Technical Writing*Первая грузовая компания (ПГК) corporate blog

Привет, Хабр! Я Владимир Хрыпун, руководитель центра компетенций по развитию BPM-систем. Если кратко, то когда у вас в компании есть бизнес-процесс регулярно повторяющиеся действия приводящие к нужным и прогнозируемым результатам, и вы хотите (или собственник бизнеса), чтобы эти результаты были лучше, потерь меньше и вообще все были счастливы и купили по ламбаргини, то вам нужна такая команда как наша. Мы помогаем частично или полностью автоматизировать бизнес-процессы компании.

Эта статья о чек-листе анализа полноты бизнес-требований для проектов цифровой трансформации.

Чем больше людей работает в процессе, тем больше будет эффект от внедрения bpm-системы. Представим, что операционный бизнес – это грузоперевозки, в бизнесе около 100 000 вагонов. У вас тысячи клиентов и сотни сотрудников. И допустим, что один из процессов – это согласование с клиентом маршрута, по которому пойдет груз. Результат: маршрут согласован, вагоны готовим под погрузку. В процессе участвует несколько отделов, выполняющих различные роли, и ежедневно сотрудники компании делают сотни действий, чтобы добиться результата – такие процессы называют сквозными, они большие, сложные, но жизненно важные для бизнеса. Экономические эффекты в таком проекте можно достичь упростив процесс, сложные или редко используемые шаги сделать понятными для сотрудников. Самый яркий пример – это “Вкусно и точка” *). Они не делают самые вкусные бургеры, зато они делают их быстро и с гарантированным уровнем качества. Сложные процессы упрощены и там, где это возможно, автоматизированы. Поэтому за 5 минут мы можем купить дешевый бургер, а компания на этом зарабатывает миллионы – все счастливы (особенно акционеры))).

Читать далее

+1

EvgeniyZemskiy Feb 1 at 14:01

Ускоряем анализ данных в 170 000 раз с помощью Python

Medium

15 min

18K

Python*Perfect code*МойОфис corporate blog

Translation

В статье «Ускоряем анализ данных в 180 000 раз с помощью Rust» показано, как неоптимизированный код на Python, после переписывания и оптимизации на Rust, ускоряется в 180 000 раз. Автор отмечает: «есть множество способов сделать код на Python быстрее, но смысл этого поста не в том, чтобы сравнить высокооптимизированный Python с высокооптимизированным Rust. Смысл в том, чтобы сравнить "стандартный-Jupyter-notebook" Python с высокооптимизированным Rust».

Возникает вопрос: какого ускорения мы могли бы достичь, если бы остановились на Python?

Под катом разработчик Сидни Рэдклифф* проходит путь профилирования и итеративного ускорения кода на Python, чтобы выяснить это.

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис.

Читать далее

+56

randall Jan 18 at 18:37

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Easy

6 min

15K

CloudMTS corporate blogProfessional literature*Machine learning*МТС corporate blogArtificial Intelligence

Review

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Читать далее

+17

Mark_K Jan 22 at 09:15

Как сделать чат-бота лучше, нужен всего лишь простой советский… RAGAS

8 min

5K

Machine learning*

Tutorial

В вводной части обзора мы познакомились с концепцией Retrieval Augmented Generation (RAG) и её расширением через методологию RAGAS (Retrieval Augmented Generation Automated Scoring). Мы разобрались, как RAGAS подходит к процессу оценки эффективности и точности RAG-систем.

В этой части мы более подробно рассмотрим техническую сторону RAGAS. Как обычно, начнем с более простых и интуитивно понятных примеров, потом перейдем к более сложным сценариям.

Читать далее

+13

smlab_analyst Jan 11 at 16:57

Есть проблема? Нет проблем. Инструменты принятия решений

Easy

7 min

8.8K

System Analysis and Design*Project management*Product Management*BrainSportmaster Lab corporate blog

Tutorial

Привет, Хабр! Меня зовут Ирина Ремизова, я куратор департамента системного анализа Sportmaster Lab, где, собственно, и курирую системных аналитиков, развивая их и рассказывая про инструменты принятия решений.

В этом посте расскажу про три инструмента, которые я использую в работе, и приведу ряд практических примеров. Если у вас иногда бывают проблемы с принятием решений (а таких проблем обычно достаточно, как и вызывающих их факторов), то, возможно, пост вам пригодится.

Начнём мы с ББМ. Это аббревиатура из трех слов, которая представляет собой три реакции человека при принятии решения. Боль (приобретение или потеря), боязнь сделать неправильное решение (верно или неверно) и муки (а что было бы, если…).

Почему бывает так трудно?

Когда у нас есть много факторов, или наоборот — их недостаточно, или мы не знаем, какие есть переменные в этих факторах, то возникает неопределенность. Вторая причина — сложность. Факторов может быть бесконечное множество, они могут быть запутаны в своих связях либо вообще исключать друг друга. У высокого риска есть последствия: наше решение влияет на нас, на окружающих людей, наши решения могут привести к радикальным изменениям судьбы.

Ещё есть межличностные проблемы. Вы приняли какое-то решение, которое повлияло на кого-то другого. Реакция этого человека тоже влияет на вас, поэтому при принятии решения можно сохранить отношения (или потерять их).

Последнее — безумное количество вариантов и альтернатив наших решений. Мы будем их перебирать, будем оценивать каждое из них, у каждого есть какой-то риск или какая-то цена. Такое большое количество альтернатив рождает трудность выбора.

Читать далее

+26

dmitrykabanov Jan 20 at 13:21

Неклассическое чтение для руководителей: книги по стратегическому управлению от ведущих ученых и отчеты аналитиков

Easy

8 min

8.5K

Professional literature*Start-up developmentProduct Management*Reading roomBusiness Models*

Предлагаю оставить бизнес-литературу с «успешным успехом» в стороне и изучить материалы, подготовленные ведущими учеными в области стратегического менеджмента, а во второй половине подборки — обратить внимание на необычные статистические сборники и отчеты, которые вы скорее всего не встречали ранее. Рассказываю, что внутри, и сколько времени потребуется на изучение.

Читать далее

+9

1

2 3 ...