Articles / Bookmarks / Profile of divaka / Habr

How to become an author

Пользователь

Profile Publications Comments 12Bookmarks 43

Picard Dec 9 2020 at 16:52

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных

5 min

30K

Algorithms*Mathematics*Skillfactory corporate blogIT careerData Engineering*

Translation

Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science.

Приятного чтения!

+35

avsmal Feb 28 2020 at 18:09

Видео лекций Computer Science клуба

1 min

5.1K

Algorithms*Haskell*Compilers*Образовательные проекты JetBrains corporate blog

Computer Science клуб — это открытые лекции по компьютерным наукам в Санкт-Петербургском отделении Математического института РАН. Филиалы CS клуба действуют в Новосибирске и Казани.

Основная цель клуба — рассказывать о современном положением дел и знакомить с открытыми задачами в различных областях computer science. Например, вот курсы весеннего семестра в Петербурге одной картинке.

Все курсы открыты для посещения, вход свободный, регистрация не нужна.

Читать дальше →

+19

Leono Feb 18 2020 at 11:59

Как проверить навыки программирования на Python? Задачи от Яндекса

9 min

63K

Entertaining tasksPython*Яндекс corporate blogAlgorithms*

^{_{Хакатон в Школе бэкенд-разработки}}

В 2019 году нам потребовалось автоматизированно проверить умение писать Python-код у сотен разработчиков. Так мы отбирали будущих студентов для Школы бэкенд-разработки. Это не то же самое, что предложить решить задачу на листе бумаги, как на собеседовании. С другой стороны, мы также не могли переиспользовать условия задач, уже подготовленные для наших соревнований по программированию. Дело в том, что соревнования с целью определить лучших из лучших — это одно, а отбор специалистов с небольшим опытом в школу — совсем другое. Нам требовались задачи, по решению которых было бы видно, обладает ли разработчик базовыми навыками написания кода и умением грамотно использовать память и время. Вот какие условия мы составили.

Читать дальше →

+15

wowgamr Feb 10 2020 at 15:56

Открытие портов 4321 и 9898 на шлюзе Xiaomi Gateway 2

3 min

31K

Введение

Отдыхая на новогодних праздниках, я загорелся идеей создания «Умного дома». Среди «народных» экосистем наиболее популярным в силу дешевизны и обилия всевозможных подключаемых устройств мне сразу показалось решение от Xiaomi. Сразу отказавшись от управления своим домом через китайские сервера (возможные задержки, безопасность и привязка к устройствам одного производителя), я принялся изучать всевозможные системы управления умным домом и подбирать для них совместимое оборудование.

После часов поисков я решил, что мне подходит Home Assistant. Строить всё на начальном этапе я решил с использованием Raspberry Pi 4 Model B (2GB) и датчиков от Xiaomi. Купив шлюз (нужна версия с артикулом DGNWG02LM) и включив протокол связи локальной сети, я столкнулся с тем, что порты 4321 и 9898, необходимые для интеграции в Home Assistant, по-прежнему остались закрытыми.

Читать дальше →

+22

steanlab Jan 26 2020 at 21:14

Нет комарам! Обзор антимоскитных «фитобоеприпасов»

15 min

30K

Popular scienceBiotechnologiesLifehacks for geeksHealthEcology

Tutorial

Написав статью про растения отпугивающие клещей я получил большое количество вопросов по поводу других насекомых. И тут уж комары — лидеры. Им этот обзор и посвящается, объединил в одно сообщение все заметки из своего канала с хэштегом #mosquitocide…

Скажем НЕТ Комарам!

+56

AvanpostID Nov 29 2019 at 13:59

Автоматизация задач администрирования API VMware vSphere с использованием Python

4 min

19K

System administration*Python*DevOps*Avanpost corporate blog

В нашей компании активно используется платформа для виртуализации VMware vSphere. В ней живут тестовые среды продуктов, демонстрационные стенды, эмуляторы различных инфраструктур заказчиков и прочие не менее важные «виртуалки». Несмотря на достаточную мощность нашей инфраструктуры, доступ большого числа человек к управлению виртуальными машинами постоянно приводит к конфликтам и снижению производительности фермы. Разделение пулов между отделами (инженерами, тестировщиками, сейлами и разработчиками) проблему до конца не решает, поэтому периодически приходится разбираться, кто всем мешает и кто съел все ресурсы. При количестве виртуальных машин далеко за сотню сделать это вручную бывает проблематично, поэтому мы научились использовать API. VMware vSphere имеет довольно богатое API, которое незаслуженно слабо освещено на Хабре, хотя прикладная область применения довольна широка.

В данной статье будут приведены примеры взаимодействия в рамках задач администрирования с помощью Python.

Читать дальше →

+13

Leono Oct 31 2019 at 11:47

Blackbox-мониторинг в Clos-сетях. Доклад Яндекса

10 min

5.3K

Яндекс corporate blogIT Infrastructure*Network technologies*Network hardware

Топология современных дата-центров и устройства в них уже не позволяют довольствоваться исключительно whitebox-мониторингом. С течением времени понадобился инструмент, который покажет работоспособность конкретных устройств, исходя из реальной ситуации с передачей трафика (dataplane) в любом месте Clos-сети. Несколько недель назад на конференции Next Hop сетевой инженер Яндекса Александр Клименко поделился опытом решения этой проблемы.

— Я работаю в отделе эксплуатации и развития сети Яндекса, и меня иногда заставляют решать какие-то проблемы, вместо того чтобы рисовать на листочках красивые облачка или изобретать светлое будущее. Приходят люди и говорят, что у них что-то не работает. Если это дело мониторить, если наши дежурные инженеры будут видеть, что именно не работает, то мне самому будет легче. Так что эти полчаса будут посвящены мониторингу.

Читать дальше →

+16

dangrebenkin Oct 8 2019 at 19:06

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

7 min

31K

Machine learning*Learning languagesNatural Language Processing*

Tutorial

Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.

Читать дальше →

+22

eshulyndina Oct 2 2019 at 13:36

Топ-10 докладов с DevOpsDays Moscow

4 min

4.6K

System administration*IT Infrastructure*Cloud computing*DevOps*Человек наук corporate blog

Третья конференция для энтузиастов DevOps DevOpsDays Moscow 2019 пройдет 7 декабря. Мы собрали для вас подборку из десяти самых популярных докладов с двух предыдущих конференций. Все доклады вы можете посмотреть на YouTube-канале.

Сервисы-сироты: обратная сторона (микро)сервисной архитектуры
Андрей Никольский (Банки.ру)

Сервисная архитектура популярна: модная, удобная для разработки и менеджмента, результат быстрый и наглядный. Поначалу легко и непринужденно развертывается, поддерживается и развивается. В какой-то печальный момент всё разваливается и не всегда собирается обратно быстро и без потерь. Рецепт, как не оказаться у разбитого корыта, в общем-то, простой. Тут, как с авто: вовремя делать ТО и вовремя избавиться. Директор по эксплуатации портала Банки.ру Андрей Никольский рассказал в докладе про обратную сторону микросервисной архитектуры.

Читать дальше →

+10

Stantin Sep 24 2019 at 04:51

Робот-танк на Raspberry Pi с Intel Neural Computer Stick 2

7 min

15K

Python*Image processing*Machine learning*Development for Raspberry Pi*Artificial Intelligence

Вот и наступил новый этап в развии Raspberry-танка.

В предыдущей серии оказалось, что семантическая сегментация из коробки не по зубам Raspberry.

Мозговой штурм и комментарии позволили определить следующие направления развития:

обучить собственную E-net сеть под нужный размер картинок
передать запуск нейросети с самой Raspberry на специальную железку, из которых наиболее часто упоминался Intel Movidius (он же Neural Compute Stick aka NCS).

Приделать к роботу новую железку — это же самое интересное в роботехнике, поэтому кропотливая работа по обучению нейросети оказалась отложенной до лучших времен.

Несколько дней — и интеловская чудо-железка у меня в руках.

Она довольно большая, и в нижний USB разъем малинки ее не воткнешь. Учитывая, что правые USB порты были заслонены штативом камеры, а верхний левый занят GPS модулем, вариантов оставалось не то, чтобы много.

В итоге, GPS был посажен на кабель, переведен вниз, и кабель обернут вокруг штатива, а на его место зашел NCS.

На этом hardware часть была завершена.

Читать дальше →

+18

ru_vds Mar 4 2019 at 12:10

Руководство по использованию pandas для анализа больших наборов данных

16 min

154K

System Analysis and Design*Big Data*Data storage*RUVDS.com corporate blog

Tutorial

Translation

При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании наборов данных, размеры которых могут достигать нескольких гигабайт, проблемы с производительностью могут приводить к значительному увеличению длительности анализа данных и даже могут становиться причиной невозможности проведения анализа из-за нехватки памяти.

В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт), для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение. И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных. Для наборов данных средних размеров лучше всего попытаться более эффективно использовать pandas, а не переходить на другие инструменты.

В материале, перевод которого мы публикуем сегодня, мы поговорим об особенностях работы с памятью при использовании pandas, и о том, как, просто подбирая подходящие типы данных, хранящихся в столбцах табличных структур данных DataFrame, снизить потребление памяти почти на 90%.

Читать дальше →

+26

ph_piter Sep 17 2019 at 13:22

Книга «Глубокое обучение с подкреплением на Python. OpenAI Gym и TensorFlow для профи»

5 min

8.7K

Python*Издательский дом «Питер» corporate blogProfessional literature*

Привет, Хаброжители! Глубокое обучение с подкреплением (Reinforcement Learning) — самое популярное и перспективное направление искусственного интеллекта. Практическое изучение RL на Python поможет освоить не только базовые, но и передовые алгоритмы глубокого обучения с подкреплением. Эта книга предназначена для разработчиков МО и энтузиастов глубокого обучения, интересующихся искусственным интеллектом и желающих освоить метод обучения с подкреплением. Прочитайте эту книгу и станьте экспертом в области обучения с подкреплением, реализуя практические примеры в работе или вне ее. Знания в области линейной алгебры, математического анализа и языка программирования Python помогут вам понять логику изложения материала.

Читать дальше →

+9

ph_piter Sep 10 2019 at 12:15

Книга «Data mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub»

8 min

9K

Data Mining*Издательский дом «Питер» corporate blogProfessional literature*

Привет, Хаброжители! В недрах популярных социальных сетей — Twitter, Facebook, LinkedIn и Instagram — скрыты богатейшие залежи информации. Из этой книги исследователи, аналитики и разработчики узнают, как извлекать эти уникальные данные, используя код на Python, Jupyter Notebook или контейнеры Docker. Сначала вы познакомитесь с функционалом самых популярных социальных сетей (Twitter, Facebook, LinkedIn, Instagram), веб-страниц, блогов и лент, электронной почты и GitHub. Затем приступите к анализу данных на примере Twitter. Прочитайте эту книгу, чтобы:

Узнать о современном ландшафте социальных сетей;
Научиться использовать Docker, чтобы легко оперировать кодами, приведёнными в книге;
Узнать, как адаптировать и поставлять код в открытый репозиторий GitHub;
Научиться анализировать собираемые данные с использованием возможностей Python 3;
Освоить продвинутые приемы анализа, такие как TFIDF, косинусное сходство, анализ словосочетаний, определение клика и распознавание образов;
Узнать, как создавать красивые визуализации данных с помощью Python и JavaScript.

Читать дальше →

+10

p0b0rchy Aug 21 2019 at 11:40

Deep Learning vs common sense: разрабатываем чат-бота

14 min

13K

Algorithms*Конференции Олега Бунина (Онтико) corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

Чем больше пользователей у вашего сервиса, тем выше вероятность, что им понадобится помощь. Чат с техподдержкой — очевидное, но довольно дорогое решение. Но если применить технологии машинного обучения, можно неплохо сэкономить.

Отвечать на простые вопросы сейчас может и бот. Более того, чат-бота можно научить определять намерения пользователя и улавливать контекст так, чтобы он мог решить большинство проблем пользователей без участия человека. Как это сделать, помогут разобраться Владислав Блинов и Валерия Баранова — разработчики популярного помощника Олега.

Двигаясь от простых методов к более сложным в задаче разработки чат-бота, разберем вопросы практической реализации и посмотрим, какой прирост качества можно получить и сколько это будет стоить.

+33

zoldaten Aug 20 2019 at 18:14

Как обойти капчу: нейросеть на Tensorflow,Keras,python v числовая зашумленная капча

7 min

44K

Python*Machine learning*Artificial Intelligence

Tutorial

Тема капч не нова, в том числе для Хабра. Тем не менее, алгоритмы капч меняются, как и алгоритмы их решения. Поэтому, предлагается помянуть старое и прооперировать следующий вариант капчи:

попутно понять работу простой нейросети на практике, а также улучшить ее результаты.

Читать дальше →

+15

EddyLan Aug 5 2019 at 14:07

Телега для датасайентиста

15 min

52K

Configuring Linux*System administration*Python*Machine learning*Open Data Science corporate blog

Tutorial

How to deploy Python Telegram bot using Webhooks on Google Cloud Platform

Вместо предисловия

— Напиши телеграм-бота. Сейчас даже школьники пишут, — сказала она.
— А почему бы и нет, — подумал я тогда ( — Ну, ну, — сказал бы я сейчас).

Мы сидели в Бине и за чашкой кофе обсуждали возможности тестирования идей с моделями искусственного интеллекта на близком и не очень круге друзей. Лена, моя бывшая коллега, и во всех отношениях не блондинка, только что закончившая магистратуру, рассуждала так. Создав бота, можно сэкономить силы и время на интерфейсе, сосредоточившись на ядре с машинным обучением. Согласитесь, что устоять против такой логики “спортсменки, комсомолки и просто красавицы” в то прекрасное воскресное утро было невозможно. Решено. Телеграм-бот, значит телеграм-бот.

Первым делом я залез в гугл и нашел большое число ссылок “как сделать бот за 30 минут”. Это меня настолько воодушевило, что дальше названий я не пошел и занялся созданием ядра. В самом первом приближении мне предстояло написать систему обработки поисковых запросов с использованием NLP (natural language processing). Написание ядра заняло некоторое, вполне разумное, время (все же опыт кока-колой не пропить). И через несколько дней я был готов к тому, чтобы за пару часов обернуть первую тестовую версию ядра в пару другую команд send-receive, запустив все это в Телеграме на благо моим друзьям. Но не тут-то было.

Неожиданно возник целый клубок проблем. Потратив пару дней на поиски в интернете и общение с коллегами по цеху, я понял, что очевидное не очевидно, и еще одна “инструкция” точно не повредит. Так и появилась эта статья.

Читать дальше →

+41

cointegrated Aug 3 2019 at 01:11

Создание простого разговорного чатбота в python

7 min

49K

Python*Data Mining*Machine learning*Natural Language Processing*

Tutorial

Как вы думаете, сложно ли написать на Python собственного чатбота, способного поддержать беседу? Оказалось, очень легко, если найти хороший набор данных. Причём это можно сделать даже без нейросетей, хотя немного математической магии всё-таки понадобится.

Идти будем маленькими шагами: сначала вспомним, как загружать данные в Python, затем научимся считать слова, постепенно подключим линейную алгебру и теорвер, и под конец сделаем из получившегося болтательного алгоритма бота для Телеграм.

Этот туториал подойдёт тем, кто уже немножко трогал пальцем Python, но не особо знаком с машинным обучением. Я намеренно не пользовался никакими nlp-шными библиотеками, чтобы показать, что нечто работающее можно собрать и на голом sklearn.

Читать дальше →

+28

ru_vds Jul 31 2019 at 12:32

Разработка надёжных Python-скриптов

10 min

71K

Website development*Python*RUVDS.com corporate blog

Translation

Python — это язык программирования, который отлично подходит для разработки самостоятельных скриптов. Для того чтобы добиться с помощью подобного скрипта желаемого результата, нужно написать несколько десятков или сотен строк кода. А после того, как дело сделано, можно просто забыть о написанном коде и перейти к решению следующей задачи.

Если, скажем, через полгода после того, как был написан некий «одноразовый» скрипт, кто-то спросит его автора о том, почему этот скрипт даёт сбои, об этом может не знать и автор скрипта. Происходит подобное из-за того, что к такому скрипту не была написана документация, из-за использования параметров, жёстко заданных в коде, из-за того, что скрипт ничего не логирует в ходе работы, и из-за отсутствия тестов, которые позволили бы быстро понять причину проблемы.

При этом надо отметить, что превратить скрипт, написанный на скорую руку, в нечто гораздо более качественное, не так уж и сложно. А именно, такой скрипт довольно легко превратить в надёжный и понятный код, которым удобно пользоваться, в код, который просто поддерживать как его автору, так и другим программистам.

Автор материала, перевод которого мы сегодня публикуем, собирается продемонстрировать подобное «превращение» на примере классической задачи «Fizz Buzz Test». Эта задача заключается в том, чтобы вывести список чисел от 1 до 100, заменив некоторые из них особыми строками. Так, если число кратно 3 — вместо него нужно вывести строку Fizz, если число кратно 5 — строку Buzz, а если соблюдаются оба этих условия — FizzBuzz.

Читать дальше →

+36

germn Jul 25 2019 at 12:04

5 главных алгоритмов сэмплинга

4 min

29K

Python*Programming*Data Mining*Algorithms*Big Data*

Translation

Работа с данными — работа с алгоритмами обработки данных.

И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций.

Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.

Читать дальше →

+13

Syurmakov Jul 25 2019 at 21:29

Осваиваем компьютерное зрение — 8 основных шагов

3 min

99K

Python*Programming*Data Mining*Big Data*Machine learning*

Привет, читатель.

Для тебя уже не является новостью тот факт, что все на себе попробовали маски старения через приложение Face App. В свою очередь для компьютерного зрения есть задачи и поинтереснее этой. Ниже представлю 8 шагов, которые помогут освоить принципы компьютерного зрения.

Прежде, чем начать с этапов давайте поймём, какие задачи мы с вами сможем решать с помощью компьютерного зрения. Примеры задач могут быть следующими:

+30

1