Статьи / Закладки / Профиль alextokarev / Хабр

Александр Токарев @alextokarev

Big Data Solutions Architect

Профиль Публикации 4Комментарии 24Закладки 20

maxim_babenko 27 сен 2016 в 11:02

YT: зачем Яндексу своя MapReduce-система и как она устроена

14 мин

83K

Анализ и проектирование систем*Блог компании ЯндексАлгоритмы*Big Data*Промышленное программирование*

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и ClickHouse. На встрече мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.

Какую задачу мы решаем?

По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.

Читать дальше →

+104

OlegStrekalovsky 22 ноя 2022 в 09:00

Приручая System Design Interview. Как его организовать и как к нему подготовиться

Средний

8 мин

11K

Высокая производительность*Анализ и проектирование систем*Карьера в IT-индустрии

Мнение

Технотекст 2022

Эта статья — о секции по проектированию систем, которая стала появляться на собеседованиях в российских компаниях. В ней за час предлагается проработать дизайн highload системы по функциональным и нефункциональным требованиям, тем самым предъявив эксперту свои знания сразу из множества областей.

Я поделюсь своими впечатлениями от участия в этом формате, рассмотрю проблемные моменты и предложу, что с ними можно сделать.

alextokarev 8 фев 2023 в 11:08

Платформа данных в Леруа Мерлен — как мы победили масштабирование

10 мин

6.6K

Big Data*Хранение данных*Блог компании Леруа МерленData Engineering*

Кейс

Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.

Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.

alextokarev 26 июл 2017 в 13:15

Dotty – будущее языка Scala

17 мин

19K

Программирование*Java*Scala*Блог компании ГК ЛАНИТ

В конце мая я оказался среди слушателей конференции Scala Days в Копенгагене. Одним из ключевых спикеров был создатель языка Scala Мартин Одерски. Он рассказал о развитии языка и, в частности, о разработке компилятора, названного Dotty. Планируется, что на основе Dotty будет разработан новый компилятор для версии 3.0.

Мартин не раз выступал на эту тему, и я бы хотел собрать здесь всю актуальную информацию о Dotty – новые ключевые возможности и элементы, удаленные за ненадобностью.

Мартин Одерски. План развития Scala на ближайшие несколько лет

Этот пост будет полезен и знатокам, и совсем новичкам, для которых разговор о Dotty я предваряю рассказом об особенностях Scala, а также о том, что лежит в его математической основе.

Читать дальше →

+28

netmepler 28 авг 2018 в 13:11

Тайм-менеджмент, или Эффективное управление хаосом

11 мин

72K

Управление персоналом*Карьера в IT-индустрииМозг

Каждый в той или иной степени ощущал нехватку времени, давление сроков, испытывал стресс от вынужденной спешки и зарекался: уж в следующий раз я точно буду тщательнее следить за временем, смогу заранее всё запланировать, не буду распыляться на много задач или, наоборот, превращусь в супермена и переделаю все дела сразу. Так какая же стратегия наиболее эффективна? Спешить или не спешить? Делать последовательно или параллельно?

Источник

Читать дальше →

+67

crazyhatter 21 авг 2018 в 11:13

Анатомия рекомендательных систем. Часть первая

14 мин

75K

Data Mining*Алгоритмы*Big Data*Машинное обучение*Блог компании ГК ЛАНИТ

Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Источник

Читать дальше →

+45

irg_team 14 авг 2018 в 11:20

«ОНА»: как мы придумали образы искусственного интеллекта

4 мин

9.7K

Обработка изображений*Медийная реклама*БрендингБлог компании ГК ЛАНИТИскусственный интеллект

Хабр, привет!

Я работаю в команде маркетинга Inventive Retail Group. Мы входим в группу ЛАНИТ. Один из наших активов — сеть монобрендовых магазинов re:Store. Я расскажу вам о том, как интернет-конкурс фотографии вырос в полноценную оффлайн-выставку. Из этой статьи вы узнаете, как выглядят кадры профессионального фотографа, снятые на iPhone, какую музыку слушает искусственный интеллект, где в Москве находится лучшее место для рекламного баннера.

+44

Consyst 7 авг 2018 в 11:03

5 «супернавыков», необходимых для работы будущего

7 мин

20K

Управление персоналом*Карьера в IT-индустрииБлог компании ГК ЛАНИТ

Перевод

ИТ-отрасль — это локомотив изменений, происходящих в нашей жизни в последние десятилетия. Причем они касаются сотрудников компании не только с точки зрения продуктов, которые мы внедряем для клиентов. Эти изменения сказываются на скорости освоения новых продуктов и технологий инженерами, аналитиками, программистами и руководителями.

Предлагаем вашему вниманию перевод статьи Стефани Воцца о навыках, которые необходимы тем, кто хочет быть востребован на рынке труда в перспективе. Мы в "Консист Бизнес Групп" сознаем важность качеств, описанных в ней, и поддерживаем автора. Также приглашаем поучаствовать в опросе об эффективности систем управления талантами и высказать свое мнение по теме статьи в комментариях.

Читать дальше →

+22

Savochkin 30 июл 2018 в 11:03

«Железные» ли люди делают софт?

4 мин

14K

Блог компании ГК ЛАНИТЛайфхаки для гиковЗдоровье

Мы собрали могучую команду на железную триатлонную эстафету IronStar 226, которая пройдет в Сочи 22 сентября 2018 года, и призываем ИТ-шников присоединится! Лучше всего — это собрать команду и зарубиться с нами… ну или в крайнем случае предлагаем просто поболеть с пивком за (пока) единственную ИТ-команду

Эстафета включает в себя три дисциплины (проходимые в указанной ниже последовательности):

3,8 км – плавание на открытой воде (плыву я);
180 км – велосипед по живописной трассе Адлер - Красная Поляна (поедет Дмитрий Сидельников);
42,2 км – бег (побежит Антон Старшов).

До старта еще два месяца. С дивана, конечно, команду не соберешь, но во многих ИТ-компаниях наверняка есть спортивные сотрудники, которые могут преодолеть указанные дистанции. Так что присоединяйтесь!

Зарегистрироваться можно тут. Стоимость – 20 000 руб за команду.

Надпись на плакате у милой девушки: "Железные люди – сексуальные". "Железные люди" – это те, кто преодолевают классическую дистанцию триатлона, пусть даже в эстафете ;-)

+40

Sabrina_U 24 июл 2018 в 11:13

Рыцари плаща и руткитов: что посмотреть про хакеров. Сериалы

8 мин

69K

Блог компании ГК ЛАНИТКиберпанкНаучно-популярноеНаучная фантастика

Лето — пора путешествий и заслуженного отдыха. Каким бы ни было путешествие и куда бы вы ни направлялись, наверняка, это будет длинная дорога (авиаперелет или поезд), или же среднего качества связь, если мы говорим об удаленных от благ цивилизации местах.

Обычно запасливые люди берут с собой в путешествие кучу фильмов и сериалов, чтобы было чем заткнуть уши в транспорте и слушать голоса любимых персонажей.

Мы приготовили для вас небольшую подборку сериалов, так или иначе связанных с ИT. А натолкнула нас на идею этого поста многолетняя дружба ЛАНИТ с Международным фестивалем документального кино "ДОКЕР", где, кстати, в том числе с нашей помощью традиционной стала номинация для фильмов о возможностях информационных технологий «Let IT Doк!».

Кадр из сериала «Mr. Robot» (eps3.1_undo.gz)

Читать дальше →

+85

Jericho135 17 июл 2018 в 11:12

Когда 2 х 3 = 2, или еще раз про виртуализацию данных

11 мин

10K

Виртуализация*Администрирование баз данных*Блог компании ГК ЛАНИТ

Всем привет! Слышали ли вы что-нибудь о феномене Баадера-Майнхофа? Это забавное когнитивное искажение, наблюдать которое, как оказалось, довольно интересно на собственном примере. В 2016 году на Хабре вышла обзорная статья про технологию Delphix. Как любая хорошая теория, которую ты потребляешь ежедневно тоннами, чтобы быть в курсе, ты начисто забываешь процентов 80, не применяя ее на практике. Так случилось и со мной – я довольно быстро забыл про тот пост и Delphix, пока где-то год назад по долгу службы не столкнулся с авторами продукта и с самим продуктом. Получив возможность изучить тему не в теории, а на практике, ЛАНИТ погрузился в данную технологию настолько глубоко, что в этой статье я бы хотел систематизировать полученные знания и проанализировать полученный опыт.

Картинка любезно предоставлена поисковой выдачей Яндекса.

Читать дальше →

+38

KorP 10 июл 2018 в 11:02

SolidFire — СХД для тех, who **cking hate storage

11 мин

8.6K

Системное администрирование*Хранение данных*Хранилища данных*Блог компании ГК ЛАНИТ

Появляется всё больше решений, которые уходят от традиционного подхода унифицированных хранилищ. Это специализированные хранилища, которые заточены под задачи определённого направления бизнеса. Ранее я уже рассказывал о системе Infinidat InfiniBox F2230. Сегодня в центре моего обзора SolidFire.

«Who f*cking hate storage» @ Дэйв Хитс, основатель компании NetApp

+36

Savochkin 3 июл 2018 в 11:04

Управление релизами на ГИС ЖКХ — делимся опытом и боремся с интуицией

17 мин

9.2K

Управление разработкой*Управление проектами*Блог компании ГК ЛАНИТ

Почему опоздать на авиарейс и не полететь — это не всегда плохо? Кто виноват в том, что вы опоздали на стыковку? Зачем приезжать в аэропорт заранее? Может ли полететь А380 в Астрахань? Почему интуиция не всегда работает? Неожиданности случаются — никогда не было и вот опять? Почему пассажиры хлопают пилоту после посадки?

Предположим, вы разрабатываете государственную информационную систему (ГИС) общероссийского масштаба. Проектная команда (аналитики, разработчики, тестировщики, служба поддержки, служба инфраструктуры и др.) составляет более сотни человек. Система была внедрена в опытную или в промышленную эксплуатацию. Тысячи организаций интегрировались с вашей системой и начали работать с ней, еще большее количество планирует интеграцию. Десятки тысяч организаций работают через Web-интерфейс. В системе для граждан размещается полезная информация, а также предоставляются интересные функции. Заказчик и/или пользователи требуют новых доработок. Миллионы людей по всей стране регистрируются и пользуются системой. От внешнего мира прилетают подарки в виде изменений цен на нефть, санкций, ограничений и т.д.

Представили? Так вот, именно таким проектом в настоящий момент является проект ГИС ЖКХ, о котором ранее мы начали рассказывать и теперь хотим продолжить.

Источник

Читать дальше →

+37

Ksentia 28 июн 2018 в 11:21

#2ХАКАТОН для молодых специалистов в Перми

1 мин

1.8K

Тестирование IT-систем*Программирование*Учебный процесс в ITКарьера в IT-индустрииБлог компании ГК ЛАНИТ

Друзья, 10-11 июля на базе механико-математического факультета Пермского государственного университета команда департамента корпоративных систем ЛАНИТ проведет двухдневный марафон для молодых специалистов по решению прикладных задач в области Enterprise разработки: #2ХАКАТОН.

Читать дальше →

+27

norbit 26 июн 2018 в 11:03

Не столицей единой: «НОРБИТ» открывает офисы разработки в регионах

5 мин

6.5K

Управление персоналом*Карьера в IT-индустрииБлог компании ГК ЛАНИТ

Любая ИТ-компания сталкивается с нехваткой кадров, и решение этого вопроса традиционно считается непростым. Многие компании привлекают на работу студентов московских вузов, а также хантят сотрудников из других структур, но сегодня мы хотим рассказать о другой практике, которая в нашем случае оказалась более результативной.

Разработчики нужны всегда, и если вы не относитесь к числу фрилансеров, работающих только удаленно, а также над специальными или индивидуальными проектами, то для многих путь в софтверную компанию выглядит так: переезд в крупный город с развитой ИТ-экспертизой, подача резюме в различные компании и выбор своего нового места работы в жестокой конкурентной борьбе.

Компании в основном используют симметричный подход: открывают свои представительства или филиалы в тех местах, где уже есть готовые кадры, и начинают искать контакты с вузами, привлекать студентов на свои стажерские программы или даже, чего греха таить, переманивать стажеров и сотрудников из конкурентных структур. До недавнего времени такой способ работы считался чуть ли не единственно возможным, но буквально за последние три года мы в «НОРБИТ» (входит в группу ЛАНИТ) убедились в том, что для офисов разработки можно применять совершенно иной подход.

Читать дальше →

+36

mxclg 19 июн 2018 в 11:02

Провалы футурологов. Идеи из фильмов, которые не осуществились

5 мин

33K

Блог компании ГК ЛАНИТНаучно-популярноеНаучная фантастикаБудущее здесь

Прогресс — это прекрасно. Современные технологии упрощают жизнь человека, делают ее безопаснее, а при должном уровне фантазии — еще и интереснее.

Фантасты часто создают на страницах своих произведений мир, повествующий нам не только о сложных ситуациях и моральном выборе людей из будущего, но и о гаджетах, новых технологиях, которые, по их предположениям, могут использоваться через годы.

Мы сейчас живем в то время, которое и было для писателей XX века будущим. Его они и пытались описать. Интересно сравнить их предположения с тем, что мы имеем сейчас. Мобильные устройства, беспроводная связь, лазеры на службе медицины и ВПК, умные протезы, неплохо прокачавшиеся со времен ноги Долговязого Джона Сильвера и прочее.

Бывает, что фантасты, авторы комиксов и фильмов рисовали в своем воображении устройства, которые представлялись им вполне себе возможными уже лет через 20, и при этом очень удобными и полезными. Однако реальность оказалась такова, что создать такой девайс людям будущего (то есть нам с вами) оказалось не под силу.

Работая в области информационных технологий, мы с вами постоянно сталкиваемся с новыми идеями. У нас в ЛАНИТ есть специальные команды, отвечающие за акселерацию внешних и внутренних стартапов. Тема изобретательства, инноваций, поиска жизнеспособных проектов нам очень близка.

Поэтому сегодня мы поговорим об устройствах, которые наверняка пригодились бы каждому, но которые современная наука не в силах воплотить в жизнь. Пока.

+26

189

alextokarev 13 июн 2018 в 11:05

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

25 мин

7.7K

Scala*Apache*Машинное обучение*Блог компании ГК ЛАНИТ

Часть 2: Решение

И снова здравствуйте! Сегодня я продолжу свой рассказ о том, как мы классифицируем большие объёмы данных на Apache Spark, используя произвольные модели машинного обучения. В первой части статьи мы рассмотрели саму постановку задачи, а также основные проблемы, которые возникают при организации взаимодействия между кластером, на котором хранятся и обрабатываются исходные данные, и внешним сервисом классификации. Во второй части мы рассмотрим один из вариантов решения данной задачи с использованием подхода Reactive Streams и его реализации с использованием библиотеки akka-streams.

Читать дальше →

+39

yrken 5 июн 2018 в 14:55

Чего стоит самое точное расписание электричек с 2003 года

5 мин

36K

Блог компании Туту.руУрбанизм

Расписание электричек — это то, с чего в 2003 году начинался Туту.ру. Сейчас я с гордостью могу сказать, что наше расписание иногда оказывается более точным, чем расписание перевозчика или РЖД, — это потому что мы очень быстро реагируем на обращения пассажиров и имеем эвристики для сравнения разных источников данных и их взаимокоррекций.

Старое бумажное расписание СПб — Оредеж

Началось всё так. Изначально в Интернете не было регулярно обновляемого расписания электричек. Точнее, было «бумажное». Просто сохранить расписание с вокзала или опубликовать то, что обычно размещают в разных брошюрках, — это бесполезно. В расписание вносится большое число временных изменений. Мы поставили цель — сделать регулярно обновляемое расписание.

Читать дальше →

+119

alextokarev 6 июн 2018 в 11:10

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

18 мин

13K

Scala*Apache*Машинное обучение*Блог компании ГК ЛАНИТ

Часть 1: Постановка задачи

Привет, Хабр! Я архитектор решений в компании CleverDATA. Сегодня я расскажу про то, как мы классифицируем большие объемы данных с использованием моделей, построенных с применением практически любой доступной библиотеки машинного обучения. В этой серии из двух статей мы рассмотрим следующие вопросы.

Как представить модель машинного обучения в виде сервиса (Model as a Service)?
Как физически выполняются задачи распределенной обработки больших объемов данных при помощи Apache Spark?
Какие проблемы возникают при взаимодействии Apache Spark с внешними сервисами?
Как при помощи библиотек akka-streams и akka-http, а также подхода Reactive Streams можно организовать эффективное взаимодействие Apache Spark с внешними сервисами?

Изначально я планировал написать одну статью, но так как объем материала оказался достаточно большим, я решил разбить ее на две части. Сегодня в первой части мы рассмотрим общую постановку задачи, а также основные проблемы, которые необходимо решить при реализации. Во второй части мы поговорим о практической реализации решения данной задачи с использованием подхода Reactive Streams.

Читать дальше →

+53

DTG_team 29 мая 2018 в 11:05

Ланитовские среды. Почему ЛАНИТ поверил в блокчейн

5 мин

6.1K

Децентрализованные сети*Информационная безопасность*Бизнес-модели*Блог компании ГК ЛАНИТ

В этой статье мы расскажем о внутреннем проекте для сотрудников группы ЛАНИТ — традиционных встречах с экспертами по актуальным технологическим темам, которые проходят в нашем центральном офисе по средам и называются соответственно «Своя среда». На одном из таких вечеров руководитель только что запущенного стартапа DTG Денис Реймер объяснил, почему группа ЛАНИТ видит перспективу в блокчейн-технологиях. Подробности — в нашем посте под катом.

Читать дальше →

+32