Как стать автором
Обновить
49
-3
Александр Токарев @alextokarev

Big Data Solutions Architect

Отправить сообщение

YT: зачем Яндексу своя MapReduce-система и как она устроена

Время на прочтение14 мин
Количество просмотров83K
В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.



Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и ClickHouse. На встрече мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.

Какую задачу мы решаем?


По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.

Читать дальше →
Всего голосов 108: ↑106 и ↓2+104
Комментарии45

Приручая System Design Interview. Как его организовать и как к нему подготовиться

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров11K

Эта статья о секции по проектированию систем, которая стала появляться на собеседованиях в российских компаниях. В ней за час предлагается проработать дизайн highload системы по функциональным и нефункциональным требованиям, тем самым предъявив эксперту свои знания сразу из множества областей.

Я поделюсь своими впечатлениями от участия в этом формате, рассмотрю проблемные моменты и предложу, что с ними можно сделать.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии3

Платформа данных в Леруа Мерлен — как мы победили масштабирование

Время на прочтение10 мин
Количество просмотров6.6K

Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.

Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.

Читать далее
Всего голосов 13: ↑11 и ↓2+9
Комментарии17

Dotty – будущее языка Scala

Время на прочтение17 мин
Количество просмотров19K
В конце мая я оказался среди слушателей конференции Scala Days в Копенгагене. Одним из ключевых спикеров был создатель языка Scala Мартин Одерски. Он рассказал о развитии языка и, в частности, о разработке компилятора, названного Dotty. Планируется, что на основе Dotty будет разработан новый компилятор для версии 3.0.

Мартин не раз выступал на эту тему, и я бы хотел собрать здесь всю актуальную информацию о Dotty – новые ключевые возможности и элементы, удаленные за ненадобностью.


Мартин Одерски. План развития Scala на ближайшие несколько лет

Этот пост будет полезен и знатокам, и совсем новичкам, для которых разговор о Dotty я предваряю рассказом об особенностях Scala, а также о том, что лежит в его математической основе.
Читать дальше →
Всего голосов 28: ↑28 и ↓0+28
Комментарии51

Тайм-менеджмент, или Эффективное управление хаосом

Время на прочтение11 мин
Количество просмотров72K
Каждый в той или иной степени ощущал нехватку времени, давление сроков, испытывал стресс от вынужденной спешки и зарекался: уж в следующий раз я точно буду тщательнее следить за временем, смогу заранее всё запланировать, не буду распыляться на много задач или, наоборот, превращусь в супермена и переделаю все дела сразу. Так какая же стратегия наиболее эффективна? Спешить или не спешить? Делать последовательно или параллельно?   

Источник
Читать дальше →
Всего голосов 73: ↑70 и ↓3+67
Комментарии61

Анатомия рекомендательных систем. Часть первая

Время на прочтение14 мин
Количество просмотров75K
Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Источник
Читать дальше →
Всего голосов 55: ↑50 и ↓5+45
Комментарии15

«ОНА»: как мы придумали образы искусственного интеллекта

Время на прочтение4 мин
Количество просмотров9.7K
Хабр, привет!

Я работаю в команде маркетинга Inventive Retail Group. Мы входим в группу ЛАНИТ. Один из наших активов — сеть монобрендовых магазинов re:Store. Я расскажу вам о том, как интернет-конкурс фотографии вырос в полноценную оффлайн-выставку. Из этой статьи вы узнаете, как выглядят кадры профессионального фотографа, снятые на iPhone, какую музыку слушает искусственный интеллект, где в Москве находится лучшее место для рекламного баннера.


Всего голосов 56: ↑50 и ↓6+44
Комментарии20

5 «супернавыков», необходимых для работы будущего

Время на прочтение7 мин
Количество просмотров20K
ИТ-отрасль — это локомотив изменений, происходящих в нашей жизни в последние десятилетия. Причем они касаются сотрудников компании не только с точки зрения продуктов, которые мы внедряем для клиентов. Эти изменения сказываются на скорости освоения новых продуктов и технологий инженерами, аналитиками, программистами и руководителями.

Предлагаем вашему вниманию перевод статьи Стефани Воцца о навыках, которые необходимы тем, кто хочет быть востребован на рынке труда в перспективе. Мы в "Консист Бизнес Групп" сознаем важность качеств, описанных в ней, и поддерживаем автора. Также приглашаем поучаствовать в опросе об эффективности систем управления талантами и высказать свое мнение по теме статьи в комментариях.

Читать дальше →
Всего голосов 58: ↑40 и ↓18+22
Комментарии8

«Железные» ли люди делают софт?

Время на прочтение4 мин
Количество просмотров14K

Мы собрали могучую команду на железную триатлонную эстафету IronStar 226, которая пройдет в Сочи 22 сентября 2018 года, и призываем ИТ-шников присоединится! Лучше всего — это собрать команду и зарубиться с нами… ну или в крайнем случае предлагаем просто поболеть с пивком за (пока) единственную ИТ-команду


Эстафета включает в себя три дисциплины (проходимые в указанной ниже последовательности):


  1. 3,8 км – плавание на открытой воде (плыву я);
  2. 180 км – велосипед по живописной трассе Адлер - Красная Поляна (поедет Дмитрий Сидельников);
  3. 42,2 км – бег (побежит Антон Старшов).

До старта еще два месяца. С дивана, конечно, команду не соберешь, но во многих ИТ-компаниях наверняка есть спортивные сотрудники, которые могут преодолеть указанные дистанции. Так что присоединяйтесь!


Зарегистрироваться можно тут. Стоимость – 20 000 руб за команду.



Надпись на плакате у милой девушки: "Железные люди – сексуальные". "Железные люди" – это те, кто преодолевают классическую дистанцию триатлона, пусть даже в эстафете ;-)

Всего голосов 60: ↑50 и ↓10+40
Комментарии63

Рыцари плаща и руткитов: что посмотреть про хакеров. Сериалы

Время на прочтение8 мин
Количество просмотров69K
Лето — пора путешествий и заслуженного отдыха.  Каким бы ни было путешествие и куда бы вы ни направлялись, наверняка, это будет длинная дорога (авиаперелет или поезд), или же среднего качества связь, если мы говорим об удаленных от благ цивилизации местах.

Обычно запасливые люди берут с собой в путешествие кучу фильмов и сериалов, чтобы было чем заткнуть уши в транспорте и слушать голоса любимых персонажей.

Мы приготовили для вас небольшую подборку сериалов, так или иначе связанных с ИT. А натолкнула нас на идею этого поста многолетняя дружба ЛАНИТ с Международным фестивалем документального кино "ДОКЕР", где, кстати, в том числе с нашей помощью традиционной стала номинация для фильмов о возможностях информационных технологий «Let IT Doк!».

Кадр из сериала «Mr. Robot» (eps3.1_undo.gz)
Читать дальше →
Всего голосов 93: ↑89 и ↓4+85
Комментарии88

Когда 2 х 3 = 2, или еще раз про виртуализацию данных

Время на прочтение11 мин
Количество просмотров10K
Всем привет! Слышали ли вы что-нибудь о феномене Баадера-Майнхофа? Это забавное когнитивное искажение, наблюдать которое, как оказалось, довольно интересно на собственном примере. В 2016 году на Хабре вышла обзорная статья про технологию Delphix. Как любая хорошая теория, которую ты потребляешь ежедневно тоннами, чтобы быть в курсе, ты начисто забываешь процентов 80, не применяя ее на практике. Так случилось и со мной – я довольно быстро забыл про тот пост и Delphix, пока где-то год назад по долгу службы не столкнулся с авторами продукта и с самим продуктом. Получив возможность изучить тему не в теории, а на практике, ЛАНИТ погрузился в данную технологию настолько глубоко, что в этой статье я бы хотел систематизировать полученные знания и проанализировать полученный опыт.

Картинка любезно предоставлена поисковой выдачей Яндекса.
Читать дальше →
Всего голосов 42: ↑40 и ↓2+38
Комментарии3

SolidFire — СХД для тех, who **cking hate storage

Время на прочтение11 мин
Количество просмотров8.6K
Появляется всё больше решений, которые уходят от традиционного подхода унифицированных хранилищ. Это специализированные хранилища, которые заточены под задачи определённого направления бизнеса. Ранее я уже рассказывал о системе Infinidat InfiniBox F2230. Сегодня в центре моего обзора SolidFire.

«Who f*cking hate storage» @ Дэйв Хитс, основатель компании NetApp
Всего голосов 40: ↑38 и ↓2+36
Комментарии12

Управление релизами на ГИС ЖКХ — делимся опытом и боремся с интуицией

Время на прочтение17 мин
Количество просмотров9.2K
Почему опоздать на авиарейс и не полететь — это не всегда плохо? Кто виноват в том, что вы опоздали на стыковку? Зачем приезжать в аэропорт заранее? Может ли полететь А380 в Астрахань? Почему интуиция не всегда работает? Неожиданности случаются — никогда не было и вот опять? Почему пассажиры хлопают пилоту после посадки?

Предположим, вы разрабатываете государственную информационную систему (ГИС) общероссийского масштаба. Проектная команда (аналитики, разработчики, тестировщики, служба поддержки, служба инфраструктуры и др.) составляет более сотни человек. Система была внедрена в опытную или в промышленную эксплуатацию. Тысячи организаций интегрировались с вашей системой и начали работать с ней, еще большее количество планирует интеграцию. Десятки тысяч организаций работают через Web-интерфейс. В системе для граждан размещается полезная информация, а также предоставляются интересные функции. Заказчик и/или пользователи требуют новых доработок. Миллионы людей по всей стране регистрируются и пользуются системой. От внешнего мира прилетают подарки в виде изменений цен на нефть, санкций, ограничений и т.д.

Представили? Так вот, именно таким проектом в настоящий момент является проект ГИС ЖКХ, о котором ранее мы начали рассказывать и теперь хотим продолжить.

Источник
Читать дальше →
Всего голосов 45: ↑41 и ↓4+37
Комментарии33

#2ХАКАТОН для молодых специалистов в Перми

Время на прочтение1 мин
Количество просмотров1.8K
Друзья, 10-11 июля на базе механико-математического факультета Пермского государственного университета команда департамента корпоративных систем ЛАНИТ проведет двухдневный марафон для молодых специалистов по решению прикладных задач в области Enterprise разработки: #2ХАКАТОН.

Читать дальше →
Всего голосов 27: ↑27 и ↓0+27
Комментарии0

Не столицей единой: «НОРБИТ» открывает офисы разработки в регионах

Время на прочтение5 мин
Количество просмотров6.5K
Любая ИТ-компания сталкивается с нехваткой кадров, и решение этого вопроса традиционно считается непростым. Многие компании привлекают на работу студентов московских вузов, а также хантят сотрудников из других структур, но сегодня мы хотим рассказать о другой практике, которая в нашем случае оказалась более результативной.

Разработчики нужны всегда, и если вы не относитесь к числу фрилансеров, работающих только удаленно, а также над специальными или индивидуальными проектами, то для многих путь в софтверную компанию выглядит так: переезд в крупный город с развитой ИТ-экспертизой, подача резюме в различные компании и выбор своего нового места работы в жестокой конкурентной борьбе.

Компании в основном используют симметричный подход: открывают свои представительства или филиалы в тех местах, где уже есть готовые кадры, и начинают искать контакты с вузами, привлекать студентов на свои стажерские программы или даже, чего греха таить, переманивать стажеров и сотрудников из конкурентных структур. До недавнего времени такой способ работы считался чуть ли не единственно возможным, но буквально за последние три года мы в «НОРБИТ» (входит в группу ЛАНИТ) убедились в том, что для офисов разработки можно применять совершенно иной подход.

Читать дальше →
Всего голосов 46: ↑41 и ↓5+36
Комментарии19

Провалы футурологов. Идеи из фильмов, которые не осуществились

Время на прочтение5 мин
Количество просмотров33K
Прогресс — это прекрасно. Современные технологии упрощают жизнь человека, делают ее безопаснее, а при должном уровне фантазии — еще и интереснее.

Фантасты часто создают на страницах своих произведений мир, повествующий нам не только о сложных ситуациях и моральном выборе людей из будущего, но и о гаджетах, новых технологиях, которые, по их предположениям, могут использоваться через годы.

Мы сейчас живем в то время, которое и было для писателей XX века будущим. Его они и пытались описать. Интересно сравнить их предположения с тем, что мы имеем сейчас. Мобильные устройства, беспроводная связь, лазеры на службе медицины и ВПК, умные протезы, неплохо прокачавшиеся со времен ноги Долговязого Джона Сильвера и прочее.

Бывает, что фантасты, авторы комиксов и фильмов рисовали в своем воображении устройства, которые представлялись им вполне себе возможными уже лет через 20, и при этом очень удобными и полезными. Однако реальность оказалась такова, что создать такой девайс людям будущего (то есть нам с вами) оказалось не под силу.

Работая в области информационных технологий, мы с вами постоянно сталкиваемся с новыми идеями. У нас в ЛАНИТ есть специальные команды, отвечающие за акселерацию внешних и внутренних стартапов. Тема изобретательства, инноваций, поиска жизнеспособных проектов нам очень близка.

Поэтому сегодня мы поговорим об устройствах, которые наверняка пригодились бы каждому, но которые современная наука не в силах воплотить в жизнь. Пока.

image
Всего голосов 88: ↑57 и ↓31+26
Комментарии189

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Время на прочтение25 мин
Количество просмотров7.7K

Часть 2: Решение


И снова здравствуйте! Сегодня я продолжу свой рассказ о том, как мы классифицируем большие объёмы данных на Apache Spark, используя произвольные модели машинного обучения. В первой части статьи мы рассмотрели саму постановку задачи, а также основные проблемы, которые возникают при организации взаимодействия между кластером, на котором хранятся и обрабатываются исходные данные, и внешним сервисом классификации. Во второй части мы рассмотрим один из вариантов решения данной задачи с использованием подхода Reactive Streams и его реализации с использованием библиотеки akka-streams.

Читать дальше →
Всего голосов 41: ↑40 и ↓1+39
Комментарии12

Чего стоит самое точное расписание электричек с 2003 года

Время на прочтение5 мин
Количество просмотров36K
Расписание электричек — это то, с чего в 2003 году начинался Туту.ру. Сейчас я с гордостью могу сказать, что наше расписание иногда оказывается более точным, чем расписание перевозчика или РЖД, — это потому что мы очень быстро реагируем на обращения пассажиров и имеем эвристики для сравнения разных источников данных и их взаимокоррекций.


Старое бумажное расписание СПб — Оредеж

Началось всё так. Изначально в Интернете не было регулярно обновляемого расписания электричек. Точнее, было «бумажное». Просто сохранить расписание с вокзала или опубликовать то, что обычно размещают в разных брошюрках, — это бесполезно. В расписание вносится большое число временных изменений. Мы поставили цель — сделать регулярно обновляемое расписание.
Читать дальше →
Всего голосов 119: ↑119 и ↓0+119
Комментарии34

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Время на прочтение18 мин
Количество просмотров13K

Часть 1: Постановка задачи


Привет, Хабр! Я архитектор решений в компании CleverDATA. Сегодня я расскажу про то, как мы классифицируем большие объемы данных с использованием моделей, построенных с применением практически любой доступной библиотеки машинного обучения. В этой серии из двух статей мы рассмотрим следующие вопросы.

  • Как представить модель машинного обучения в виде сервиса (Model as a Service)?
  • Как физически выполняются задачи распределенной обработки больших объемов данных при помощи Apache Spark?
  • Какие проблемы возникают при взаимодействии Apache Spark с внешними сервисами?
  • Как при помощи библиотек akka-streams и akka-http, а также подхода Reactive Streams можно организовать эффективное взаимодействие Apache Spark с внешними сервисами?

Изначально я планировал написать одну статью, но так как объем материала оказался достаточно большим, я решил разбить ее на две части. Сегодня в первой части мы рассмотрим общую постановку задачи, а также основные проблемы, которые необходимо решить при реализации. Во второй части мы поговорим о практической реализации решения данной задачи с использованием подхода Reactive Streams.

Читать дальше →
Всего голосов 53: ↑53 и ↓0+53
Комментарии9

Ланитовские среды. Почему ЛАНИТ поверил в блокчейн

Время на прочтение5 мин
Количество просмотров6.1K
В этой статье мы расскажем о внутреннем проекте для сотрудников группы ЛАНИТ — традиционных встречах с экспертами по актуальным технологическим темам, которые проходят в нашем центральном офисе по средам и называются соответственно «Своя среда». На одном из таких вечеров руководитель только что запущенного стартапа DTG Денис Реймер объяснил, почему группа ЛАНИТ видит перспективу в блокчейн-технологиях. Подробности — в нашем посте под катом.

Читать дальше →
Всего голосов 46: ↑39 и ↓7+32
Комментарии4

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность