olegbunin Jun 22 2018 at 13:38

Немного закулисья VK

5 min

31K

Конференции Олега Бунина (Онтико) corporate blogWebsite development*PHP*Development of mobile applications*Social networks and communities

+39

Comments 46

immaculate Jun 22 2018 at 14:49

Но в Санкт-Петербурге бывает очень холодно зимой.

По-моему, разница с Подмосковьем незначительная. Мне больше в СПб не нравились более пасмурная погода и частые дожди, если говорить о климате.

Alozar Jun 22 2018 at 14:59

Нужно учитывать, что в Питере очень влажный климат и соответственно мороз воспринимается гораздо острее, как собственно и жара.

UFO just landed and posted this here

Alozar Jun 22 2018 at 18:14

Могу сказать по себе, что находясь в Северной осетии с +37 в тени, я не потел вообще, а только чувствовал тепло на коже, при этом в Таганроге при +30 я уже сильно потел, т.к. дикая влажность из-за моря.
И отец мне рассказывал, что во время службы в забайкалье он спокойно переносил гораздо более сильные морозы по сравнению с центральной частью России, т.к. воздух был сухой.

Captcha Jun 23 2018 at 12:44

Был как-то в спб в декабре. По термометру было где-то 0-+2 градуса, я ходил в термобелье и ватных штанах, и все равно через полчаса прогулки становилось капец как холодно.

youROCK Jun 24 2018 at 00:32

Да, только в Питере еще и любит дуть холодный ветер :). В сочетании с высокой влажностью и температурой до -25 это с непривычки переносится очень тяжело.

bro-dev0 Jun 25 2018 at 02:36

И благодаря той же влажности, погода меняется плавно, в отличии от внутриконтинентального климата, так что сильной жары или мороза почти нету.

peresada Jun 22 2018 at 15:09

Интересно было бы узнать, что умеет или какие преимущества дает самописная СУБД по сравнению с готовыми решениями.

AterCattus Jun 22 2018 at 16:21

Все движки кастомно заточены под свои задачи. И просто эффективнее (обычно), чем более универсальные решения.

peresada Jun 22 2018 at 19:47

Это я понимаю, но я имел ввиду конкретно VK, насколько эффективнее или какой функционал они добавили. Тут много ньюансов. Просто когда слышишь, что один из крупнейших сайтов в интернете работает на PHP + MySQL, сразу понимаешь что это не совсем так.

AterCattus Jun 23 2018 at 02:25

И я конкретно про ВК. Разных типов баз/движов несколько десятков видов. Каждый делается под конкретные задачи + оптимально встраивается в общую инфраструктуру.

altrus Jun 23 2018 at 15:09

Правильно я понимаю, что «кастомная СУБД» это просто определенным образом подточенный MySQL?

youROCK Jun 23 2018 at 15:19

Нет, как правило, движки имеют свои структуры данных, которые заточены под конкретные задачи. Есть и СУБД общего назначения, но она не имеет отношения к MySQL и не очень широко используется.

altrus Jun 23 2018 at 15:24

То есть, это даже и не реляционная СУБД со своими обычными качествами?

youROCK Jun 23 2018 at 15:54

Вы можете сами почитать о том, что умеют и что не умеют разные движки. Как правило, они поддерживают набор операций, которые нужны для работы существующих фич ВК. Обычно нет ни транзакций ни изменяемой схемы. Примеры:

Друзья: github.com/vk-com/kphp-kdb/blob/master/docs/ru/KittenDB_Friends.wiki

Списки: github.com/vk-com/kphp-kdb/blob/master/docs/ru/KittenDB_Lists.wiki

Фото, Документы, и т.д: github.com/vk-com/kphp-kdb/blob/master/docs/ru/KittenDB_Storage.wiki

altrus Jun 23 2018 at 17:57

Спасибо, интересно.

youROCK Jun 22 2018 at 17:24

Ещё немаловажно, что все сишные движки умеют работать по UDP, что важно, когда у вас много серверов, иначе довольно значимая часть памяти на сервере расходуется под поддержание информации о TCP соединениях в ядре, буферах, и т.д.

JekaMas Jun 22 2018 at 18:01

Неоднозначный вопрос. Когда-то давно был удивлен, что Alibaba со своими дикими нагрузками живет на MySQL и не кашляет.
Тут возникает вопрос, так ли плохи "универсальные" решения.

greabock Jun 22 2018 at 18:58

Мне кажется, тут дело не в преимуществах. Проблема в том, что все сторонние решения имеют один фатальный недостаток.

youROCK Jun 22 2018 at 19:10

На большом масштабе, если вы смогли написать свою специализированную базу данных для, например, сообщений, которая требует на 30% меньше ресурсов, то вам вместо условно 1000 серверов нужно будет 700, то есть на 300 штук меньше. Это экономия в миллионы долларов, так что обычно затраты на разработку в таком случае оправданы. Если у вас все помещается в 10 серверов и вы пишете самописную базу, то, возможно, это и правда будет время, потраченное впустую.

greabock Jun 22 2018 at 19:36

Простите мне мою оплошность, я забыл что на хабре каждый второй — Шелдон Купер*. Впредь, во избежание недоразумений, я все свои шутки буду помечать курсивом и делать сноску** — дабы не вводить в заблуждение писателей, читателей и комментаторов.

*Шутка.
**Шутка встроенная в шутку — одновременно рекурсия и самоирония.

JekaMas Jun 22 2018 at 22:05

А сколько будет стоить ее создание и поддержка? Как эти цифры соотносятся со стоимостью железа? Был проведен анализ и на его основе принято бизнес-решение?

Fesor Jun 22 2018 at 22:48

300 серверов тоже надо поддерживать. Вы должны это учитывать так же при анализе. А так математика в целом простая. Что бы написать кастомную СУБД под задачу много людей не надо, достаточно человека 2-3. Кушать допустим они будут сумарно баксов 150 в час. 300 серверов предположим что кушать будут баксов 60 в час (предположим что у нас 300 штук каких m4.xlarge).

Предположим что разработка СУБД в целом займет месяц-два работы и потом затраты на поддержку оной будут составлять уже каких-нибудь $15/h (типа часов 16 часов в месяц например). Итого инвестиция окупится через каких-нибудь месяцев 6.

Возможно эта инвестиция сможет убавить издержки и на другие вещи, суппорт серверов, трафик, хранение логов. Возможно специализированное решение позволит существенно снизить задержки, что позитивно скажется на общем UX приложения и пользователи будут более лояльны. Ну то есть масса вещей есть.

Понятно что если вы просто вася пупкин — не надо вам делать свои СУБД. Разве что как хобби.

p.s. я все ж подозреваю что кушать эти разработчики будут чуть меньше.

JekaMas Jun 22 2018 at 23:37

Можем предложить, что серваки стоят в нашем ДЦ, и кушают 5$ час, а разработчики выкатили mvp за два месяца, а потом сказали, что надо допиливать еще года два и команда нужна человек 6-10, которую надо хантить на особые условия, ибо БД не каждый сделает.
Тогда цифры другие.
Не думаю, что оно продуктивно, представлять сферических коней.

Клево было бы услышать экономическое обоснование от разработчиков. Ну или действительно дело с "фатальным недостатком".

youROCK Jun 23 2018 at 01:02

Здесь стоит учесть, что сервера обычно помощнее, чем m4.xlarge, я бы считал, что на каждом хотя бы по 16 логических CPU (8 физических ядер), а то и больше. Плюс разработчик каждого движка обычно только один и кушает он только в рабочее время, и все-таки немного поменьше :).

Грубо говоря, даже если мы считаем цены амазона завышенными вдвое, то выходит 300$ в час против не более 25$ в час одного разраба (сервера на ночь не выключаем, потому что это сервера с данными). Такое окупится даже если разработка займет 300/25=12 месяцев.

Fesor Jun 23 2018 at 18:23

кушает он только в рабочее время

Я и считал 160 часов в месяц.

и все-таки немного поменьше

Суть была не в том что бы конкретные цифры обсудить, а в простом соотношении и времени окупаемости. cost/benifit анализ. Подставляя свои цифры мы можем прикинуть что и как.

Например Вася пупкин начитался статей о том как люди делают всякие кафки, касандры и прочие кликхаусы, и подумал "а чем я хуже, я ж тоже могу!". И введение кастомного решения у него затратит его времени на $10K а сэкономит он $100 в месяц, окупаемость ~10 лет. Вместо этого инвестировать время можно в другие вещи.

А вот если вы фэйсбук со своими датацентрами, и у вас все на php, то выгодно нанять команду высококвалифицированных C/C++ разработчиков что бы они вам на LLVM JIT компилируемый язык нарисовали, который позволит вам в 2-3 раза уменьшить нагрузки на железо (вот ту миллионы) +, поскольку у вас контроль за языком — позволят ввести новые фичи в язык, которые существенно упростят тот же статический анализ (array shapes, type aliases).

Ну то есть помимо очевидного бенифита в виде сокращения издержек на сервера, мы имеем косвенные бенифиты.

ну и да, реально довольно часто хочется что-то маленькое, специализированное и скучно. А потом уже под это дело можно и бенифиты придумать.

Вспомните такое приложение как маскарад. Там внутри очень даже кастомное решение которое пилилось насколько я помню больше года явно, как хобби. А потом хакатончик, чуть допилить и вот вас уже покупает фэйсбук.

ALexhha Jun 23 2018 at 23:54

За 2 месяца разработать субд?! Я конечно все понимаю, но как то очень оптимистично. А тестирование? А затраты на внедрение? И это ещё не факт что вообще взлетит. А если не взлетит, то какие будут затраты на возврат к старой субд? Да и поддержка у вас выглядит очень оптимистично. Разве что они наняли гениев, которые за два месяца написали весь функционал. Как по мне то это очень сложные вопросы

Fesor Jun 24 2018 at 00:33

Я конечно все понимаю, но как то очень оптимистично.

специализированная СУБД, под конкретную задачу. Это не база данных общего назначения. Потому да, не вижу ничего страшного в 2-х месяцах.

А тестирование? А затраты на внедрение?

Вы можете внедрять новую систему планомерно, получая профит постепенно и тестируя в реальных условиях. Это существенно упрощает вопрос.

И это ещё не факт что вообще взлетит.

обычно перед тем как решаться на такое уже должен быть некий proof of concept который доказывает эффективность решения.

Разве что они наняли гениев, которые за два месяца написали весь функционал.

Решение после обкатки было выложено в опенсурс как раз что бы уменьшить и эти издержки (хотя сам факт выкатки в опенсурс это тоже дорогое удовольствие).

Как по мне то это очень сложные вопросы

суть вопроса проста — вы должны оценить риски, затраты и профит. Можно проиграть, можно выйграть. Конечно ответы на эти вопросы — это сложно. Но это не настолько сложные вопросы с учетом масштабов.

И да, я забыл рассказать еще об одном аспекте таких решений. Предположим что ваша компания может себе позволить такое удовольствие как написать свою СУБД. Помимо решения каких-то внутренних проблем, это вам даст еще возможность отправлять людей на конференции и повышать престиж компании среди разработчиков. А это в свою очередь будет создавать конкуренцию за рабочее место. И если вам позвонят из компании и скажут "а не хотите ли вы придти на собес" то большинство ответят "конечно хочу".

У многих компаний существует такая практика. Найм людей тоже штука дорогая.

altrus Jun 24 2018 at 07:07

специализированная СУБД, под конкретную задачу.

Людей смущает громкая аббревиатура СУБД, как я понимаю. С тем же успехом можно было назвать это оптимизированным мемкэшем, с прозрачной записью на диск, так?

Fesor Jun 25 2018 at 02:07

Ну тип того. Яркий пример такого простого специализированного решения — beanstalkd. Ну или вот.

AterCattus Jul 5 2018 at 14:41

Большинство движков — это что-то типа Redis, не memcached. Но СУБД, конечно, супер громко такое называть :)

Fesor Jun 24 2018 at 00:45

но вообще — просто поресерчите истории популярных опенсурс продуктов. Подавляющее большинство рождались в недрах каких-то компаний.

Возьмите тот же angular — его пилили в гугле как хобби. А сегодня это один из самых популярных фреймворков. Или react — его так же пилили в facebook годами перед тем как зарелизить. Тот же graphql это так же был внутренний проект.

nginx — писался под рамблер, и стал популярным решением так же далеко не сразу и был намного проще в начале своего пути. Кафка так же пилится с 11-ого года, но из всех щелей она лезет только последние год-два.

ClickHouse так же пилится с 2009-ого года, и на тот момент когда начинали пилить только только появились сырые хадупы и касандры. Потому на тот момент рисков явно было меньше а профита явно было больше.

Fesor Jun 22 2018 at 22:54

Ну и да, в некоторых ситуациях смена модели данных и разработка эффективного стораджа под эту модель единственный способ вписаться в нефункциональные требования. Благо обычно хватает существующих моделей (документы, графы, колонки)

nefone Jun 22 2018 at 16:38

перехал из Петербурга в Подмосковье и теперь только и мечтаю вернуться обратно.
А есть еще где почитать про структуру VK?

youROCK Jun 22 2018 at 17:44

Почитать — на хабре: habr.com/company/vkontakte
Ещё можно посмотреть доклады (в т.ч. с хайлоада) на YouTube, например www.youtube.com/watch?v=P4HkWuVtsdA

zvermafia Jun 22 2018 at 18:01

В принципе, ощутимая часть инфраструктуры VK была выложена Павлом Дуровым в open source вместе с документацией.

Можно ссылку?

Doomet Jun 22 2018 at 18:14

Может имеется ввиду https://github.com/vk-com/kphp-kdb?

youROCK Jun 22 2018 at 18:37

habr.com/company/vkontakte/blog/214877

Gemorroj Jun 22 2018 at 19:46

но это выглядит как заброшенный проект

alexkrash Jun 23 2018 at 02:01

4 года, может ещё очухается, раз про него рассказывают

AterCattus Jun 23 2018 at 02:35

Это скорее как «слепок» на тот момент, который приведен скорее для желающих ознакомиться.
С тех пор развитие убежало далеко вперед, но пока, увы, не до планов по актуализации и поддержанию публичной версии.

DmitrySpb79 Jun 23 2018 at 12:54

Простите за тупой вопрос, а VK вообще сейчас развивается?

Заходил как-то на странички знакомых, последние апдейты у многих 5-летней давности, такое ощущение что надоело всем. С Одноклассниками аналогично, когда-то был бум интереса, потом затихло все.
Сам тоже давно не пользуюсь.

-1

youROCK Jun 23 2018 at 15:20

vk.com/page-47200925_44240810

Вроде бы вполне нормально себя чувствует :).

altrus Jun 23 2018 at 15:44

А чего на апреле 2017 года остановились?
По SimilarWeb уже на 8 месте в мире по посещаемости, а не на 5.

DmitrySpb79 Jun 23 2018 at 16:07

Спасибо. Интересно, с чем связан такой волнообразный график, сезон отпусков что ли? (или школьных каникул?;)

immaculate Jun 26 2018 at 06:33

Мне тоже кажется, что VK сдает позиции. И вообще, все социалки проиграли безнадежно фейсбуку. Сколько бы я не заходил в VK, он просто не выдает мне ничего интересного из жизни друзей. Может быть у них нет никаких событий, а может быть алгоритм генерации ленты ущербный. Потому что если подписаться на группу, в которой много сообщений в день (такая как Мотомосква), то все лента будет забита сообщениями из Мотомосквы, в которых почти невозможно увидеть случайно затершийся пост от друзей.

При этом в тех же группах с большим количеством подписчиков совершенно невозможно общаться, так как комментарии, например, не группируются по веткам, невозможно понять кто кому когда ответил. В той же Мотомоскве комментарии идут простынями по 100-200 сообщений, в которых никак не понять кто кому отвечает.

В общем, раньше это был бесплатный проигрыватель музыки. Сейчас сложно понять, зачем нужен.

Прошу прощения у сотрудников Контакта, но ведь действительно, сложно понять, зачем продолжать пользоваться вашим сайтом.