Leono Nov 17 2019 at 11:00

Как масштабировать дата-центры. Доклад Яндекса

22 min

19K

Яндекс corporate blogIT Infrastructure*Network technologies*Server Administration*Network hardware

+31

Comments 33

maxim_ge Nov 17 2019 at 18:58

Максимальный размер кластера некоторое время назад был порядка 10 тыс. серверов. Это обусловлено в значительной степени тем, как могут работать те самые операционные системы уровня кластера, планировщики, аллокация ресурсов и т. п. Поскольку на стороне инфраструктурного софта случился прогресс, то сейчас целевым является размер порядка 100 тыс. серверов в одном вычислительном кластере, и у нас возникла задача — уметь строить сетевые фабрики, которые позволяют эффективно осуществлять пулинг ресурсов в таком кластере.

Выглядит как «вертикальное масштабирование» кластера, т.е. примерно как одному серверу добавлять память, диски и процессоры.

А почему не работает горизонтальное масштабирование — т.е. вместо одного большого кластера делать федерацию кластеров?

click0 Nov 17 2019 at 19:27

Доклад с кучей специфических терминов, с малым кол-вом пояснений, почему они выбрали ту и ли иную технологию.
Вызывает вопросы по использованию BGP вместо более быстрой OSPF с агрегацией маршрутов.
Также непонятно по серверам, какое там чудо-железо, способное генерить 2x50G данных, особенно CPU и сетевые карты.

В чем отличия от типичного дизайна Cisco для датацентров?

Cisco Three-Tier Network Design

или

Collapsed Core/Aggregation Network Design

click0 Nov 17 2019 at 20:53

Если вы все-таки пытаетесь реализовать Spine-Leaf Network Topology, то не забудьте упоминуть, что для этого очень желательно иметь железо Cisco Nexus.

Spine-Leaf Network Topology

creker Nov 18 2019 at 01:02

очень желательно иметь железо Cisco Nexus

Это почему? Сейчас эти сети можно строить на чем угодно (собственно, как и модно сейчас. bare-metal все дела), был бы чип нужный и поддержка софта. Почти все на broadcom основаны, в том числе циска. Бери какой хочешь.

iivasiliev Nov 19 2019 at 22:02

Опять же, это утверждение «Spine-Leaf Network Topology, то не забудьте упоминуть, что для этого очень желательно иметь железо Cisco Nexus» — тоже чушь.

Vooray Nov 18 2019 at 13:15

Там масштабы не для OSPF. Как ответ на вопрос можно почитать rfc7938

click0 Nov 18 2019 at 18:18

В этом RFC только два предположения.

over one hundred thousand servers
using BGP as the only routing protocol

И ни слова, почему нельзя использовать OSPF с сегментированием сетей и автосуммированием маршрутов.

Vooray Nov 18 2019 at 22:38

Можно использовать OSPF. Но в OSPF нет автосуммаризации и в rfc написано почему предлагается использовать BGP. Можно поискать по ключевому слову — ospf.

creker Nov 18 2019 at 23:05

Подозреваю, что OSPF не любят за фладинг при любом изменении в сети. Из-за чего оно не скейлится и это никак не побороть. Поэтому крупные игроки на BGP. Его, по крайней мере, можно настроить нормально и RFC этот самый об этом и пишет.

ammo Nov 19 2019 at 16:14

Как раз таки в этом самом RFC хорошо расписано, как настроить BGP, но при этом почти ничего не написано про то, почему не стоит использовать OSPF/ISIS с разделением на зоны/уровни, как справедливо предложил желтый колобок выше. Флудинг LSA при изменениях топологии будет ограничен 1 зоной. Допустим, 1 зона = 1 POD, если сопоставлять с дизайном с картинок выше. Если в поде меньше 100 устройств, то CPU вашей кофеварки скорей всего выживет.

По поводу RFC, вот все 4 упоминания слова OSPF в его тексте:
1. Обычно, OSPF используется в L3-дизайнах.
2. Устройство протокола OSPF сложнее, чем у BGP.
3. BGP поддерживает third-party next-hop, OSPF их тоже поддерживает, но у BGP лучше.
4. Ссылка на OSPF RFC.

Ну да, п.2 и п.3 похожи на какие-то аргументы в пользу BGP. Но если честно, мне они напоминают ухищрения в выборе вида «нам надо купить именно циску, давайте добавим eigrp в требования».

Нет, я в целом верю, что раз яндекс, фейсбук и прочие используют BGP вместо IGP, то у них есть достаточные основания, другое дело, что аргументы озвучиваются с моей точки зрения сомнительные.

iivasiliev Nov 19 2019 at 22:07

Наличие большого количество резервных маршрутов + LSA Flooding внутри домена + сложность эксплуатации + масштабируемость. Если мои комментарии, доклад Дмитрия Афанасьева и RFC 7938 для Вас не авторитет, то рекомендую прочитать книгу автора Russ White — The Art of Network Architecture: Business-Driven Design, издательство Cisco Press (глава Clos and the Control Plane).

click0 Nov 20 2019 at 18:22

RFC — рекомендация, книга — мнение конкретного автора, но никак не научная статья, где выводы можно независимо повторить в другой лаборатории/стенде.

Пока что выбор BGP основан на рекомендациях вендора (Cisco) с учетом его проприетарных опций для BGP. И потому в докладе не был указаны важный факторы времени сходимости и реакции протокола на изменения в топологии сети.
В простом случае, если «шаловливые» ручки подергали или поменяли патч-корды.

iivasiliev Nov 20 2019 at 18:50

Опять чушь.

Cisco всегда продвигала ISIS, а не BGP. На BGP в DC она скорее была вынуждена согласиться. BGP скорее двигал активно Juniper, а теперь уже RIFT.

Про сходимость так вообще чушь несусветная написана. Отвечу так:

ECMP
BGP fast external failover
BGP ATF
BGP dampening или interface dampening

Вы бы поменьше «шаловливыми» руками клавиши трогали и побольше книжки.

-1

click0 Nov 20 2019 at 22:44

Вас упорно тянет на специфические дискусии. Прочтите тред четырехлетней давности.

iivasiliev Nov 20 2019 at 22:55

Слишком жирно набрасываете. Все о чем я там говорил, Yandex рассказал на NHOP в 2018 году, я об этом рассказывал на HighLoad в 2017 году. Удачи, Вам :)

drwatson32 Nov 21 2019 at 20:54

Кстати да, а почему BGP а не RIFT, Яндекс же вроде участвовал в формировании требований к нему?

creker Nov 20 2019 at 22:27

Какие еще рекомендации вендора (да еще циски) могут быть в датацентре фейсбука, где все свитчи на собственной аппаратной и программной платформе?

click0 Nov 20 2019 at 22:39

Мы не знаем, что «под капотом» у крупных ДЦ, что в Гугле, что в FB, что в Амазоне.

creker Nov 20 2019 at 22:49

Знаем. Фейсбук во всех подробностях рассказывал про архитектуру сети своих ДЦ и железках, на которых это все работает. При этом все это предоставили на благо всем в рамках OCP www.opencompute.org/contributions?refinementList%5Bcontributor%5D%5B0%5D=Facebook&refinementList%5Bfamily%5D%5B0%5D=Network%20Switch&page=1&configure%5BfacetFilters%5D%5B0%5D=archived%3Afalse

click0 Nov 20 2019 at 23:24

Спасибо, полистаю ТТХ этих железок. И осталось мелочь — найти на ebay или в свободной продаже эти устро-ва. 2-3 дистрибьюторов этих уст-тв с ценниками по запросу — смешно в 2019 году.

iivasiliev Nov 20 2019 at 23:10

Поправка, Владислав, это вы не знаете )))

click0 Nov 20 2019 at 23:19

Я не являюсь сотрудником никакой из вышеперечисленной компании. Если вы являетесь сотрудником (Яндекса), то по комментарием к докладу сможете помочь в следующем году очередному докладчику от Яндекс.

iivasiliev Nov 20 2019 at 23:22

Ваше «мы» — не все. А вы, не «все».
PS: Я же говорю, слишком жирно набрасываете, аж через монитор течет (народ троллить, нужно тоньше) )))

click0 Nov 20 2019 at 23:30

Вы опять в схоластику ударились…

iivasiliev Nov 20 2019 at 23:34

Как скажите )))

in_esta Nov 18 2019 at 13:15

Вызывает вопросы по использованию BGP вместо более быстрой OSPF с агрегацией маршрутов.

Потому что в условиях большого количества сетевых железок и линков между ними (которые подразумеваются в spine-leaf топологии) OSPF будет ощутимо нагружать CPU расчетом SPF, а линки — рассылкой LSA-сообщений. Так же есть еще пачка недостатков у протоколов IGP, на фоне которых BGP кажется лучшим средством для маршрутизации в ДЦ.

click0 Nov 18 2019 at 19:11

А скажите, у вас есть подтверждение таких гипотез? Например, пару научных статей?

in_esta Nov 20 2019 at 10:42

Вам комментаторы выше уже подсказали, в каких документах и книгах можно поискать подтверждение данных гипотез.

click0 Nov 20 2019 at 18:04

RFC — рекомендация, а не научная статья :)

iivasiliev Nov 19 2019 at 22:00

Чушь. OSPF плохо себя ведет в топологиях типо CLOS и очень плохо масштабируется.

sohmstyle Nov 18 2019 at 10:09

Могли бы объяснить термин radix в контексте сетей?
Насколько я знаю, radix это основание системы счисления.

iivasiliev Nov 20 2019 at 23:20

В данном случае речь идет в контексте «переподписка». Количество доступных портов без переподписки. Пять лет тому назад, со схожей тематикой, в Интернетах проскакивала хорошая статья (там, тема с radix достаточно хорошо раскрывалась), которая называлась — Facebook Fabric Networking Deconstructed — www.firstclassfunc.com/2014/11/facebook-fabric-networking-deconstructed

emirochnik Feb 22 2022 at 05:36

Спасибо за ссылку.