Открыть список
Как стать автором
Обновить

Комментарии 66

На минутку подумал, что такое дело можно будет у вас в облаке арендовать, даже загордился за российского провайдера :)


Железка однако весьма достойная, и когда о ней появилась первая информация, вызвала даже волну отрицания, что такое невозможно изготовить, а если возможно, то невозможно собрать в систему и охладить, а если и возможно, то всё равно никто не купит. Однако, клиентов хватает, судя по всему. Вот откуда дефицит чипов, если на каждый церебрас по целой пластине тратить :)

если на каждый церебрас по целой пластине тратить

Еще интересно сколько там пластин в мусор уходит, чтобы получить одну годную.

Думаю нисколько, насколько я понимаю, там с запасом натыкано и ядер и интерконнектов и все дефектные просто отключаются и обходятся вокруг. Иначе вообще ни одного нереально было бы выпустить.

Эдакий МультиКлет, получается.

Интересно, возможна ли малварь (ну или не малварь), которая оживляет заблоченные на заводе ядра и биткоины на них майнит (пусть иногда с ошибками). Оверклокинг будет не по количеству мегагерц выше нормы, а по количеству ядер :).
ще интересно сколько там пластин в мусор уходит, чтобы получить одну годную.
Они заявляют про процент выхода годных 100%, с учетом наличия в первом поколении 1.5% запасных ядер, а во втором — «намного меньше, чем в первом».
У амд с пластины около 30% брака при их чиплетах на 7 нм по статьям выходило. Если продумали систему, как отрубать бракованные ядра по одному-группами меньше чиплетов амд, то общий ущерб пластине будет сильно меньше. Видимо с хорошим запасом делают.
30% брака это на старте линии или на уже отлаженной? А то эти цифры значительно различаются.
Статья была в общем, анализ какой-то. И там было: мол у АМД вот типа 30% брака на zen2, а у интела чуть ли не 75% для 28 ядерных. С другой стороны у амд чиплеты весьма активно сортируются и полубрак в младшие процы уходит по всем параметра (и по частотам ядер, и по потреблению, и по отключению ненужных ядер) — и не понятно поэтому насколько цифра изменится, если задача сделать те же апушки для приставок (где монолитные кристаллы в несколько раз больше габаритами и с большей точностью параметров нужны), там может и больше быть.

Но, если у обсуждаемых можно весьма гибко плохие места отключать от общей системы, то чем чёрт не шутит, могут и все пластины в итоге быть рабочими, просто на самом деле там может ядер процентов на 10 больше, например, да и параметры по частотам выбраны не максимально возможные на отсортированных ядрах, а какие-то не самые высокие.
На нём crysis хоть пойдёт?

нет, только брутал дум кое-как

При напряжении питания ядра, допустим, 1 Вольт, пиковый ток составит 15 кА.


Подвести такое по печатной плате очень сложно, сделать такую плату которая обеспечит подведение такой мощности с минимальным падением напряжения еще сложнее.
Вероятно для каждого из 12*7==84 SoC (каждый из которых может потреблять до 15kW/84==178W) на обратной стороне платы стоит компактный индивидуальный источник питания. Звучит уже вполне жизнеспособно.


После такого, вылезает второй вопрос: как они все это паяют? Понятно, что с паяльной пастой на печатной плате, с печью (smt reflow oven), но на таких масштабах любая неровность платы будет приводить к браку, любые температурные неоднородности в процессе нагрева будут вызывать такие неровности.


Допустим, спаяли. Даже запустили. В пиковом режиме эта штука выделяет до 15 киловатт. Как это охлаждать? :D


В общем вопросов после статьи больше чем ответов :)

Там ко всей плате подводится питание, ага. А с другой стороны равномерно тепловые трубки и дальше вода. Но всё равно это нужно включать в особом режиме, чтобы равномерно прогревалось и потом нагрузку тоже балансировать туда-сюда по ядрам. У них была крутая презентация на hotchips в прошлом году про эти системы. Хотя совсем детальных деталей никто не расскажет — ведь это то, что отличает их от конкурентов и почему их малореально сходу повторить.

тепловые трубки не унесут столько мощности с такой площади, инфа 100%. по трубкам надо сразу воду качать
У 3M есть специальная жидкость для погружного охлаждения. Она просто кипит на поверхности кристалла.
При кипении теплоотвод ухудшается из-за образующихся пузырьков пара. Проточная вода в данном случае наверно эффективнее.
Проточная вода проводит электричество в отличии от этой жидкости. И её как минимум местами используют, хоть она очень дорогая и активно испаряется. Возможно на глубине за счёт давления пузырьки крошечные и не влияют. Зато работает естественная конвекция, плюс пожаробезопасность.
Так тут 15 кВт на 0,05 м. Ну и вода контакта непосредственного не имеет с кристаллом, снимает тепло с цельной медной пластины — фотка ниже.
Можно дейтерийной водой непосредственно охлаждать, у неё проводимость гораздо ниже, а цену такого контура владельцы Cerebras себе наверняка позволить могут.
А если протечка? Минус дорогущий сервер и те что под ним. К тому же на самой материнке нужно часть горячих элементов охлаждать(те же конвертеры питания или мосты).
А так бахнул комп в сухую воду или масло. И защита и охлаждение.

В прошлой статье есть пара интересных картинок.

Хм, а в чём тогда новизна этой? :))

Там рассказали, а тут выпустили :)

Я имею в виду — в чём новизна статьи, которую мы обсуждаем :) По прошлой ссылке всё тоже самое описано. Селектел окончательно заленился и пошёл рерайтить собственные материалы по второму кругу?

Ну там я так понял был анонс что мол вот будем такое делать, а тут уже готовый продукт.

В продажу чип и система для него поступят в третьем квартале 2021 года

Не особо отличается от анонса :)


Ну, а с точки зрения простых пользователей (а не атомных лабораторий), так и вообще никогда — и цена 5-10лямов и не продаст никто (такой суперкомпьютер в коробке, щас).

Может, когда-то подобное будет в AWS с прайсом в $5000 в час…
Тогда представляю стартаперов, которые будут рассуждать «что-то пока наша модель, которая должна сделать прорыв в ИИ не фитится, но ничего, чуток инвестиций поднимем, часов 100 возьмем машинного времени, и тогда стартап точно взлетит»
". Как это охлаждать? :D"
СЖО Cerebras

СЖО Cerebras
про питание и охлад, тут более менее на слайдах понятно: 3dnews.ru/992698
Интересно, почему столь скучным заказчикам достается такая мощь. Неужели обладание подобным чипом не может дать буст Гуглу в улучшении поиска, Тесле в улучшении автопилота, или, Фейсбуку в оптимизации рекламы?
А что, проведение симуляции атомных взрывов уже записали в скушности?
Это как раз очень даже весёлые заказчики.

У вас иммунитет от рака?

Она использует первую систему для научных целей — например, изучения черных дыр, а также для работы с медицинскими проблемами вроде анализа причин раковых заболеваний.
лишь бы не вышло как тут — а что это у вас тут жёлтенькое?
На второй вопрос ответ вероятно будет содержаться в первом предложений из соседней статьй. Человек — это то, что он потребляет. Осталось только выделить конкретный маркер.
в Тесле особенно 15кВт лишние, ага
видимо, речь идет про обучение, а не про бортовую систему.

Вот он — триумф вертикального масштабирования! In-memory база данных поверх такого процессора способна будет обрабатывать десятки, сотни миллионов или возможно даже миллиард serializable транзакций в секунду и способна заменить сотни/тысячи серверов (и тот огромный оверхед при реализации распределенных транзакций в случае горизонтального масштабирования) определенно точно найдет своего покупателя.
Интересно как в этом процессоре работает механизм cache-coherence который обеспечивает CAS ("compare-and-swap") и другие атомарные обновления памяти? Cache-coherence это другими словами реализация атомарного бродкаста и поскольку это и так самая сложная часть при проектировании современных процессоров то здесь при 850 тысяч ядрер и возможном отказе этих ядер по отдельности проектировщики должны были выйти на уровень распределенных систем (интересно они реализовали paxos в железе?)

Никак. Это же не процессор общего назначения.

Чую для баз данных скоро тоже будут делать специализированные процессоры. Ещё более оптимизированные. Следующий шаг — реализация элементов языков запросов силами процессора, индексация таблиц силами встроенной памяти (типа «умная память» с дополнительной обработкой информации).
думаю с транзакциями там было бы все очень очень плохо, ибо очень большие проблемы горизонтальной синхронизации данных и т.п. для ридонли возможно разве что
Привели бы единицы измерения в столбцах к одной размерности. А то к Nvidia A100 пропускная шины в гигабайтах/сек, а к Cerebras в петабитах/сек.
К битам или байтам.
Зачем? Ведь в попугаях (битах вместо байт), удав получается значительно длиннее! (с) маркетологи.
Интересно почему он не круглой формы раз размером с кремниевую пластину, зачем же лишнее отрезать?
Технология видимо не позволяет изготовлять круглые процессоры, т.к. адаптирована с маленьких. А значит там остаётся пустое место, которое никак не задействуется. Его откалывают и отправляют на повторный круг.
Его откалывают и выбрасывают. Кстати если они их сразу не уничтожают, то скоро на ali появятся миниатюрные Cerebras из кусочков :-)
Делали бы уже шар, с сокетом в виде двух полушарий и в сокете же подведение воды…
Потому что все литографические шаблоны (через которые «проецируется» схема чипа на пластину) и литографическая оптика работает с прямоугольными областями, разработанными для производства классических чипов. Никто под один даже сверхсложный чип свое собственное производственное оборудование разрабатывать и строить свои собственные отдельные заводы не будет, используют(адаптируют) то, что уже имеется.

Вот из таких областей (их на фото четко видно 12х7 «плиток») чип и составлен. Края куда уже не вписывается еще один подобный прямоугольных обрезаны.
Края куда уже не вписывается еще один подобный прямоугольных обрезаны.
В целом вы правы, но все чуть-чуть сложнее.
image
Это усложнит технологию отделения кристаллов. Квадрат вписанный в круг легко отделить автоматически(и потом поделить на дольки), а вот огрызки придётся вручную доламывать.
Интересно, сколько мегахешей даст на эфире или битке? :)
Интереснее, сколько хешей на Вт приходится. А то может цифра будет впечатляющей, но платить за 15 кВт…
Все.
Порядка 5 миллионов долларов за системный блок.
Интересно, 1С ERP потянет?
Поговаривают, что там минимальные требования от 250мм х 250мм
Ждём тестов в майнинге

Так мы его почти год назад встречали уже. И на Хабре писали:
https://habr.com/ru/company/selectel/blog/516516/
Тут конечно информации чуть больше. Но ажиотаж все равно непонятен.
А еще на многих ресурсах восхищенно обсуждают кол-во ядер. Забывая, что это не те ядра, что мы привыкли видеть в цп, а ближе к тем, что в видеокартах. Которые, кстати, тоже исчисляются тысячами давно.

В 90х был проект транспютеров с языком параллельного программирования Оccam. Может опять станет востребованным. Тогда он работал на десятках связанных процессоров

Кмк, даже не учитывая языков вроде erlang, любой современный язык сможет утилизировать все эти 100500 ядер. Все зависит от архитектуры приложения и системы.

Одно не понятно: зачем на одной платине? В чём преимущество? Почему нельзя разрезать и установить отельные кристаллы как делала IBM для своей System/390 ES9000 Enterprise Server mainframe computer ещё в 90-х?

850к ядер? Даже если по 16 ядер на кристалл, это будет 53к кристаллов. На одной пластине проще сразу все сделать.

Эм… так там же не те ядра. Даже в статье сравнивают с нвидиевским ядром. У которого по 7к ядер на кристалле.
Все ради увеличения пропускной способности памяти. Это просто следующий шаг по сравнению с упомянутым вами девайсом от IBM. На него раньше не решались, потому что предыдущие попытки неизменно ломались об низкий процент выхода годных.
Не смешите. Пропускная способность памяти с одного края кристалла до другого будет не лучшей. Судя по квадратикам на пластине там N ядер + память разбиты на ячейки. И именно эти ячейки делают вычисления. Не думаю, что данные там сильно бегают от ячейки к ячейке. Если пластину разрезать и смонтировать эти ячейки так как у того же IBM — ухудшится всё не сильно. Но зато конструктив упростится, меньше проблем с неравномерным нагревом кристалла, с хрупкостью и тому подобным. Это больше похоже на "А потому что могём! А потому что круто!". Да можете. Да круто. Вот только преимуществ толком не даёт.
Не думаю, что данные там сильно бегают от ячейки к ячейке.
Заявленная пропускная способность коммутационного массива — 220 петабит в секунду.

Если пластину разрезать и смонтировать эти ячейки так как у того же IBM — ухудшится всё не сильно.
Ухудшится принципиально. Емкость линии между двумя чипами — несколько пикофарад, индуктивность — несколько наногенри. Когда мы говорим о сотнях тысяч или миллионах линий, этого вполне достаточно, чтобы серьезно влиять и на быстродействие, и на энергопотребление.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.