Pull to refresh

Comments 101

UFO just landed and posted this here
И новая винда на этом будет торомозить…
по моему, сегодня тормозят только прыщи и андроид.
Что еще мог написать адепт майкрософт?))
прыщи

Вы хотели сказать порт убунту под ваш Zopo ZXHD4000?
UFO just landed and posted this here
Не тормозит ни то ни другое.
И современная Mac OS через 10 лет на современном железе будет работать медленнее, и Linux с Unity будет лагать. А уж iOS 16, Android 15 и WP 18 современные четырехъядерные смартфоны с 2 гигами памяти и FullHD экранами даже за телефон считать не будут.

В общем, весьма провокационное и холиварное утверждение, которое невозможно доказать. На месте разработчиков винды, я бы обиделся.
UFO just landed and posted this here
Да что там, в телефоне у ребенка будет больше… :)

«папа, а у Веры телефон на 4096 ядрах, только она еще не знает, как половину из них под GUI самого телефона отдать, чтобы не тормозило» :)

А смысл? Мощности и так уже больше чем надо для большинства задач, выделяются геймеры и инженеры
Даже для сервера, обслуживающего некислую сеть уже хватает просто близкий к топовой бытовой комп с виртуализацией и прочими шняжками.

Скорее будет повышение мощности контроллеров до уровня десктопного компа и перенос некоторых вычислений на мелкие встраиваемые решения. И тут важнее не мощность, а правильная паралеллизация или просто взаимодействие — развитие стандартов для интерфейсов и кластеризация отдельных элементов.
У меня в кармане 4х ядерный мобильник где каждое ядро по 1,4 ГГц. Я в 1995году, даже не мог представить такое. Ни один суперкомпьютер тогда и близко не стоял. Так что не расстраивайтесь, все выше описанные суперкомпьютеры, лет через 10-20 — окажутся точно у вас в кармане, за какие то небольшие деньги. Я уверен.
Если у кого-то сейчас есть задача, для решения которой требуется суперкомпьютер, то, скорее всего, и через 10-20 лет его задачам будет требоваться суперкомпьютер уже по новым меркам производительности.
Задачи только будут уже новые и более сложные.
Вся прелесть многих научных задач в том, что их можно расширять экстенсивно, грубо говоря, просто дописав нолик в точность. Поэтому суперкомпьютеры могут наращивать мощность как хотят — задача найдется на любую.
Не надо заливать, суперкомпьютер №1 в 1993-1996 под названием Numerical Wind Tunnel легко уделывал ваш мобильник. А он был далеко не единственным.
Частота * ГГц отличная метрика производительности!
а мужики то не знали) меняю ваш Intel Core i3-3225 3,3GHz на свой Pentium D 3,4GHz совершенно бесплатно
статья более, чем интересная, даже без всего этого пафоса про суперкомпьютеры на балконе.
У случае использования AMD Opteron есть ещё одна возможность делать линк между нодами, без использованися дорогих Inifiniband адаптеров. Процессоры на материнской плате общаются между собой по шине HyperTransport, и на некоторых серверных материнках эта шина выведена на отдельный разъём типа pci. Если взять 2 сервера — то можно их через эту шину и объединить. Но вот с софтом будет проблема, одна московская контора (НИИ, кстати) пару лет назад планировала coreboot пилить, чтобы запустить такую конструкцию. Честно говоря, не знаю, на чём дело закончилось у них.

Вот, даже ссылку на статью нашёл, которую они мне присылали: ra.ziti.uni-heidelberg.de/pages/publications/papers/2010/5.pdf
В Cray Jaguar интерконнект подключается напрямую к HyperTransport. Но задорого.
Infiniband втыкают в HyperTransport? Должно получиться быстро и с очень низким latency.

В пдф из моего комментария всё по рабоче-крестьянски, шлейфом напрямую соединяют :) Расстояние правда совсем короткое возможно. Самое оно для домашнего суперкомпьютера :)
Поискал такие материнки, похоже, что в свободной продаже их нет. Было несколько моделей несколько лет назад. В них на один из разъемов pcie был выведен гипертранспорт. Называлось это HTX коннектор.
Проще взять сделать сайт и сказать, что инопланетян ловишь телескопом.
Скачай софт — помоги поймать. А туда — агента кластера засунуть.
И все… Считай себе че хочешь)))
а если результат нужен быстро? например для трейдинга.
А что на нем можно считать в домашних условиях? FPSы в скайриме?)
а еще до сих пор актуально разве? за сколько компом на 30 Тфлопс можно посчитать сейчас?
Лично я сторонник того, что даже если bitcoin и было бы актуально считать, пользы было не больше, чем от FPS в скайриме.
У нас в политех хотят заказать NVidia Tesla HPC-3060(2x Xeon E5-2690, 128GB DDRIII, Nvidia Quadro K4000, 3xTesla C2075), но это нам скорее для расчетов и куда скромнее описанной здесь установки.
В остальное время компьютеров мощнее обычного Core i7 я не нагружал
А зачем вам для расчетов такая мощная видяха?
Может эффективней заюзать компьютерный класс в мап-редюс?
Компьютерные классы еле пережевывают 2008ю Visual studio. А зачем в компе 4 видяхи я сам не знаю, оборудование не я выбирал
Один комп да, так их в классе штук 10-20 должно быть. И если их core2duо(?) штук 20 заюзать одновременно, то получится неплохая вычислительная машина и считай нашару. Смотря какие задачи правда.
Для HFT такое нужно, например. Да, в домашних условиях.
Вы не поверите, но есть много причин по которым колокейшн в принципе не сделать. Например, вы тупо не подходите по критериям на то чтоб ы получить DMA. И что делать? К тому же, в этом есть одно большое приемущество — custom hardware который можно либерально втыкать и использовать.
Нет ножек — нет мультиковНу какой HFT без DMA? А если у нас есть DMA и оптика куда-то поближе к ARCA, до тогда это уже не домашние условия:)
На самом деле все зависит наверное от рынка на котором вы присутствуете. Если рынок населен конторами которые могут $1m/день тратить только на железо, то понятно что на нем ловить нечего, т.к. у них до биржи небось 10см провода. А если взять место менее рыбное, но вы на узком DSL канале с пингом в районе 30 можете неплохо порыбачить. И вот тогда и появияется вопрос, хватит ли у вас железа чтобы улыбки по всем инструментам и страйкам обсчитывать ну хотя бы раз в 100мс.
Тут мы приходим к вопросу, что считать HFT. Я склонен считать, что 30ms — это уже не HFT, а обычный, нормальный рынок.
Была бы фантазия. Множество прикладных задач можно решить конечноэлементными методами или нейросетями. Такой суперкомп в этом сильно поможет. Примеры задач, какие я бы стал делать: трейдерские расчеты, расчеты фазированных антенных решёток, дешифровка GSM
Например, видео конвертить в H264. А то скорость в 0.78 от риалтайма при конвертации в Full HD — это печаль.
UFO just landed and posted this here
UFO just landed and posted this here
Да, райзеры это хорошо, но карты очень легко можно охлаждать жидкостными системами.
С нашими-то сантехниками? :)
Для домашнего компа водянка — это очень даже неплохо. Это в серверных приходится извращаться с охлаждением: делать все CPU и GPU как можно энергоэффективнее, ставить на пих пассивные радиаторы и охлаждать внешним потоком воздуха. А дома, где суперкомп всегда под личным контролем такого не надо, и СВО — самый раз.
UFO just landed and posted this here
«обычный гигабитный Ethernet» — уже давно бытовое low-end решение.
Можно связывать узлы кластера по 10-гигабитному езернету.
Уже у всех домохозяек 10-ка!
100 и по оптике, иначе никак.
Не всем подходит, ибо латентность заметно выше чем у Infiniband, плюс еще некоторая специфика… В случае потребностей в интенсивном вводе-выводе и/или интенсивном межузловом обмене Infiniband — едва ли не единственный разумный выбор.
Проблема латентности Ethernet возникает только при использовании классического TCP/IP стека.
Если же использовать netmap API, латентность будет ровно такая же, как у Infiniband при том же размере пакета.
И в специализированных Ethernet-коммутаторах для датацентров, точно так же, как у Infiniband, используется cut-through switching.
А какой смысл сравнивать полноценное, готовое к использованию решение IB с только физическим и канальным уровнями, оставленными от Ethernet? Или остальная обвязка поверх голого Ethernet реализованная на CPU сможет работать быстрее, чем та-же обвязка реализованная внутри Ethernet-карты?

Не в TCP/IP тут дело и не в netmap, а в существующих реализациях и их возможностях, которые для InfiniBand обеспечивают не только лучшую латентность, но и много других нужных функций, будь то RDMA, надежная доставка данных и т.д.
netmap — это и есть RDMA.
netmap is a very efficient framework for line-rate raw packet I/O from user space

То, что netmap — это способ получать пакеты в обход большей части сетевого стека я вижу, но вот как программный модуль по обходу сетевой подсистемы может ходить в удаленную память другого узла остается загадкой.

Канонический RDMA — это вообще аппаратная функциональность, работающая без участия операционных систем узлов.
netmap позволяет заданный участок памяти перегнать в память соседа без участия сетевого стека.
Канонический же RDMA (используемый для отладки ядра, например) можно реализовать на Intel PDK. Однако, это дыра в безопасности.
Для покатать сферических коней — все правда, для работы приложений поверх реальных железок и стеков IB оказывается выгоднее по многим параметрам — www.hpcadvisorycouncil.com/pdf/IB_and_10GigE_in_HPC.pdf
Смутное дежавю — 15 лет назад я слышал ооочень похожие слова про преимущества ATM. :)
Предлагаю продолжить этот разговор лет через 10-15.
Через 10-15 лет будет скучно вспоминать про такие древности. А считать-то нужно сейчас, и для многих задач интерконнект весьма важен. Так что IB поживет еще немного, я думаю.
IB FDR имеет пропускную способность 56Gb/s на один порт. Такие есть двухпортовые адаптеры для PCIe 3.0. А это значит, что используя оба порта можно выжать почти максимум из PCIe 3.0 x16 — 112 из 128Гб/с возможных.
Если верить Ebay, то адаптеры 10Gb Ethernet стоят баксов 200, а IB 20Gb — $80. Ну и задержки в езернете еще дополнительные.
Да, x86, однако нынче крут :)
HP DL980 с описанными 8-мью десятиядерниками уделывет HP Intergrity SuperDome на IA64. При цене в 10 раз меньшей :)
Правда, и надежность, конечно, похуже, но за такую цену это вопрос решаемый :)
Если бы еще не различный endian, из-за которого приходится 100Тб базы копированием перетаскивать, уже давно бы все мигрировали…
чтобы восемь процессоров уместились в корпусе, их размещают не сразу на материнской плате, а на отдельных платах, которые втыкаются в материнскую плату.

Напомнило Pentium II:
image
Я конечно не спец в области молотилок чисел, но по моему до обсуждения железа надо бы понять какое оно нужно, то есть сначала понять что за задача, как она решается — хорошо ли паралеллится, какие обьемы данных будут передаваться между процессами, как оптимизируется

Или все это под конкретную задачу типа обсчета радужных таблиц?
Перефразируя одну известную личность — если у вас нет терафлопа, какой вы нафиг суперкомпьютер…
UFO just landed and posted this here
Шифроломки обычно и делаются на FPGA, специфика такова, что на традиционных архитектурах взлом будет не особенно эффективен. Так уж повелось со времен Colossus, который в 1944 году взламывал шифр Лоренца всего в 240 раз медленнее реализации такой же ломалки на С на ноуте 2005 года.
Большое спасибо — на самом деле, вокруг полно людей, которым нужны считалки на 2-32 узла, и которые не готовы двигать свои расчеты в облака. Для них такая «открывалка глаз» особо полезна.
Странно, что никто до сих пор не упомянул такую характеристику, как гигафлопс на ватт. Задачи-то очень разные бывают. Одно дело считать всякую математику, совсем другое — зарабатывать деньги. Тот же гугл просто не запускал в своих дата-центрах LINPACK, ну и сетевая архитектура у них не очень-то подходит под этот тест. А так, например, у Титана мощность (электрическая) «всего-то» 9 МВт, при том что у современных дата-центров гугла, фейсбука или там яндекса счет идёт на десятки МВт, и энергию там действительно экономят. Сплошь и рядом — серверы на базе ноутбучных процессоров (а отнюдь не на XEON-ах).
Простите за глупый вопрос, а в чём смысл кучи серверов на слабых процессорах? Прчему вместо нескольких стоек таких слабеньких серверов не воткнуть одного вот такого монстра на крутых Xeon-ах (убрав видеокарты (т.к. задача не требует FPU-рассчётов) и снабдив большим рэйдом из крутых SSD)?
Ну смотрите, берем два процессора на одних и тех же ядрах Sandy Bridge:
серверный XEON X5690: 6 ядер, 3.46 Ггц, 130 Вт, $1700
мобильный Core i5 2500T: 4 ядра, 2.3 Ггц, 45 Вт, $220
В случае сервера на 8 XEON-ов мы получим 48 ядер за $13600 (считаем только процессоры) с потреблением больше киловатта, которые нужно отвести из условно 4U. Представьте себе, что мы засунули в тесную железную коробку включенный утюг и пытаемся держать температуру его поверхности не выше 60 градусов.
В случае Core i5 частота меньше грубо в полтора раза, поэтому для той же производительности «по ядрам» нам нужно не 48, а уже 72 ядра, или 18 четырёхядерных процессоров. Это 18 1U серверов. Процессоры в данном случае обойдутся в $3960 и будут потреблять 800 Ватт, которые нужно собрать с 18U (это примерно половина стандартной стойки на 42U) — то есть совершенно никаких проблем с охлаждением.
Кстати, весь сервер целиком на базе Core i5 стоит порядка $700-800 (без учета дисков и инфинибанда). То есть 18 таких серверов могут обойтись дешевле, чем одни только процессоры для 8-процессорного XEONа.
Дальше всё зависит от наших задач.
Если у нас тяжелая математика (решение огромных СЛАУ), то нам нужен Infiniband, и XEON-ы с их общей памятью вполне могут выйти в лидеры и по производительности, и по цене.
Если у нас просто система массового обслуживания с большим потоком разнородных, мало связанных запросов (типичная для веба и облаков ситуация), то достаточно обычного GbE, то пачка дешевых серверов выигрывает с огромным отрывом. В том числе по отказоустойчивости: если что-то сдохло, просто выкинули один сервер и воткнули резервный, который подцепил виртуальные машины от старого и всё.
Что до систем хранения, ситуация там похожая: либо это отдельная SAN с безумной производительностью и ценником (для всяких баз данных и т.п.), либо же выгоднее воткнуть по 1-2 обычных десктопных HDD в каждый дешевый сервер и организовать поверх них «программный рейд» размером с весь дата-центр (и тупо хранить все данные на трёх разных машинах для отказоустойчивости).
Дальше всё зависит от наших задач.
Если у нас тяжелая математика

В данном случае мой вопрос был о web-сервере под большую нагрузку. Применительно к рассчётным задачам мне всё более-мене понятно.

Если у нас просто система массового обслуживания с большим потоком разнородных, мало связанных запросов (типичная для веба и облаков ситуация), то достаточно обычного GbE, то пачка дешевых серверов выигрывает с огромным отрывом. В том числе по отказоустойчивости: если что-то сдохло, просто выкинули один сервер и воткнули резервный, который подцепил виртуальные машины от старого и всё.

Выигрывает по энэргоэкономности/прохладности? Или в плане производительности обслуживания запросов каким-то образом тоже?
В первую очередь — выигрышь по стоимости, но как правильно заметили ниже, нужно ещё учитывать фактор стоимости стойко-места в датацентре. Во-вторую, по отказоустойчивости: если сдох один из тонких серверов, его программно отключили от общей системы и потом спокойно заменили. Если что-то сдохло в «большом» сервере — всё печальнее. Там конечно есть технологии для горячей замены почти всего вплоть до блоков питания плюс избыточность компонентов, но все эти неиспользуемые блоки сначала нужно купить, а только потом поставить в резерв, и неизвестно, потребуются ли они вообще когда-нибудь.
Что касается производительности, то всё опять же зависит от задачи. Что именно делает ваш вебсервер? Если в-основном раздает статику/закэшированные статические страницы, то пачка тонких серверов будет производительнее, так как у каждого своя ОЗУ, и процессоры друг другу не мешают в эту ОЗУ лазить. Аналогичная ситуация, если у вас много «памяте-ёмких» вычислений, например вы обрабатываете какое-нибудь фото или видео.
А вот если же у вас на каждой странице пачка динамических запросов к базе данных с большим количеством операций записи, да ещё в транзакциях (банкинг там, е-шоппинг и т.п.) — то наоборот, общее ОЗУ в многопроцессорных SMP серверах решает, оставляя любой кластер из мастер-мастер реплик не у дел. На практике часто встречаются гибридные решения с мощным сервером СУБД, «обернутым» кластером тонких серверов для статики.
В яндексе серверы на базе ноутбучных процессоров? Мне пока попадались в основном на E5-2660 :) ЕМНИП обычно это 1u с 4 дисками и 2 физическими процессорами, 48/96 гигабайт памяти. Вы, кстати, в своих подсчётах забыли об очень важной вещи — количество занимаемых юнитов. На сколько я помню, сейчас ДЦ строятся с учётом отвода 10КВт тепла с 1 стойки, так что тут проблем особых нету. А вот занимать 18 юнитов, когда можно разместить всё в 4 — это разбазаривание ДЦ. Думаете, новые ДЦ строят потому что захотелось? Часто банально кончается место в стойках, куда можно оборудование ставить. Ну и с точки зрения управления хозяйством — 100 мощных серверов проще обслуживать, чем 450. При таких масштабах начинаются всякие неприятные спецэффекты у систем деплоймента. Питание, конечно, тоже не резиновое, но его хотя бы можно попытаться расширить, добавить же квадратные метры в здание намного сложнее :)

Если надо хранить данные — то прицеляют полку на 24 диска, там 2-терабайтные диски. Если монга какая нибудь, очень жадная до дискового IO — то в сервер вставляют ссд вместо обычных дисков. Если надо хранить пару петабайтов — полка дисков выгоднее всего.

Ну у гугла наоборот. У них из стандартного только стандартные морские контейнеры, в которых смонтированы стандартные стойки. А вот напрямую в стойки уже вставляются бескорпусные тонкие серверы на собственных гугловских материнках с одним процессором. БП общие на стойку, сеть общая, охлаждение общее, к каждой матери подцеплен дешевый HDD, запитано это всё от собственной гугловской электростанции, и крутится на этом сильно перепиленный линукс со своим libc, своим менеджером памяти, своим сетевым стэком и еще кучей всего своего.
Идея идет в массы, в тех же европейских датацентрах сейчас основной хит — это именно тонкий дедик на Core i5 по цене аренды в 60 евро в месяц. Видимо после учета всех-всех расходов это оказывается таки выгоднее ксеонов.
Гугл — знатные велосипедасты. Кто знает, как бы они делали сейчас, на современном железе и современном софте. Сейчас они в заложниках у собственной же концепции мира 10-летней давности.

Фейсбук в своём Open Hardware пропагандирует всё же более обычные решения — www.opencompute.org/wp/wp-content/uploads/2013/01/Open_Compute_Project_AMD_Open_3.0_Modular_Server_Specification.pdf.

Тонкий дедик на i5 — это наверняка потому, что многим толстый 8-ядерный XEON не нужен. Многие с радостью пользуются Hetzner с десктопным железом и не-ECC памятью, и ничего. Но вы то говорили про современные дата-центры гугла, фейсбука или там яндекса, а у этих компаний количество серверов изменяется в десятках тысяч.

А на счёт места — крайне сложно найти в Москве помещение с крепким полом, где можно подвести по 10МВт от разных подстанций.
С крепкими полами на наших болотах действительно беда, но прямо чтобы решить проблему с местом XEON-ы не позволяют. Если мы говорим о восьмипроцессорных утюгах, то в стандартную стойку вы их поставите где-то четыре штуки. А если вместо них ставить двухпроцессорные 1U, то в смысле плотности и энерговыделения не изменится ничего. А продвинутое охлаждение и электропитание стоят немалых денег.
Ну и насчет «место vs электричество». Не знаю, как там в Европах, а у нас в default city за первый год работы 10-киловаттной стойки энергетики затребуют сумму порядка $20000 (это собственно электроэнергия плюс право подключения к электросети, без учета стоимости работ и материалов). Экономия электричества в 20% даст $4000 профита. Стоимость аредны 1 кв. м. помещения под серверную — ну пусть $200 в год, для стойки нужно метра три с учетом подходов. Вот и считайте, что выгоднее.
Спасибо. В детстве (во времена 386-х) я мечтал о стонях мегагерц и фантастических 32 MB оперативки. В юности (во времена Pentium 2) я мечтал о гигагерцах частот и гигабайтах оперативки. А теперь ими никого не удивишь и практического толку от тех же 4 GB сегодня столько же, сколько от 64 MB во времена Pentium 2. И вот, благодаря этой статье, у меня снова есть о чём мечтать :-)

Единственный нюанс в том, что когда вся сила в колличестве ядер, так просто с полфига всю эту мощь не задействуешь, надо соображать в распараллеливании рассчётов, программирование становится уже совсем не такой тривиальной задачей.
UFO just landed and posted this here
Развлекаюсь кое какими задачами на досуге иногда, иногда неделями свой Core 2 Duo 2GHz мучаю. Пишу под .Net и JVM, думаю попробовать Erlang.
UFO just landed and posted this here
По-большому счёту так и есть. Суперкрутое компьютерное железо для меня это просто романтика. Cray бы тоже купил какой-нибудь старенький для души если они доступны по разумным ценам, но, боюсь, с доставкой и размещением там не просто будет.
У товарища Quanta QSSC-S4R, 4x Xeon E7 4870, 8x16GB DDR3, обошлось в $3k
image
UFO just landed and posted this here
О! А вот это отличный вариант. Надо б подумать
Кстати помимо GPU от AMD и nVidia было бы интересно рассмотреть интеловские PCI-Express карты. Есть такие, предназначены чисто для рассчётов, а не для использования в роли видеокарт. Сейчас, к сожалению, что-то не могу найти, но относительно недавно, помню, где-то выплывало. Зная на сколько выше качество драйверов у Intel по сравнению с nVidia и AMD, их решение кажется мне достойным рассмотрения.
Эта штука называется Xeon Phi.
Одна из ее ключевых особенностей, это то, что это практически процессор общего назначения и значит для его использования не нужно полностью переписывать код, что требовалось бы в случае использования GPU-ускорителей.
Так это же круто! Если они ещё и в системе видятся как обычные процессоры, то ваще! Я бы именно такие и взял бы тогда. А какие там колличество ядер, частоты и кэш?
Нет, они не видятся как обычные ядра. Все-таки нужно добавлять конструкции, которые будут выгружать вычисления на эти Xeon Phi.
Правда внутри Phi сидит обычный Linux и на него можно даже залезть по SSH. Что еще можно сделать непосредственно изнутри я к сожалению не знаю.

По параметрам, я думаю, лучше почитать документацию, чем вольный пересказ человека, который детально про эти Phi только на конференции слышал, а сам в вопросе пока не разбирался за неимением возможности пощупать Phi в ближайшей перспективе… :)
В статье они, кстати, упомянуты. Там 60 ядер х86. Расчеты с двойной точностю 1Tflops. Памяти 8Гб.
Там 60 ядер х86.

Там не просто x86-ядра, а 64-битные, с поддержкой всех векторных инструкций и 4 потоков исполнения на ядро ядра. Те 60 ядер по сути 240 потоков исполнения. Но при всем при этом ядра и «обрезанные» по сравнению с современными CPU. Например, они in-order, так как базируются на архитектуре первых Pentium.
Современные POWER, кстати, круты тем, что там есть аппаратный десятичный FPU. Т.е. можно делать точные десятичные рассчёты с плавающей точкой (ведь, как известно, не все десятичные дроби можно точно перевести в двоичные).
соединять ноды можно еще и по PCIe, есть интересные решения. Тут вот обзорная статья www.rtcmagazine.com/articles/view/100910
Общий смысл что используя PCIe коммутатор можно шарить видео-карты, сетевые устройства между вычислительными нодами. Можно цеплять сервера между собой по 16-и канальному PCIe достигая скорости до 120Гб/с. Ничего волшебного, даже софт имеется той или иной сырости.
Sign up to leave a comment.

Articles

Change theme settings