Как стать автором
Обновить

Новый ML-алгоритм работает до 15 раз быстрее на центральном процессоре, чем на видеоускорителе

Время на прочтение 2 мин
Количество просмотров 19K
Всего голосов 35: ↑34 и ↓1 +33
Комментарии 21

Комментарии 21

Из статьи не совсем понятно: SLIDE на CPU быстрее SLIDE на GPU или же SLIDE на CPU быстрее классики на GPU?

Почитал статью. SLIDE сравнивался с TF-GPU (3.5x) и TF-CPU (10x).
А реализация SLIDE на GPU будет неэффективной, т.к. алгоритм практически не векторизуется.

Хотелось бы сравнение для домашнего компа с игровой видюхой.

Скорее всего, вычисления на игровой видеокарте окажутся быстрее.


Первый момент: алгоритм SLIDE эффективен только при большом количестве ядер (больше восьми). При 8 ядрах SLIDE = TF-CPU, при 4 ядрах TF-CPU уже получается быстрее SLIDE.


Второй момент: используется тип данных FP32, а на игровых видеокартах производительность FP32 так же высока, как и на профессиональных. На RTX3090 TFLOPS так вообще в 2 раза больше, на на V100 (35 против 15).


Ну а дальше просто смотрим статью (Figure 9) и делаем выводы.
Даже если взять 16-ядерный процессор, то GPU все равно окажется быстрее, если поставить RTX3090 вместо V100.

На RTX3090 TFLOPS так вообще в 2 раза больше, на на V100 (35 против 15).
вы чет в 8 раз ошиблись с v100.

Вы о tensor cores и потенциальных 120 TFLOPS? Я вас разочарую: тензорные вычисления в V100 работают с FP16, а не с FP32 (точнее, FP16 × FP16 → FP32). У авторов же используется тип FP32, т.е. тензорные ядра оказываются не задействованы. Так что нет, я не ошибся.

НЛО прилетело и опубликовало эту надпись здесь
Наконец то в 2021 году, научились кешировать информацию и вычисления. Ведь все Решения и шаги можно запоминать. Мы не вычисляем каждый раз что 1+1 будет 2 — мозг берёт решение из памяти.

Нужно вычислять сам процесс вычисления и делать радужные хеш таблицы до 14 — 20 символа.

Вообще, матричное квадратные операции все уже вычислены.
Даже есть визуализация этого. получается всего 8 узоров

xcont.com/pattern.html

xcont.com
Знакомые узоры. На хабре есть статья об этих узорах и даже не одна.
Мельком взглянул на их бумаги. Я так понимаю, основа их метода — это то, что можно вычислять только сильно-влияющие связи, отбрасывая вычисление остальных. Оптимизационный ход неплохой, но надо понимать, что это жертвование точностью в угоду скорости.
Но тоже самое можно проделать и на GPU — тоже не вычислять все связи, а только самые значимые. И тоже будет быстрее.

Вторая их основа — это кэш вместо повторного расчета. Тоже хороший ход, но невероятно сильно вырастет потребление памяти. А попытка вписать это потребление памяти в какие-то ограничения приведет нас к очистке кеша по LRU и сборщику мусора с периодическим запуском. Что в каких-то вариантах может сожрать всю производительность.
Кроме того, существование такого кэша сильно мешает параллельности — теперь произвести вычисления на сотне разных компов параллельно стало проблемой — надо как-то синхронизировать кеш между ними.
И это тоже можно проделать на GPU, вроде.

Вобщем, сравнение CPU vs GPU у них получилось странное. Напоминает «окунем газету в серную кислоту, а тв-парк в дистилированную воду». А в целом — молодцы, что прорабатывают это направление.
Тоже хороший ход, но невероятно сильно вырастет потребление памяти.

Да. 12 гигабайт памяти.


Кроме того, существование такого кэша сильно мешает параллельности

Потому они и запускали на 44-ядерном процессоре.

Уже и 128-ядерные процессоры не за горами с соответсвующим количество кеш-памяти
НЛО прилетело и опубликовало эту надпись здесь

All the experiments are conducted on a server equipped with two 22-core/44-thread processors (Intel Xeon E5-2699A v4 2.40GHz) and one NVIDIA TeslaV100 Volta 32GB GPU.

НЛО прилетело и опубликовало эту надпись здесь
даже на домашнем компе
не все ставят проц за $750 в домашний комп… Тесла правда еще вдесятеро дороже, но всё же.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Как бы в правильном направлении идут, но вот я чего то волноваться начал, видеокарту уже не купить, а теперь вот под процессоры взялись оптимизировать.
Никакой угрозы для обычного CV дип лернинга на GPU это не представляет, потому что у их сети нет глубины и учили они сеть на задаче рекомендации, а не распознавании графики.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Другие новости

Истории