Комментарии 21
Из статьи не совсем понятно: SLIDE на CPU быстрее SLIDE на GPU или же SLIDE на CPU быстрее классики на GPU?
Хотелось бы сравнение для домашнего компа с игровой видюхой.
Скорее всего, вычисления на игровой видеокарте окажутся быстрее.
Первый момент: алгоритм SLIDE эффективен только при большом количестве ядер (больше восьми). При 8 ядрах SLIDE = TF-CPU, при 4 ядрах TF-CPU уже получается быстрее SLIDE.
Второй момент: используется тип данных FP32, а на игровых видеокартах производительность FP32 так же высока, как и на профессиональных. На RTX3090 TFLOPS так вообще в 2 раза больше, на на V100 (35 против 15).
Ну а дальше просто смотрим статью (Figure 9) и делаем выводы.
Даже если взять 16-ядерный процессор, то GPU все равно окажется быстрее, если поставить RTX3090 вместо V100.
На RTX3090 TFLOPS так вообще в 2 раза больше, на на V100 (35 против 15).вы чет в 8 раз ошиблись с v100.
Нужно вычислять сам процесс вычисления и делать радужные хеш таблицы до 14 — 20 символа.
Вообще, матричное квадратные операции все уже вычислены.
Даже есть визуализация этого. получается всего 8 узоров
xcont.com/pattern.html
xcont.com
Но тоже самое можно проделать и на GPU — тоже не вычислять все связи, а только самые значимые. И тоже будет быстрее.
Вторая их основа — это кэш вместо повторного расчета. Тоже хороший ход, но невероятно сильно вырастет потребление памяти. А попытка вписать это потребление памяти в какие-то ограничения приведет нас к очистке кеша по LRU и сборщику мусора с периодическим запуском. Что в каких-то вариантах может сожрать всю производительность.
Кроме того, существование такого кэша сильно мешает параллельности — теперь произвести вычисления на сотне разных компов параллельно стало проблемой — надо как-то синхронизировать кеш между ними.
И это тоже можно проделать на GPU, вроде.
Вобщем, сравнение CPU vs GPU у них получилось странное. Напоминает «окунем газету в серную кислоту, а тв-парк в дистилированную воду». А в целом — молодцы, что прорабатывают это направление.
Тоже хороший ход, но невероятно сильно вырастет потребление памяти.
Да. 12 гигабайт памяти.
Кроме того, существование такого кэша сильно мешает параллельности
Потому они и запускали на 44-ядерном процессоре.
All the experiments are conducted on a server equipped with two 22-core/44-thread processors (Intel Xeon E5-2699A v4 2.40GHz) and one NVIDIA TeslaV100 Volta 32GB GPU.
Новый ML-алгоритм работает до 15 раз быстрее на центральном процессоре, чем на видеоускорителе