Комментарии 7
интересно, а блоках биткойна 30х он сделает?
-6
А, на php к нему можно подключиться?
-2
Круто, давайте на пыхе еще научные вычисления делать. Хотя, судя по вопросу, вы или полный и беспросветный даун (ПОДКЛЮЧИТЬСЯ НА ПХП К ФРЕЙМВОРКУ ДЛЯ КЛАСТЕРНЫХ ВЫЧИСЛЕНИЙ??777) или что-то еще. Хотя нет, первый вариант.
-9
рассматривая hadoop мы имеем thrift интерфейс, а следовательно:
1. доступ на hdfs
2. доступ к состоянию джобов и их управление
3. доступ к hive и как следсвие sql-подобному языку для выполнения запросов на mr
А учитывая, что thrift может скомпилить схему и под php, то получаем доступ к кластеру хоть из пыха, хоть из си, хоть с питона.
Не путайте возможность подключения и отправку запросов на выполнение и сами вычисления.
1. доступ на hdfs
2. доступ к состоянию джобов и их управление
3. доступ к hive и как следсвие sql-подобному языку для выполнения запросов на mr
А учитывая, что thrift может скомпилить схему и под php, то получаем доступ к кластеру хоть из пыха, хоть из си, хоть с питона.
Не путайте возможность подключения и отправку запросов на выполнение и сами вычисления.
+7
основная фишка в том, что часто используемые данные кешируются в
памяти, у хадупа как таковое главный тормоз это hdfs, в качестве постоянного хранилища у этого sparky используется… упс hdfs или s3 от amazon, в итоге стоит данным не влезть в память и сразу же мы в какашке.
В данный момент hadoop уже достаточно имеет поддержки на уровне больших кампаний, а фреймворков которые превосходят по тестам hadoop более чем достаточно.
очередной пример — piccolo.news.cs.nyu.edu/ (извиняюсь ссылку на хабр найти не могу, точно знаю что уже проскакивала она где-то здесь)
правда там таже проблема — все данные в памяти и мы рады, а вот что делать если данные в память не влазят?
памяти, у хадупа как таковое главный тормоз это hdfs, в качестве постоянного хранилища у этого sparky используется… упс hdfs или s3 от amazon, в итоге стоит данным не влезть в память и сразу же мы в какашке.
В данный момент hadoop уже достаточно имеет поддержки на уровне больших кампаний, а фреймворков которые превосходят по тестам hadoop более чем достаточно.
очередной пример — piccolo.news.cs.nyu.edu/ (извиняюсь ссылку на хабр найти не могу, точно знаю что уже проскакивала она где-то здесь)
правда там таже проблема — все данные в памяти и мы рады, а вот что делать если данные в память не влазят?
+1
>Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных.
Может следовало не писать отдельный фреймворк, а сделать контриб-патч в сам hadoop?..
Может следовало не писать отдельный фреймворк, а сделать контриб-патч в сам hadoop?..
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Spark: дата-майнинг до 30x быстрее Hadoop