Комментарии 18
Не хватает пункта "Использую data.table".
Например, трехтерабайтная БД у меня бодро вертится на 256ГБ оперативки и при этом немало статистики и прогнозирования выполняется именно на R.
Само собой, при прототипировании удобней работать не с серверным R, не имеющим никакого интерактивного интерфейса, а с локальным. Но для продуктивной системы связка SQL+R выглядит привлекательней.
R гораздо богаче по функционалу чем SQL, например в SQL не особо удобно вращать таблицы из широкого формата в длинный и обратно.
По поводу ограничений по оперативке, есть пакеты которые это решают, к примеру есть dbplyr.
В общем надо из задачи исходить.
Я утверждал только, что совместное использование SQL и R в одном процессе с общей памятью, как происходит в PostgreSQL, позволяет в любой момент исходить из задачи не затрагивая архитектуру решения.
Цель этой статьи заключается в том, что бы тем кто знает SQL помочь сделать первые шаги в манипуляции данными в R, думаю в любом случае статья полезна.
Я только указал на то, что для манипуляции с большими объемами данных SQL все равно необходим. Да и не поможет dplyr, когда требуются подзапросы, рекурсии, оконные функции, транзакции, индексы, партиционирование, табличные функции, кластеризация и многое другое.
Ну и 3 Тб данных обрабатывать это жестко в любом инструменте будет, здесь спору нет :)
я часто использую пакет sqldf, работаю с датафреймами используя ситаксис SQL
Так мне не приходится учить синтаксис data.table или dplyr, ну и sql не забываю)
Не понял чем концепция Tidy Data отличается от первой нормальной формы таблиц и обычной excel таблички с колонками?
А можете привести пример "грязной" таблицы в SQL? Кроме того что в текстовых полях хранят даты/числа ничего на ум не приходит, но это так, легкая гигиена.
А вам никогда не попадались таблицы в которых например id через запятую в одной ячейке перечисленны?
Это уже не первая нормальная форма, и нет, в SQL базах я такого не встречал. Может, я слишком долго работаю в Enterprise среде, но для меня это не "грязные" таблицы, а жесткая дичь за которую увольняют
Так что загадить можно и SQL таблицу.
Глаголы R vs Операторы SQL