Как стать автором
Обновить
-1
0

Пользователь

Отправить сообщение

на гпу нужно тренить модель, потом готовую модель квантизовать и использовать в Raspberry Pi+Corall например что бы по месту что то распознавать объекты

нет конечно нельзя в коралле нет никакой куды
С машины на машину тож будет не просто переносить, если нужных драйверов к примеру нет которые требуются для работы собранного докер образа

а можете чуть подробнее рассказать, куда приходят офферы и где выстраиваются очереди за датасантистами
Просто смотрю сейчас собесы сплошной косплей ФААНГа с лайвкодингом и алгоритмами, и еще редкий интервьюер задаст задачу на теорему Байеса что бы сам в ней не запутался а в результате оффер на 250К и работа по перекладыванию джейсона в ямл и обратно.
Эчайрш то ли сократили то ли зп им не платят, как то совсем найм и коммуникации испортились
Короч чот грустно в российском датасаенсе лично мне

Незна в чем тут дело в том что только четверг а я чот задолбался, да зпшку не поднмали уже 2 года, но это лучшее что я читал за последний год.
Как то даж легче стало что ли

Еще правда была scala для работы со spark но кажется что не взлетело и уже вряд ли взлетит пушто   все работают на pyspark 
если посмотреть на релизы pyspark и sparkR то становится очевидным что в бигдате по широте использования R очень сильно отстает от питона

LOL
Не думал что мы говорим про анал
На  R большинство хороших пакетов для анализа данных использует либо плюсы либо фортран под капотом или андерхуд кому как удобней воспринимать метафоры
Пандас и напай это уже вчерашний день у четких патсанов от мира ДС, вместо первого поларис вместо второго джакс

Все что ты написал не имеет никакого отношения к  DS  и к задачам которые решает датасантист

Решать ДС задачи с помощью GUI -  это отдельный вид слабоумия, хотя ТОПам нравится идея ноу кода и лоу кода, но в реальности это все очень хреново заканчивается.( почему нравится и почему хреново заканчивается отдельная очень обширная тема,  энивей SAS начал исчезать в 2016-2017 и окончательно стал тыковой году в 2020м)

Все эти переливы данных из транзакционных БД в озеро и из озера в аналитическую БД - это работа дата инженеров и  ETL разрабов.
Я тебе больше скажу все эти кликхаусы это для аналитиков что бы отчетики делать и дашики с графичками то есть это продуктовые аналитики, аналитики данных и  BI'щики опять же не  DS'ы
И отчетики они делают в экселечках а дашики раньше в Табло а теперь в дата ленс, такие дела.

   DS - это python, может быть R если не надо работать с современными архитектурами нейронок

Ну вот смотри типичная DS задача, нужно определить с кой вероятность пользователь нашего сервиса не вернет кредит, расскажи мне здесь про REPL и куб ди эс

Задачи DS толка не предусматривают перформанс, там вообще не всегда очевидно как решить задачу по этому пишутся алгоритмы и используется доступная математика а вот если вся эта математичность взлетит то есть задача будет решена с нужным уровнем качества тогда уже можно думать про скорость ресурсы и прочий перформанс.

Но библиотеку можно поставить и с флэшки, если компьютер стоит в месте где нет интернета

можно работать абсолютно автономно, интернет нужен только что бы скачать какую то библиотеку.
Есть замечательная IDE для работы с R, Rstudio
Нейросети есть, но современная движуха идет все таки на python
На счет всего отального что бы писать самому, ну тут все упирается в целесообразность зачем писать самому какую нить корреляцию Спирмена если для этого уже есть готовый пакет, еще и написанный на плюсах под капотом.
Бывают даже такие случаи, когда нагуглил какй то экзотический статистический метод в чьей то диссертации и этот человек реализовал свой алгоритм в пакете для R.
P.S. Если вам нужно загружать большие файлы без необходимости применять всякие статистические штуки, то я бы посмотрел в сторону языка python, jupyter-notebook (IDE), и библиотек pandas/polaris

1.Подскажите в чем Вы видите минусы того что студенты ( будущие аналитики и исследователи) пишут на хабр?
2. Куда им писать свои первые статьи что бы набраться опыта?

Забыл добавить, что есть возможность оформить свои исследования в markdown, pdf, powerpoint, html и даже сделать доступ к отчету через интернет

Привествую Вас дорогой хабровчанин
чем R лучше чем эксель:

  1. Возможность загрузить более 1 млн строк

  2. Возможность работать с данными в разных форматах, csv, parquet, sas, statistica

  3. Возможность подключиться к хранилищу данных SQL, Spark

  4. Возможность использовать большое количество статистических тестов и подходов(bootstrap, Монте Карло)

  5. Построение моделей xboost, svm, random forest, нейронные сети (линейные теоретически можно и в эксельке)

  6. Визуализация данных всякие специализированные графики violin plot, confusion matrix и другие.

  7. Расширение функционала при помощи R packages, пакеты есть почти для всего, что только можно представить себе из мира исследования данных, статистики и прчее.

  8. Можно парсить интернет можно писать ETL ELT

  9. Можно сделать дашборд

Все же если вы аналитик да еще и бигдаты, то лучше бы Вам поставить Ubuntu причем на английском языке, проще будет работать и гуглить ошибки ну и с разрабами ML инженерами и дата инженерами будите на одно "волне".
А ошибки обязательно будут как только начнете ставить в питон всякие библиотеки для анализа данных там то gcc отвалится то еще что нить
Минт может быть вполне ок но особо у коллег не видел да и котейнеры в основном или на убунте или Дебиане так что всякие там спаки аирфлоу и прочее легче равернуть и потыкать на своем ноуте когда у тебя Убунта. Такое мое личное мнение

ну если привлечь социологов для исследования по результам которого взвесить абонов по соцдему, гео, уровню дохода и т.п., то можно в пределах некой погрешности аппроксимировать, ну и наверно стоит внести предположение что все дороги покрыты сигналом Теле2
Теле 2: у вас же есть такая витрина с весами по результам социологического исследования?
Веса как часто пересчитываются? База живая каждый день разное количество людей в сети и вообще в базе( кто то уходит в МТС, Мегафон, кото то покупает симку Теле2)

Но Gini это не метрика точности, это метрика качества бинарного классификатора.
Что у вас тогда является классами правильный / неправильный трек?
По какой методике определили референс?
Зачем считать расстояние Фреше?
Почему кратчайший путь а не наиболее вероятный?
PandasUFD? звучит не быстро и не особо графово
У вас точно датасантисты в бигдате работают?
Не рассматриваете вариант отдать геоаналитику на аутсорс?

включая все виды лоббирования
оу, блин
Звучит так как будто бы это уже не свободный рынок, даже с каким то привкусом коррупции

берешь HH и смотришь описание вакансий и будет тебе полная ясность, вплоть до понимания за какой скил сколько платят

Информация

В рейтинге
5 064-й
Зарегистрирован
Активность