Pull to refresh

Comments 7

У меня возникло такое впечатление, что Azure ML – это скорее игрушка, нежели полноценный инструмент датасаентиста. В основном причина в упомянутых вами ограничениях. Михаил, хотелось бы получить ваш комментарий по этому поводу. Каких возможностей не хватает Azure ML (или всего в достатке)?


И было бы круто почитать про обычный Azure, особенно про то, как разобраться в его (не очень-то юзер-френдли) интерфейсе (и не впасть при этом в отчаяние).

Azure ML (как и его облачные братья от AWS и GCP) вполне серьезный инструмент data scientist'a.
В основном причина в упомянутых вами ограничениях
Про ограничения я ничего не понял: понятно, что они есть — толщина dataset'а, длина вектора фич и т.п. (довольно большие величины). Но в статье про них не написано, а те ограничение, которые указаны в статье — в csv разделитель запятая, а не другой символ, и BDT приходится использовать вместо простого дерева — ограничения конкретного модуля, а не платформы. Хотите читать GBs данных из HBase/NoSQL/MSSQL? — используйте модуль Import Data. Не устраивает формат? — добавьте R/Python-скрипт и трансформируйте в нужный.
не очень-то юзер-френдли
Про user-friendly: удобнее всего, конечно, писать код (я серьезно). Но писав продолжительное время на R, я без проблем освоил Azure ML (может обратная ситуация тоже возможна, уже не узнаю). Но это проблема общая для IT-мира: если ты не понимаешь на уровень абстракции ниже, то довольно сложно понять, как эта штука работает.

Чего в Azure ML сейчас не хватает (мне) так это:


  • DL-алгоритмы из коробки (есть Azure GPU-инстансы и там это возможно),
  • более шустрый перенос новых R-пакетов в облако (в AzureML-environment новые версии пакетов появляются с тормозами). Синхронизация облачный и девелоперских версий R-runtime и R-пакетов — это вообще отдельная история, как и история с source control в Azure ML.
  • чтение данных напрямую с HDFS, поддержка Parquet (полгода назад не было).

В остальном Azure ML, если знаешь что хочешь (со мной это редко) — удобный инструмент как для соревнований, так и для production-сервисов.

Через пару недель MS проводит мероприятие, где среди прочего будут мастер-классы по ML/DL (разумеется, с закосом, как это сделано Azure (для кого-то это неприемлимо)) https://events.techdays.ru/Future-Technologies/2017-06/
Я думаю, что там многое можно услышать-спросить, из того, что было написано выше.

Относительно, чего хватает не хватает это индивидуально.
Думаю нужно попробовать и посмотреть различные проекты из блога или из курсов.
Сила еще в том что за минуту из модели делаем web службу.
Читаем по Azure (книга)
https://blogs.msdn.microsoft.com/microsoft_press/2016/09/01/free-ebook-microsoft-azure-essentials-fundamentals-of-azure-second-edition/
Читаем по Azure ML (книга)
https://aka.ms/AzureML_pdf
Смотрим курсы по треку DS от Microsoft (edx)
https://academy.microsoft.com/en-us/professional-program/data-science/
Блог по AzureML от Microsoft
https://blogs.technet.microsoft.com/machinelearning/
Относительно, чего хватает не хватает это индивидуально.
Это вы здорово подметили. И, да, хотелось бы узнать ваше индивидуальное мнение.

Алсо спасибо за ссылки. Не хотите их в сам пост добавить, кстати?

Спасибо за комментарий, ресурсы в ближайшее время ссылки переедут в пост. По честному я в начале пути и для меня было немного удивительно, отсутствие возможности выбора разделителя при импорте текстового файла. В принципе там есть такая возможность, но она доступна когда импортируешь данные из облака, как обычно есть там где пока не нужно:)
Sign up to leave a comment.