SergeyMarin Dec 10 2015 at 11:11

Школа Данных «Билайн», приоткрываем занавес

6 min

12K

билайн бизнес corporate blogData Mining*Algorithms*Big Data*R*

Comments 9

UFO just landed and posted this here

cotique Dec 15 2015 at 22:32

За 24 часа можно научить знающего матстат и питон человека выполнять команды по алгоритму. Или пройтись по верхам: рандомный лес, Jupyter, NumPy, SciPy, Pandas, Matplotlib, R, графы и др.

Из другой публикации:

Для зачисления на курс достаточно иметь минимальный опыт программирования на Python, а также знания в области математической статистики.

Человек с минимальным опытом программирования на Python из 24-х часов часа четыре будет устанавливать пакеты, R/R Studio, Джупитер и входить в курс дела. Наверное, у Билайна опыт программирования на Python подразумевает неплохой такой опыт. И, скорее всего, знание NumPy, Matplotlib и прочего. Иначе я не знаю, как можно успеть весь материал усвоить так, чтобы стать датасаентистом и получить «работу мечты».
И почему, кстати, Python и R, если можно оставить только божественный R и собственно анализ данных изучать на нём? Имхо, сложнее научиться датаанализу, нежели перенести потом навыки с R на Python.

В Школу Данных я действительно думаю пойти, но есть сомнения в эффективности курса.

С другой стороны, если дают домашние задания уровня курсовых по Data Science Specialization, то можно очень сильно прокачаться. Билайн, что скажете? Домашку даёте? Мозги закипают от неё? Что думаете про Julia? Есть план занятий?

neko_nya Dec 11 2015 at 20:01

Ещё б курсы русского языка ввели, и было бы совсем хорошо.

grossws Dec 12 2015 at 03:56

Например, название города New York, формально, состоит из двух отдельно стоящих слов. Разумеется, для любой разумной обработки нужно считать эти два слова одним токеном и не обрабатывать их по одиночке.

Звучит как откровенная лажа.

Тупой пример из CoNLL 2003 (каждая строка — отдельный токен, NE-тэг — последняя колонка):

ounce NN I-NP O
in IN B-PP O
Hong NNP B-NP B-LOC
Kong NNP I-NP I-LOC
on IN B-PP O
Friday NNP B-NP O
,, O O
versus CC O O
New NNP B-NP B-LOC
York NNP I-NP I-LOC
's POS I-NP O

alexeygrigorev Dec 13 2015 at 19:30

Я бы не был так категоричен — я думаю автор в целом прав.

grossws Dec 13 2015 at 19:45

Как минимум, категоричным было утверждение автора, а не моё, как можно заметить по цитате выше. Специально выделил полужирным.

В разных случаях используют разную токенизацию. Вариант с токенами более-менее эквивалентными слову является общепринятым в компьютерной лингвистике, рассматривается в большом количестве (в том числе практических) работ в области NER и SRL.

Более экзотические варианты с разбиением токенов, например, по дефисам внутри слова тоже используются, но реже, в специальных кейсах.

Вариант с посимвольной обработкой последнее время стал более популярен и тоже приносит свои результаты.

Но автор привёл странный, неоднозначный и нетривиальный вариант токенизации (который токенизацией-то можно назвать с натяжкой) и безапелляционно заявил, что для любой разумной обработки необходимо порождать один токен. Подумайте над тем, сколько токенов породят Queen Mary University of London, New York Stock Exchange, Prime Minister of United Kingdom David Cameron и подобные словосочетания.

SergeyMarin Dec 15 2015 at 11:08

Мы не вводили понятия именованной сущности и вели рассказ на вводном уровне. Вопрос “что такое именованная сущность?” заслуживает отдельного обсуждения. Заметим, что бывают примеры вложенных друг в друга именованных сущностей, которые приводит grossws, а бывают довольно понятные однозначные именованные сущности, например “Российская федерация”, которые, все-таки, хочется обрабатывать так же, как индивидуальные токены. Однако, это уже предмет обсуждения на занятиях.

grossws Dec 15 2015 at 11:14

Мы не вводили понятия именованной сущности и вели рассказ на вводном уровне.

Да кто ж спорит? Вы всего-лишь заявили, что разумная обработка текста невозможна при токенизации по словам, как делает весть остальной мир, кроме ваших «курсов».

BiXiC Dec 14 2015 at 00:43

Стоимость участия 100000 рублей, какой ещё отбор…