Pull to refresh

Comments 9

UFO just landed and posted this here
За 24 часа можно научить знающего матстат и питон человека выполнять команды по алгоритму. Или пройтись по верхам: рандомный лес, Jupyter, NumPy, SciPy, Pandas, Matplotlib, R, графы и др.

Из другой публикации:
Для зачисления на курс достаточно иметь минимальный опыт программирования на Python, а также знания в области математической статистики.

Человек с минимальным опытом программирования на Python из 24-х часов часа четыре будет устанавливать пакеты, R/R Studio, Джупитер и входить в курс дела. Наверное, у Билайна опыт программирования на Python подразумевает неплохой такой опыт. И, скорее всего, знание NumPy, Matplotlib и прочего. Иначе я не знаю, как можно успеть весь материал усвоить так, чтобы стать датасаентистом и получить «работу мечты».
И почему, кстати, Python и R, если можно оставить только божественный R и собственно анализ данных изучать на нём? Имхо, сложнее научиться датаанализу, нежели перенести потом навыки с R на Python.

В Школу Данных я действительно думаю пойти, но есть сомнения в эффективности курса.

С другой стороны, если дают домашние задания уровня курсовых по Data Science Specialization, то можно очень сильно прокачаться. Билайн, что скажете? Домашку даёте? Мозги закипают от неё? Что думаете про Julia? Есть план занятий?
Ещё б курсы русского языка ввели, и было бы совсем хорошо.
Например, название города New York, формально, состоит из двух отдельно стоящих слов. Разумеется, для любой разумной обработки нужно считать эти два слова одним токеном и не обрабатывать их по одиночке.
Звучит как откровенная лажа.

Тупой пример из CoNLL 2003 (каждая строка — отдельный токен, NE-тэг — последняя колонка):
ounce NN I-NP O
in IN B-PP O
Hong NNP B-NP B-LOC
Kong NNP I-NP I-LOC
on IN B-PP O
Friday NNP B-NP O
,, O O
versus CC O O
New NNP B-NP B-LOC
York NNP I-NP I-LOC
's POS I-NP O
Я бы не был так категоричен — я думаю автор в целом прав.
Как минимум, категоричным было утверждение автора, а не моё, как можно заметить по цитате выше. Специально выделил полужирным.

В разных случаях используют разную токенизацию. Вариант с токенами более-менее эквивалентными слову является общепринятым в компьютерной лингвистике, рассматривается в большом количестве (в том числе практических) работ в области NER и SRL.

Более экзотические варианты с разбиением токенов, например, по дефисам внутри слова тоже используются, но реже, в специальных кейсах.

Вариант с посимвольной обработкой последнее время стал более популярен и тоже приносит свои результаты.

Но автор привёл странный, неоднозначный и нетривиальный вариант токенизации (который токенизацией-то можно назвать с натяжкой) и безапелляционно заявил, что для любой разумной обработки необходимо порождать один токен. Подумайте над тем, сколько токенов породят Queen Mary University of London, New York Stock Exchange, Prime Minister of United Kingdom David Cameron и подобные словосочетания.
Мы не вводили понятия именованной сущности и вели рассказ на вводном уровне. Вопрос “что такое именованная сущность?” заслуживает отдельного обсуждения. Заметим, что бывают примеры вложенных друг в друга именованных сущностей, которые приводит grossws, а бывают довольно понятные однозначные именованные сущности, например “Российская федерация”, которые, все-таки, хочется обрабатывать так же, как индивидуальные токены. Однако, это уже предмет обсуждения на занятиях.
Мы не вводили понятия именованной сущности и вели рассказ на вводном уровне.
Да кто ж спорит? Вы всего-лишь заявили, что разумная обработка текста невозможна при токенизации по словам, как делает весть остальной мир, кроме ваших «курсов».
Стоимость участия 100000 рублей, какой ещё отбор…
Sign up to leave a comment.