Как стать автором
Обновить

Комментарии 8

B
Drupal
S
M
API — это очень специфический путь, который может оборваться в любой момент.
Гораздо интереснее было бы почитать про сбор данных через selenium, благо пакет RSelenium запускается из коробки, без бубна.
мне в API отказали. Но я честно написал что для исследования и nlp. Теперь придется идти путем селениума)))) Благо аккаунты продаются и стоят не дорого.
мне в API отказали.

Вот-вот. Или, как было у меня, работаешь с апи, и вдруг тебе что-то перестают отдавать, потому что __важная_причина_от_владельцев_апи__.
Ну fb тут впереди планеты всей. Получить список подписчиков своей страницы нельзя теперь никак. В апи методы деприкейтед, а в настройках страницы есть целая табличка но в ней почему-то 20 пользователей, всегда одинаковые, по какому критерию выбраны не понятно(в группе сейчас примерно 1к человек)
Ну такое. Если есть возможность использовать API, то, имхо, лучше использовать именно API. С Selenium тоже можно регулярно огребать… Обновления дизайна, блокировки по IP(приходится закупать прокси) и всякое прочее. Да и ресурсов больше кушает
Для русского, стоп-слова есть в пакете tm,
а стемминг можно сделать из пакета SnowcallC
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории