Pull to refresh

Comments 8

По правде говоря, даже если собрать все данные по всем объявлениям на krisha, едва ли объем тянет на «Big Data». А время загрузки данных можно значительно ускорить, запустив селениум в несколько потоков.
По правде говоря, даже если собрать все объявления скажем по России, уникальных в любом случае будет всего-лишь десятки или сотни миллионов, или примерно сотни гигабайт. Просто потому, что у нас населения порядка 150 миллионов, и совершенно не от куда взяться хотя бы по одной квартире или офису на каждого жителя. Bigdata тут относительная, но интересных задач в области ML тут можно нарыть множество. Причем задач вполне продающихся.

Очередная история "как я не осилил эмуляцию AJAX и привинтил имитатор браузера"?
https://krisha.kz/a/ajaxPhones?id=$ID$
В заголовках:


cookie: ...
referer: https://krisha.kz/a/show/$ID$
x-requested-with: XMLHttpRequest

Я только что сэкономил Вам больше 100 мегабайт на каждый поток

Прочитав заголовок я подумал, что в Колёса-Крыша-Маркет решили поделиться тем, как они
big-data готовят. А увидел… Это правда называется BigData? Просто сграбить Selenium-ом страницы объявлений и подвести простейшую статистику?

Интересно. За Казахстан + )
Хочу попробовать что-то такое же, но с использованием BeautifulSoup
Я раньше тоже ресурсы серверов насиловал по 50 селениумов многопоточности, а потом перебрался на более лёгкие решения celery + request + beutifulsoup + regular и получил прирост в сотни раз по кпд
Код скрипта скиньте в добавок к статье.
«Проблемные дома, признак — количество объявлений превышает среднее количество объявлений на дом;»

очень интересная бигдата у вас. следуя логике, 12-подъездный дом на 400 квартир должен аннигилировать через фемтосекунду? А двух этажные бараки на 8 квартир — образец благополучия
Sign up to leave a comment.

Articles

Change theme settings