Pull to refresh

Comments 11

Серьезный подход) А подскажите, пожалуйсте, каким образом вы спарсили похожие аккаунты такой масштабной аудитории в инсте?
Поставщиков и механик, которые позволяют получать такие данные, достаточно много. Если хочется писать все с нуля самому, то можно использовать стандартный aiohttp на python. Все остальное легко гуглится:)
Статья отличная.
Меня интересует технический вопрос. Как происходит процесс граббинга данных? Блокировок IP от Instagram нет? Как обходите?
Спасибо!
В этой статье хотелось поделиться тем, как мы работаем с данными и анализируем их, а вот про сбор ответить ничего, к сожалению, не могу, вне моей компетенции. Благо людей, которые парсят вокруг достаточно
На этой неделе, вроде как уже, должны закрыть информацию о подписках пользователей в инсте
Нет, там речь о другом, закроют/закрыли вкладку Following, где раньше отображалась инфа о том, кто из твоих друзей что лайкнул или на кого подписался. А подписки в шапке профиля пока в целости и сохранности:)

Я так понимаю, что вы занимались этой задачей на коммерческой основе. А вам случайно не встречалось что-то подобное, но открытое и уже с готовой базой? Чтобы можно было забить чей-то профиль и получить результат в виде списка интересов или чего-то подобного.
Я предполагаю, что даже если где-то есть исходники для такой задачи, то не у всех есть достаточно времени для ручной разметки и процессорных мощностей для анализа.

Нет, такого решения нам, к сожалению, не встречалось. Почти уверена, что такой открытой базы просто не существует.
Да, на счет мощностей вы правы, но по сути все зависит от задач, а метод AGMfit можно использовать и на маленьком графе
Статья очень крутая! Не совсем понятны несколько моментов на 3 шаге, когда пытаемся получить новую выборку офтальмологов:
1. Каким способом, например для dr.nikiforova, из 53 count мы получили 7 count увлеченных?
2. Почему count увлеченных именно >= 6 и share именно >= 0.05 выделяет офтальмологов от Ольги Бузовой?
Благодарю за ответ!
Спасибо!
У dr.nikiforova count 53 это и есть число увлеченных подписчиков у этого аккаунта, оно не менялось (на втором скриншоте его нет)
Вообще этими двумя картинками хотелось показать следующее: когда увлеченных много (топ списка) — это почти 100% офтальмологи, а вот когда поменьше (например, 7), то уже надо брать не всех, а смотреть на долю share. Если внимательно посмотреть на второй скриншот, то можно заметить, что там врачи (причем не все офтальмологи, есть и другие специальности) и селебы (Шнуров, Галкин и т д) и вот чтобы лишних не взять, мы ставим ограничение на share >= 0.05
2. Почему именно эти значения: воспользовались методом пристального взгляда:)

Для разных сообществ будут разные пороги и это зависит много от чего, из-за этого автоматизация немного усложняется. Опять же пример: для российских аккаунтов офтальмологов 25 тыс подписчиков — потолок, а если мы хотим выделить сообщество мамочек, то там и миллионники встречаются, поэтому пороги сильно зависят от задачи, от части поэтому мы перешли к другому подходу:)

UFO just landed and posted this here
Sign up to leave a comment.