Как стать автором
Обновить

Комментарии 72

Что за программа на 4-той картинке?
cronosplus или сторонний Cronos viewer какой0нибудь
Благодарю.
Так может надо начать вот с этого:
90% видны всем (значение по умолчанию при регистрации)
Вот тоже удивило. Как то раз «вас интересует работа? Мы тут видели вашу статью на хабре». Сначала не понял где они мой номер надыбали, потом закрыл профиль.
Приватность профилей:

90% видны всем (значение по умолчанию при регистрации)
6% видны авторизованным
1% видны друзьям и кураторам вакансий с откликом
3% скрыты ото всех


Эффект ленивого пользователя — настройки по умолчанию стоят у 90% пользователей.
Ну сделать максимально скрытые по дефолту, и при регистрации запускайте мастер настройки. Чтобы пользователь осознанно выбирал степень видимости. А у любителей прощелкивать «далее >» настройки оставались приватными.
И усложнить регистрацию всем пользователям в угоду 10%?
Чем усложнить регистрацию? Несколькими кликами на экране первоначальной настройки с выбором приватности профиля?
Да

Скорее поможет всплывающая плашка сверху — типа — у вас не настроены профили безопасности ))) это и даст регистрацию простую и подтолкнет пользователя разбираться в сервисе

Надо по умолчанию ставить "видны друзьям и кураторам вакансий с откликом", так как это максимально соответствует назначению сайта для поиска работы.

Ваша фраза «И усложнить регистрацию всем пользователям в угоду 10%?» предполагает, что 90% осознанно хотят оставить профиль открытым. Выходит, это утверждение является вашей гипотезой? Строя таким образом рассуждение, вы упускаете существенный момент: какое то количество людей оставят выбор по умолчанию, каким бы он ни был. Предполагаю, что доля таких людей будет существенной. Предполагаю, что выбор не оставлять настройки по умолчанию приватными в большей степени сделан с учётом именно этого момента: предполагаемого значительного количества людей, оставляющих настройки по умолчанию (какими бы они ни были). А такому сервису, естественно, выгоднее увеличение количества открытых данных, а не закрытых. Не критикую Хабр Карьеру и их выбор. Моё замечание к тому, что давайте будем более точными в рассуждениях.

Мой комментарий относится непосредственно к предложению мастера настройки.
Учитывая сервис, который предполагает распространение информации пользователя, то делать жесткие настройки приватности — это не рационально. Давать такие возможности надо, они и даются. И да, регистрируются на таких сервисах люди, которые заинтересованы или в поиске работы или распространении информации о себе, что в обоих случаях подразумевает не скрытие данных.
И как раз некоторым пользователям интересно себя скрыть. Не для них этот сервис. Я могу ошибаться, этого не отрицаю. Поправьте меня, но будьте добры предоставить цифры

И да, регистрируются на таких сервисах люди, которые заинтересованы или в поиске работы или распространении информации о себе, что в обоих случаях подразумевает не скрытие данных.

Да, только это не подразумевает "не скрытие" для всех подряд.

Совершенно очевидно, что этим 90% просто пофиг. Зачем что-то им навязывать?
Не понял вас. Когда есть выбор из нескольких вариантов, то какими бы ни были настройки по умолчанию, они будут «навязывать» пользователю то или иное решение. Если при инициализации профиля запускается некий мастер, то запуск мастера это «навязывание» принятия решения. О каком конкретно навязывании вы говорите? Сейчас действует «навязывание» открытости профиля.
Выше вы говорите о «мастере настроек», который навязывает пользователям принятие решений. Ну и логично же, что если я что-то публикую в интернете, то скорее всего я хочу чтобы это видели. Потому также логично, что дефолтный вариант дает максимальный охват потенциальной аудитории.

Потому, если человек не пошел ничего настраивать, то либо настройки его уже устраивают, либо ему пофиг.
И есть еще категория пользователей, которые не знают о возможностях сервиса. Но это же не про IT :)
Не соглашусь, что это усложнит жизнь пользователям, а вот хабру, с точки зрения SEO, однозначно)

Если эти 10% вопят громче — то да.
"ему проще дать, чем объяснить, что не хочу".

Я бы посмотрел в сторону скрытия личной информации и раскрытия ее по отдельному действию, возможно, с большой вычислительной сложностью. Еще есть вариант, хотя и более дорогой для компании, маскировки реальных телефонных номеров через voip прокси. Хотя с моей точки зрения это все выглядит скорее защитой солонки. Люди, размещающие резюме, должны быть готовы к такому.

Реализовать еще возможность посмотреть на свой профиль при текущих настройках приватности "со стороны" как гость, бот, работодатель...

Приватность — это круто, и хорошо что в последнее время этим занимаются. Однако, я ещё в 2002 году студентам рассказывал: если вы закачали информацию в сеть, однажды она может стать публичной.

Особенно если вы выложили её для того, чтобы она стала публичной)
А если банально отображать телефон/email картинкой? Email конечно сделать кликабельным.

Бессмысленно и излишне раздражающе. Согласен, что HR должен страдать )) Но парсер это не остановит: оптическое распознавание творит чудеса.

"Последние цифры моего номера телефона — количество картинок с дорожными знаками в этом наборе". Капчастрадание!

Причём, считается ли картинка с частично видимым дорожным знаком или нет определять генератором случайных чисел.

То студентам, которые учат Python, придется учить OpenCV...

Или они просто поставят pytesseract и ничего не изменится.

Альтернативный вариант: вообще не показывать контактные данные, а сделать кнопку «запросить». Кому интересно — нажмёт, а пользователю приходит уведомление о том, что с ним хотят связаться, и разрешает либо запрещает. В конце концов, у платформы наверняка есть чат, контактные данные-то зачем? Для ленивых HR-ов?
Будут парсить картинку в базу. Даже распознавать не нужно — кому надо, глазами прочтет)

Разве что база нужна для автопрозвона, но даже тогда можно нанять задешево человека, который эти телефоны переведет в текстовый вид.

Вот многие, если не все, защищаются от автоматического скачивания данных, пресловутого web scraping. Если не учитывать увеличенную нагрузку на сервер, то почему этому нужно сопротивляться? Ведь Раз уж случилась такая оказия, то было бы интересно услышать ваше мнение.

Представьте, вы потратили n-денег на создание интернет-магазина и наполнением его контентом: товарами, фотографиями и описанием.
Вася вдруг захотел себе такой же магазин, и с тем же наполнением, но не стал заморачиваться с уникальностью, собственными фотками и прочим, а напросто спарсил за копейки весь ваш контент… ну как минимум — обидно, да и +1 конкурент.
спарсил за копейки весь ваш контент

ИМХО, но с этим должны бороться с другой стороны. Т.е. мы должны быть защищены законом. если я увидел сграбленный мой сайт, тогда владелец должен мне будет заплатить n*2 денег по решению суда.
Допустим заплатит, но пока будет идти судебное разбирательство — пройдёт пара лет, за которые ты упустишь прибыли значительно больше, чем n*2.

Я сейчас выскажу противоположную точку зрения.
Я хочу, чтобы все онлайн магазины работали на одинаковом движке и предоставляли пользователю одинаковый интерфейс. Картинки товара, если он не собственного производства, поставлялись производителем. Описание (характеристики) тоже от производителя, а не переписанные руками с этикетки и с ошибками.
Магазины с оптимизацией производительности, без индивидуальных глюков и с привычной навигацией.
Клиента не перделками и свистелками заманивать надо, а ассортиментом, доставкой, ценовой политикой и прочими оффлайн-добавками к процессу покупки.
Я вот понимаю условные пятерочки, которые в силу конфигурации помещений вынуждены располагать стеллажи в каждом магазине уникально (что задалбывает, когда быстро надо закупиться не в своем магазине). Но, блин, интернет прилавки, где нужно обеспечить максимально эффективный механизм общения покупателя с базой товара…
Немного отклонились от темы, но подытоживая — я за то, чтобы и движки и не авторский контент свободно распространялся. За унификацию.
База анкет — да, я сам хочу, чтобы моя контактная информация, которую я разместил, распространилась. Я же для этого ее и выложил. Но есть жирный минус — я не властен управлять временем ее жизни. После утечки она становится вечной, в отличие от анкеты, которую я могу закрыть. Выход — виртуальный телефонно-почтовый номер (чисто входящий, без заморочек с идентификацией личности, сервис оператора связи), уникальный за все время, с ограниченным или управляемым временем жизни. Это отдельный вид продукта, может уже на эту тему и есть подвижки.

НЛО прилетело и опубликовало эту надпись здесь
Дайте уже хоть какие-нибудь картинки! Почему на али к каждому товару 100500 фоток, а в нашем магазине либо «фото ожидается», либо одна фотка с размером 15х15pt? Потом жалуются, что покупают на али, а не у них.

Поэтому и хочется "народную базу товаров". Для товара данного производителя "самозарождается" его фотография и магазины на нее ссылаются. Понимаю, что с нуля такой сервис раскручивать коммерчески тяжело. Ну и надо преодолеть этот барьер "эти базы неудобные, сделаем свою, лучше".


Википедия тоже поначалу была народным творчеством, а сейчас на нее диссертации ссылаются. Получится товаропедия, простите… Типа отзовика в своем сухом техническом остатке.

Магазины со своими, «живыми» фотографиями имеют в моих покупательских глазах колоссальное преимущество перед конкурентами со стоковым фотошопом/рендерами.
Это я сейчас не теоретизирую, это многолетний опыт покупок.

Соглашусь. Но на условную половину.
Покупая стоковый товар из раза в раз одного и того же производителя (набираю крепеж в строительном, канцелярию, корм животным, радиодетали...) мне вобщем-то пофиг на его изображение. Часть позиций вообще в таблично-текстовом виде идет. Предпочтение отдается как раз магазину с быстрым и удобным сайтом, удобной доставкой и, при больших и частых заказах, низкой ценой.
Выбирая что-то в первый раз, подбирая по внешним характеристикам, я потрачу силы на ковыряние в разношерстных магазинах, чтобы познакомиться с товаром. Если он серийный, то дальше выливаю воду из чайника и этот же товар снова ищется в удобном, а не в красивом магазине.

НЛО прилетело и опубликовало эту надпись здесь

Товар на складе и договорённости с поставщиками он тоже спарсит?

Вы мыслите эгоистично с точки зрения индивида, а обществу выгоднее чтобы было +1 и +100к конкурентов, а не чтобы Васе было не обидно, куда придет человечество, если каждый будет делать одну и ту же работу, только потому, что другой не разрешил взять и скопировать.

И представьте, что вы выложили данные "только для Хабра", по крайней мере в надежде, что они не попадут в поисковики. А те, кто данные спёр, спокойно выложат и в открытый доступ.

Т.е. вы хотите сделать платный API, через который можно без проблем парсить данные участников, не спросив их разрешения? Т.е. тупо получать деньги за «слив» персональных данных? Или вы соглашение пересмотрите, в котором в самом низу допишите, что можете передавать данные третьим лицам?
Так ведь информация является публичной в большинстве своём:
90% видны всем (значение по умолчанию при регистрации)


Думаю, апи будет возвращать как раз публичную информацию, которую можно и самому спарсить, как и случилось в сабже.
Да, как уточняет makssof, речь исколючительно о публичной информации.

TL;DR (2): то не баг, а фича! :))

Лимит на количество запросов под авторизованным пользователем. На том же HH.ru такой лимит сейчас составляет 500 анкет в сутки, у нас он будет меньше.

я думаю более правильно делать рейтлимит с burst'ом, чем прямое ограничение на количество просмотров анкет. Кстати, кривая реализация этой возможности приводит к парадоксальным ситуациям, когда лимиты у незарегистрированных юзеров выше, чем у зареганных (WAT?)

Но ведь зареганные и видят больше. Без регистрации контактные данные не спарсишь
Совет из разряда «Не можешь победить — возглавь»: предоставление платного API для легального парсинга базы.

Верный вариант. Всё же воевать с ботами дело конечно интересное, но очень неудобное для сервиса. На счёт изменения лимита не вижу особой необходимости так как боту даже если лимит будет 20 анкет в сутки это не как не помешает только увеличит время разработки бота.
Немного арифметики.

На главной странице Хабр.Карьера указано, что там 148817 специалистов (этой информации не хватает в статье, кстати). Округлим до 150к и прикинем, во что обойдётся парсинг.

Смотреть будем для лимита 500 анкет / сутки. В статье сказано, что здесь он будет меньше, но совсем непонятно насколько меньше. Как достоверное известно — даже 499 будет меньше, чем 500.

150к / 500 = 300 дней при парсинге с одного аккаунта. Или 1 день при парсинге с 300 аккаунтов.

Не являюсь пользователем Хабр.Карьеры, не знаю является ли там обязательным телефон. Прямо сейчас в форме регистрации я его не увидел. Если он не обязательный — то зарегистрировать 300 аккаунтов проблемы вообще не составит.

Если телефон обязательный — это опять же ничем не поможет. Стоимость получения СМС будет около 3р. Итого за 900р получим полный набор аккаунтов для парсинга.

Ещё будут расходы на прокси и скрипты. Но если говорить о скрапперах — то у них уже есть прокси, а скрипты они как-нибудь напишут.

Не знаю какие будут цены на API, но полагаю адекватные. Мой вывод из этих цифр, что API может защитить от любительского скраппинга, т.к. он станет невыгоден (цена прокси + скриптов скорее всего будет выше 10 т.р.), но от профессиональных скрапперов не поможет от слова совсем.

Если нужно победить профессиональных скрапперов — как вариант цена запросов по API должна быть не только соизмерима с ценой скрапинга, но и API должна предоставлять больше полезных данных, если это допустимо пользовательским соглашением. Вообще от профи не поможет даже бесплатный API, как писали в статьях о скрапинге =)
Одноразовый телефон для получения СМС стоит примерно 1 рубль.
Непонятно что вы имеете в виду под одноразовым телефоном.

Дайте пожалуйста конкретные ссылки. Должна быть возможность получить минимум 300 телефонов.

Указанная мной цена 3р — это с реального сервиса.
Ммм… Я как-то проглядел ваш абзац с ценой и ответил на предыдущий, без какого-либо намерения что-то оспорить. Касательно примеров, на sms-activate.ru цены начинаются с рубля в зависимости от ресурса. Для произвольных целей 2р50.

Мне больше нравится подход, установленный на djinni.co — рекрутеры видят анонимизированные пользовательские резюме, и только когда пользователь хочет, он раскрывает контактные данные конкретному рекрутеру, который ему написал.
Но понятно, что цели у сервисов разные — Джинни чисто для поиска работы, в то время как Хабр Карьера пытается заменить собой заблокированный в России LinkedIn.

небольшое улучшение ситуации с минимальными затратами- при регистрации настроить приватность. Ваш профиль могут видеть все- да или нет.
LinkedIn существует разве не как способ поиска работы? Ты в нем выставляешь свою карьеру, обрастаешь связями, друзьями. Там тебя могут найти новые работадатели. Или там прям социальная сеть, со своей Веселой фермой и куртизанками?
Скорее, второй вариант
У меня до сих пор остаётся открытым вопрос про прошлогодний запрос от гэбэшников к Хабру, где те просили раскрыть определённых пользователей. Кто-то вообще тут помнит про ту историю, которая всплывала на «Медузе»? Начальство хабра клятвенно обещали объясниться, что типа они всё нам расскажут. Но так и не сделали этого.

Вот тут вся информация, в конце приведено обещание «скоро всё объяснить»:
habr.com/ru/company/itsumma/news/t/487982
Мне спама и так хватает, меньше всего я хочу прочитать следующую статью:
На хабре произошла утечка емейлов, телефонов, личных переписок и т.д. Ответ администрации: пользователи не поменяли какую-то там настройку.

Что я ожидал увидеть в статье:
1. признание фейла
2. меры по исправлению
3. меры, чтобы такого не было в будущем

Что я увидел в статье:
1. утечки не было
2. пользователи сами виноваты
3. менять ничего не будем

Я бы мог представить такую ситуацию лет 10-15 назад, но точно не сегодня.
Что будет если кто-то из пользователей пожалуется, что без прямого разрешения пользователя слили его персональные данные?
Вы можете сказать, что вы на Кипре и вас не касаются Российские законы, но здесь ещё более суровый GDPR, согласно которому вы можете предоставлять персональные данные, только участникам программы GDPR.
Т.е. если я сейчас сделаю GDPR-запрос на удаление моих персональных данных с career.habr.com, то вы должны удалить их и передать мой GDPR-запрос остальным своим партнёрам, которым вы передали мои персональные данные. Но вы не сможете этого сделать потому что, вы уже не контролируете данные, ведь произошла «утечка».
Тогда вам останется только одно — заплатить штраф. И возможно тогда вы поменяете ваши дефолтные настройки приватности, ну или опять заплатите штраф.
На случай если вы думаете, что законы работают только против очень крупнейших сайтов мира:
За период действия GDPR по данным на январь 2020 года зафиксировано регуляторами 160 тысяч нарушений.

Что-то мне подсказывает, что хабр — достаточно крупный, чтобы оказаться в этом списке.

Итак, вы что-то будет делать с утечкой персональных данных? Оповестите пользователей, что их персональные данные утекли? Поменяете дефолтные настройки? Примете меры, чтобы такого не повторилось в будщем?

Ключевые отличия GDPR от 152 ФЗ:
Хм а в чём проблема, вроде как всё честно, выполняется один из пунктов GDRP(Обработка имеет жизненно важные интересы для предоставившего данные) при таком сборе данных и все формальности соблюдены. В крайнем случае делаем обязательство в виде контракта. Если явных отношений с обработчиком нет то и претензии безосновательны.
Ну это я так вижу что из себя предоставляет GDRP(пока нет явного API к данным), буду рад любым дополнениям и исправлением в логике.
Чисто формально это не является утечкой.
Согласно GDPR пользователь владеет своими персональными данными (ПД), а сервис получает их только во временное пользование.
Пользователь в любой момент имеет право сделать запрос в сервис для удаления своих ПД и сервис должен их удалить, а также проследить, что все его партнёры также удалили. Для этого сервис имеет право делиться только с теми представителями третьей стороны, которые подтвердили, что они работают согласно GDPR.
Приведу, пару примеров:
1. фейсбук передаёт ПД компании, которая соответствует GDPR. пользователь запрашивает удаление информации, фейсбук удаляет сам и передаёт реквест своим партнёрам — всё ок.
2. фейсбук передаёт ПД компании, которая не соответствует GDPR и находится в канаде. пользователь запрашивает удаление информации, фейсбук удаляет, но третья сторона, которая также владеет ПД пользователя отказывается.
фейсбук получает штраф, потому что он не имел права передавать данные пользователя третьей стороне, которые не работает по GDPR. также фейсбук должен оповестить пользователей, что их ПД теперь за пределами GDPR, т.е. произошла «утечка».

Хабр не только не соответствует GDPR, но что гораздо хуже слишком легкомысленно относится к ПД, предоставляя к ним доступ по дефолту и ничего не видит в этом плохого.

Что сейчас происходит в европе: если вы передаёте ПД какой-нибудь рекламной сети, рекрутинговому агентству, скидочной организации и прочим партнёрам, то вы предварительно запрашиваете от них документ, что они подтверждают работу с ПД согласно GDPR. Если они не подтверждают, то ищете другого партнёра. Если они подтверждают, но по факту по GDPR не работают, тогда уже проблемы у них, а не у вас.
Я согласен с вами, в части работы habr API на career.habr.com, среди требований для него сейчас нет GDRP хотя это действительно прямой сервис предоставления данных.

Но вот в плане работы парсеров ситуация иная ибо пользователь хоть и соглашается с требования сервиса, но не имеет прямого отношения к GDRP, так как, если мой парсер(я пишу их но не для европы, да и не для персональных данных) формально если я получаю и агрегирую пользовательские данные, то я делаю это с 200-400 аккаунтов, и формально нет никаких претензий к сервису, так как каждый из зарегистрированных аккаунтов не является партнёром. Как следствие компания пользующаяся парсером тоже не является партнёром, но формально является агрегатом персональных данных(без явного источника их получения) понятия public domain не существует в разрезе GDRP, что скорее есть просто ошибка.

Как быть в данном случае? Мы не имеем реального сервиса который имеет возможность сделать явный запрос на удаление.
Мне спама и так хватает

То есть волшебный GDPR от спама вас не спас?
Как же так, ведь европопулисты так старались!?

Мало кто обращал внимание, но на самом деле, эти данные парсили и неск годами ранее. Звонки то, были.
Лучше не использовать свои реальные фио и дату рождения, нигде в интернете, а не ресурсах где это требуется указывать фейки и на каждом разные.
Я когда ходил по ирл собесам это только помогало, и настраивало на непринужденную беседу когда я объяснял что зовут меня не так как в анкете, потому что это псевдоним и я за анонимность в сети.
Вот какое может иметь значение для работы как тебя зовут, как это влияет на рабочие обязанности.
Что в примере приведёной статьи, что в остальных идеях прослеживается попытка проведения анализа корневой причины явления парсинга (ну т.е. их прочтения машинным образом). Не знаю, у кого он проводился в полноценном обстоятельном виде: это проявило бы много неочевидного и заставило думать иначе. Интуитивные опасения типа «конкурент станет публиковать наши данные» не выдерживает анализа последствий. Многовариантные стандарты (а не просто двойные) с поисковиками тоже показали в примере.

С одной стороны люди хотят быть защищены от злоупотреблений сведениями о них, с другой часто ищут иные способы рассказать о себе другим и установить контакты. И это не взаимоисключающие потребности: вопрос может быть решён только настоящей анонимностью и защитой сведений пользователя. Главный принцип — только сам человек должен иметь возможность раскрыть кому-либо определённые сведения о себе ну уровне всей среды (а не отдельного сайта), как и закрыть. Эта задача не решается на уровне отдельно взятой системы — только на уровне всей среды. Т.е. должен быть некий протокол, позволяющий всё это, и поддерживаемый сайтами. Понятно, что всегда можно поднять сайт, на который не будут распространяться действия такого протокола. Это отдельная история.

Тогда отпадут и сами истории типа «напарсили анкет»: человек, открывший в них сведения для всех для того это и сделал. С точки зрения среды и результата не должно быть разницы в посредниках передачи сведений. Просто не нужно пытаться зарабатывать на таком грязном посредничестве, т.е. ставить успешность бизнеса в зависимость от эксклюзивного обладания данными. Другой подход аналогичен зарабатыванию вокруг проектов с открытым кодом: данные открыты в той степени, как этим управляет пользователь, а вот возможности работы с ними — это уникальный сервис сайта.
Отлично!
Как раз 27 апреля 2020 мой аккаунт там появился :) Наконец-то найду работу!!!

Если вдруг моего емайла в базе нет, то вот:
engine-design@yandex.ru
Ищу любую работу, IT-related.
Пишите все, отвечу всем (если прочту и не прямо вот сегодня).
Мне кажется, каждый год одна и та же новость, из-за той же причины с приватностью по умолчанию при регистрации.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий