Открыть список
Как стать автором
Обновить

Комментарии 13

На стоках этих лиц 100500 тысяч штук по 5 баксов за пучок. Люди там давали согласие. И не лень же было выискивать на просторах интернета. МС чай не самая бедная компания.
Одно дело — стоки, другое — подготовленный набор
Подготовленный, размеченный и в некоторых доработках прочищенный и нормализованный: github.com/JinRC/C-MS-Celeb

Он создавался, чтобы можно было с нуля обучить некий движок (чаще всего свёрточные сети) находить «человека в общем случае», но можно и конкретных людей по нему отслеживать с точностью, приближающейся к 100% — в обучающей выборке они представлены сотнями примеров в любых трансформациях
«Я ни в коем случае не публичный человек и никоим образом не отказывался от своего права на сохранение конфиденциальности, — сказал Адам Гринфилд, журналист на тему IT и информационной безопасности, которого включили в набор данных. — Мне это говорит о глубоком непонимании [компанией Microsoft], что такое конфиденциальность».
А когда журналист на тему IT выкладывал свою фоточку в общедоступную соцсеть, и подписывал её своим именем, он точно глубоко понимал, что такое конфиденциальность?
Всего лишь!
Я как-то наткнулся на интимные фотки выложенные самой девушкой в соцсеть…
и поскольку девушка мне очень нравилась, то я себе эти фотки открытые ВСЕМ(!!!!!) скачал себе на телефон…
девушка узнав об этом — была в ярости и обвинила меня в том, что я… их скачал с открытого доступа!
ПЕСЕЦ! *фейспалм*

Фотографии под лицензией Creative Commons

Это означает, что с этими фотографиями с точки зрения закона об авторском праве — можно делать всё что угодно.
Раньше если девушка нравилась — это было поводом познакомиться с ней, а не скачивать интимные фото на телефон.
Это еще что, я вот помню времена, когда было не принято выкладывать свои интимные фото в интернет.
Мне рассказывали, что в древности было стыдно делать такие фото, не то, что выкладывать.
Врали наверное, что за слово такое — стыдно? /sarcasm
К теме поста это не относится, но, вероятно, вы ей не очень нравились, а этот случай был неплохим предлогом для выражения её чувств. У девушек причудливая логика
вот реально, нет тебя в базе — не будет утечки перс данных

В торренте одинаковые файлы
samples_0.jpg
samples_1.jpg
samples_2.jpg


и 2 файла
84,8 ГБ FaceImageCroppedWithAlignment.tsv
144 ГБ FaceImageCroppedWithOutAlignment.tsv


Интересно, как это соотносится с https://web.archive.org/web/20181117001040/https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/


  1. Full ImageThumbnails data
    Two forms (data are the same)
    Compressed to one big zip File: 150GB, download, MD5
    Split to multiple 20GB files: File URL List, MD5
  2. cropped face images
    Two forms (data are the same)
    Compressed to one big zip File: 104GB, download, MD5
    Split to multiple 20GB files: File URL List, MD5
  3. Aligned face images
    Purpose: Faces are aligned by MSR’s algorithm, and meant to let participants directly train models if they don’t have face detector and alignment modules at hand. We will use the same alignment approach on DevSet and MeasurementSet.
    Two forms (data are the same)
    Compressed to one big zip File: 59GB, download, MD5
    Split to multiple 20GB files: File URL List, MD5

Я не видел исходного набора, но в том, что я привёл по ссылке, все эти данные есть внутри *.tsv.


Вот пример случайной строки из FaceImageCroppedWithAlignment.tsv:


m.0107_f        27      http://images5.fanpop.com/image/photos/31100000/Magic-Mike-Stills-alex-pettyfer-31105833-398-596.jpg    http://www.appsdirectories.com/alex/alex-pettyfer-magic-14-alex-pettyfer-magic-15-alex-pettyfer-magic-16-.html  FaceId-0        4B7YPh1ziT2dSgo//XkVPg==        ИЗОБРАЖЕНИЕ_В_BASE64

  • Идентификатор "m.0107_f" из первого столбца грепается в наборе из https://github.com/PINTOFSTU/C-MS-Celeb.
  • В ячейке "ИЗОБРАЖЕНИЕ В BASE64" — JPEG с вырезанным лицом из фото по указанной ссылке. Только лицо и больше ничего.

Строк в этом файле что-то около 8М (точное число не сохранил, сейчас пересчитаю, но это не быстро), так что похоже, что это самые что ни на есть исходные данные, возможно в чуть изменённом формате.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.