4 September

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 1

PythonData MiningOpen data
Дисклеймер

Зная, насколько эта публикация может оказаться воспринятой как "политическая" и насколько разнятся мнения людей по определенным злободневным вопросам, сразу внесу следующие оговорки:

  • Автор публикации не является расистом, не считает, что представителей одних рас должны обладать какими-либо привилегиями или предпочтениями по сравнению с представителями других рас. Для меня все люди - братья!

  • Автор не стремится придать публикации политическую или социальную окраску, поддерживая ту или иную распространенную точку зрения на социально-политические темы, которые выходят за рамки этой публикации.

  • Цель публикации - статистический анализ данных из открытых источников и выявление взаимосвязей и закономерностей; широкие выводы предоставляется сделать читателям.

  • Все данные, использованные в статье, взяты из открытых источников, прямо указанных в самом тексте. Каждый из вас может их верифицировать. При этом автор не несет ответственность за валидность данных в самих источниках, принимая их "как есть" и не изменяя никакие исходные данные. Поэтому сомнения в валидности настоящего исследования должны относиться к исходным данным, на которые автор не может повлиять.

  • Я не считаю себя профессиональным Data Scientist и использую самые базовые инструменты анализа данных (при этом, наверное, не всегда наиболее оптимальным способом). Буду благодарен каждому за подсказки, как можно сделать то или иное более эффективно или углубить исследование!

Во времена Советского Союза нашим с вами, уважаемые читатели, папам и мамам, дедушкам и бабушкам неустанно и отовсюду напоминали о том, как "империалисты" притесняли и угнетали представителей иных рас, как уже после отмены крепостного права в Российской Империи американские капиталисты продолжали использовать рабский труд африканцев и их потомков, как и в нынешнем (на то время) двадцатом веке издевательства не прекращаются даже после формального упразднения рабства, выражаясь в самых возмутительных формах апартеида, унижений, расизма и ненависти... Классические романы вроде "Хижины дяди Тома" Гарриет Бичер-Стоу и "Убить пересмешника" Харпер Ли еще сильнее упрочняли негодование борцов за свободу по всему миру. Да, расизм со стороны белых процветал в США до 1960-х - 1970-х. Но и, конечно, эти притеснения были отличным подспорьем для социалистической пропаганды, не щадящей красок в живописании "зверств акул капитализма". С середины 1950-х в США началось сильное движение за борьбу с расовым неравенством, которое было в итоге поддержано властями и кардинально изменило ситуацию с социальными свободами к 1980-м. Обо всем этом можно прочитать хотя бы в Википедии. А что теперь?..

Иллюстрация к роману Г. Бичер-Стоу "Хижина дяди Тома". "Классическое" изображение рабского труда африканцев.
Иллюстрация к роману Г. Бичер-Стоу "Хижина дяди Тома". "Классическое" изображение рабского труда африканцев.

Почти все то же, что наши родичи читали со страниц "Правды" в 1960-х, сейчас мы слышим со всех американских СМИ. Расовая несправедливость! Насилие со стороны полиции и иных слуг закона! Как мы все видели, после гибели Джорджа Флойда в США начались массовые протесты, перешедшие местами в беспорядки и погромы под лозунгом Black Lives Matter. Итог официально озвучиваемого и поддерживаемого общественного мнения в США на сегодняшний день: полиция убивает чернокожих по причине массового расизма со стороны белых.

Цели исследования

Как и многим из вас (я уверен), мне часто хочется самостоятельно разобраться в каком-то вопросе, особенно если:

  • вопрос широко обсуждается и составляет предмет споров

  • освещение почти во всех СМИ носит явно окрашенный характер (т.е. налицо пропаганда той или иной позиции)

  • есть достаточное количество исходных данных, доступных для изучения

Интересно заметить, что эти три пункта связаны между собой: 1) злободневные вопросы почти всегда однобоко освещаются прессой, так как истинно свободной прессы почти нет (да и была ли когда-то?) 2) злободневные темы порождают сообщества активистов, которые начинают собирать и анализировать данные в поддержку своей точки зрения (или во имя справедливости); также данные начинают открывать / предоставлять публике официальные источники (чтобы их нельзя было обвинить в сокрытии оных). Об имеющихся данных поговорим чуть позже, а пока - цели исследования.

Я хотел для себя ответить на несколько вопросов:

  1. Какова статистика применения поражающего огня полицейскими против черных и белых в абсолютном выражении (т.е. количество случаев) и в удельном выражении (на количество представителей обеих рас)? Можно ли сказать, что полицейские убивают черных чаще, чем белых?

  2. Какова статистика совершения преступлений представителями обеих рас (в абсолютном и удельном выражениях)? Представители какой расы статистически чаще совершают преступления?

  3. Имеется ли взаимосвязь между статистикой совершения преступлений и статистикой гибели от рук полиции (в целом по США, а также отдельно для белых и черных)? Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?

  4. Каким образом найденные закономерности (по пунктам 1-3) распределены между отдельными штатами США?

На данный момент это все вопросы, однако, я не исключаю, что могут добавиться и другие в процессе исследования, которое пока выполнено лишь на самом поверхностном уровне.

Оговорки и допущения

Вы ведь прочитали дисклеймер в начале статьи? :) Кроме того, что там написано, вот еще несколько допущений и оговорок, принятых для исследования в основном в целях упрощения:

  • Исследование касается только США и не распространяется на другие страны.

  • Представителей чернокожей расы в США для краткости я могу называть "черными", а представителей белокожей расы - "белыми"; эти краткие наименования не отражают какого-то неуважения, а приняты именно для лаконичности.

  • Представители белокожей расы ("белые") включают латиноамериканцев (проживающих на территории США), но исключают представителей азиатских рас, американских индейцев, гавайцев, эскимосов и представителей смешанных рас, в соответствии с данными по населению в Википедии, взятыми из официальной переписи населения в США. Поскольку много комментариев к статье говорят о неправильности такого объединения, еще раз подчеркну: это объединение есть вынужденная мера, поскольку данные о преступности не делают такого разделения (выделяя расы строго по расовому, а не по этническому признаку).

  • Для настоящего исследования взяты только белая и черная расы; представители иных рас, а также те, чья раса не указана в источниках, не включены в исследование. Это ограничение сделано для упрощения, основываясь на том, что эти две категории составляют совместно более 80% всего населения США. При этом я не исключаю, что на будущих этапах будут добавлены и остальные расовые категории для полной картины.

Источники данных

Теперь поговорим о том, какие данные используются для исследования. Исходя из обозначенных целей нам нужны данные по:

  • совершенным преступлениям с указанием расовой принадлежности, видов преступления и штатов

  • гибели от рук полиции с указанием расовой принадлежности погибших и места события (штата)

  • численности населения по годам с указанием расовой принадлежности (для вычисления удельных показателей)

Для данных по преступлениям использовалась открытая база данных ФБР Crime Data Explorer, обладающая расширенным API и содержащая детальные данные по преступлениям, арестам, жертвам преступлений в США с 1991 по 2018 год.

Для данных по гибели от рук полиции использовалась открытая база данных на сайте Fatal Encounters, поддерживаемая сообществом. На настоящий момент база (доступная для скачивания) содержит более 28 тысяч записей начиная с 2000 года с подробной информацией о каждом погибшем, кратким описанием события, ссылками на СМИ, местом события и т.д. В Интернете есть и другие базы данных с тем же назначением, например, на сайте MappingPoliceViolence (около 8400 записей с 2013 г.) или БД Washington Post (ок. 5600 записей с 2015 г.). Но БД Fatal Encounters (FENC) на текущий момент самая подробная и имеет самый длинный период наблюдений (20 лет), поэтому я использовал ее. Кстати сказать, официальные источники (ФБР) также обещают открыть базу данных применения силы службами порядка, но это наступит только когда наберется представительная выборка данных. Прочитать об этой будущей официальной базе можно по ссылке.

Наконец, данные по общей численности представителей различных рас взяты из Википедии, которая в свою очередь, берет эти данные из официальных источников - Бюро переписи населения США. К сожалению, данные доступны только за промежуток с 2010 по 2018 год. В связи с этим в рамках данного исследования пришлось: 1) ограничить конечную точку наблюдений 2018 годом; 2) для промежутка с 2000 по 2009 год использовать данные по численности населения, смоделированные при помощи простой линейной регрессии (что вполне оправдано учитывая линейную природу прироста населения). Таким образом, мы будем исследовать все данные за период с 2000 г. (начальная точка в БД FENC) по 2018 г. (конечная точка в данных по численности населения). Все результаты будут основаны на наблюдениях за эти 18 лет.

Подготовка данных

Прежде чем приступить к анализу, необходимо загрузить вышеуказанные исходные данные в удобном виде и подготовить их для использования.

С данными по гибели от рук полиции все понятно: просто скачиваем всю БД с сайта и сохраняем как CSV (можно оставить и в XLSX, но я предпочитаю CSV для унификации и экономии). Здесь прямая ссылка на исходный датасет в Google Spreadsheets, здесь уже готовый CSV.

Поля данных (использованные в анализе выделены жирным шрифтом):
  1. Unique ID - ID в БД

  2. Subject's name - имя жертвы

  3. Subject's age - возраст жертвы

  4. Subject's gender - пол жертвы

  5. Subject's race - раса жертвы (официально указанная)

  6. Subject's race with imputations - раса жертвы (официально указанная или заполненная экспертом)

  7. Imputation probability - вероятность экспертной оценки расы

  8. URL of image of deceased - фото жертвы

  9. Date of injury resulting in death (month/day/year) - дата события

  10. Location of injury (address) - адрес события

  11. Location of death (city) - город события

  12. Location of death (state) - штат события

  13. Location of death (zip code) - почтовый индекс адреса события

  14. Location of death (county) - округ события

  15. Full Address - полный адрес события

  16. Latitude - координата широты

  17. Longitude - координата долготы

  18. Agency responsible for death - правоохранительная служба, причинившая смерть

  19. Cause of death - причина смерти

  20. A brief description of the circumstances surrounding the death - краткое описание обстоятельств

  21. Dispositions/Exclusions INTERNAL USE, NOT FOR ANALYSIS - исключения (НЕ ДЛЯ АНАЛИЗА)

  22. Intentional Use of Force (Developing) - применение силы (намеренное)

  23. Link to news article or photo of official document - ссылка на СМИ

  24. Symptoms of mental illness? INTERNAL USE, NOT FOR ANALYSIS - симптомы помешательства жертвы (НЕ ДЛЯ АНАЛИЗА)

  25. Video - видео

  26. Date&Description - дата и описание

  27. Unique ID formula - формула ID

  28. Unique identifier (redundant) - НЕ ИСПОЛЬЗУЕТСЯ

  29. Date (Year) - год события

Данные по численности населения я сохранил с Википедии и при помощи Excel дополнил модельными данными за 2000 - 2009 гг., применив простую регрессию. Здесь можете взять Excel и итоговый CSV.

Поля данных (использованные в анализе выделены жирным шрифтом):
  1. Year - год

  2. Whitepop - численность белых

  3. Blackpop - численность черных

  4. Asianpop - численность азиатов

  5. Native Hawaiianpop - численность гавайцев

  6. American Indianpop - численность индейцев и эскимосов

  7. Unknownpop - численность других рас / без указания расы

Самое интересное - это скачать и подготовить данные по преступлениям с БД ФБР. Для этого я написал программу на Python, которая подключается к публичному API при помощи API-ключа (который я специально получил на том же сайте). API использует REST для запросов к различным имеющимся базам данных и возвращает данные в виде JSON. Программа скачивает и объединяет данные в единый DataFrame, который затем сохраняется в CSV. В тот же файл добавляются и данные по численности населения с вычислением удельных показателей по преступлениям. Здесь итоговый CSV.

Поля данных (использованные в анализе выделены жирным шрифтом):
  1. Year - год

  2. Offense - вид преступления, одно из:

    • All Offenses - все преступления

    • Assault Offenses - нападения

    • Drugs Narcotic Offenses - преступления, связанные с оборотом наркотиков

    • Larceny Theft Offenses - воровство

    • Murder And Nonnegligent Manslaughter - убийство

    • Sex Offenses - преступления на сексуальной почве

    • Weapon Law Violation - нарушение хранения / оборота оружия

  3. Class - классификатор (здесь это раса, но может быть также возраст, пол и т.д.)

  4. Offender/Victim - данные по преступникам или жертвам (в этом анализе речь пока только о преступниках)

  5. Asian - количество преступлений, совершенных азиатами

  6. Native Hawaiian - количество преступлений, совершенных гавайцами

  7. Black - количество преступлений, совершенных черными

  8. American Indian - количество преступлений, совершенных индейцами и эскимосами

  9. Unknown - количество преступлений, совершенных представителями других рас

  10. White - количество преступлений, совершенных белыми

  11. Whitepop - численность белых на соответствующий год

  12. Blackpop - численность черных на соответствующий год

  13. Asianpop - численность азиатов на соответствующий год

  14. Native Hawaiianpop - численность гавайцев на соответствующий год

  15. American Indianpop - численность индейцев и эскимосов на соответствующий год

  16. Unknownpop - численность представителей других рас на соответствующий год

  17. Asian pro capita - удельное количество преступлений, совершенных азиатами (на 1 человека)

  18. Native Hawaiian pro capita - удельное количество преступлений, совершенных гавайцами (на 1 человека)

  19. Black pro capita - удельное количество преступлений, совершенных черными (на 1 человека)

  20. American Indian pro capita - удельное количество преступлений, совершенных индейцами и эскимосами (на 1 человека)

  21. Unknown pro capita - удельное количество преступлений, совершенных представителями других рас (на 1 человека)

  22. White pro capita - удельное количество преступлений, совершенных белыми (на 1 человека)

Инструменты

Весь анализ я провожу с помощью Python 3.8, используя интерактивный Jupyter Notebook. Дополнительные библиотеки:

  • pandas 1.0.3 (для анализа данных)

  • folium 0.11 (для визуализации карт)

Все это "добро" (включая сам Python) доступно мне из дистрибутива WinPython, который я давно использую на Windows из-за его очевидных преимуществ. Вы, конечно, можете использовать любой другой на ваш вкус (например Anaconda) или вообще обойтись просто Python, установив нужные пакеты.

Вообще же, этот же анализ можно с легкостью выполнить с помощью любого другого статистического / математического ПО: R, MatLab, SAS и даже Excel. Как говорится, выбирайте свое оружие :)

В следующей части приступим непосредственно к анализу.

Ссылка на английский перевод (по просьбам трудящихся)

Tags:pythonpandasdata scienceblack lives matteropen sourceRESTAPIbig dataполициясша
Hubs: Python Data Mining Open data
+9
10.4k 39
Comments 45
Popular right now
Python для работы с данными
December 7, 202031,500 ₽Нетология
Python QA Engineer
December 21, 202060,000 ₽OTUS
BIG DATA с нуля
December 22, 202019,700 ₽Нетология
Python для анализа данных
December 31, 202018,990 ₽Level UP