9 March

Будут ли большие данные выполнять свои обещания?

Data MiningBig DataResearch and forecasts in ITArtificial Intelligence
Translation
Original author: Andrew G. Haldane, Bank of England, Chief Economist and Executive Director, Monetary Analysis & Statistics

От переводчика


Это перевод доклада ведущего экономиста Банка Англии о возможностях использования больших данных в деятельности указанной организации. Оригинальное название «Will Big Data Keep Its Promise?» от 30 апреля 2018 года.

Много говорят о Big Data, но, лично у меня, очень часто возникает впечатление, что нам как аборигенам в набедренных повязках, навязывают ничего не стоящие побрякушки. Этот доклад, на мой взгляд, подтверждает, что на самом деле, работа с Big Data достаточно сложный процесс, но продуктивный.

Конечно, этот доклад очень сильно отличается от того, что нам рассказывают, так как, сами понимаете, что этот доклад рассчитан на другую аудиторию. Качество, на мой взгляд, образцовое. В совокупности статуса организации «Bank of England» и специалиста, который представил эти результаты, становится понятно как, в немалых случаях, можно использовать анализ Big Data. Его некоторые выводы, в небольших формулировках, можно сформулировать следующим образом:

  • очень тщательно необходимо определять направление и уровень декомпозиции данных на примере действий Швейцарского Банка;
  • в существенном количестве случаев ценность может оказаться в новых результатах, на примере формирования формулировок управляющих документов Банка Англии.

О некоторых результатах, когда игровая индустрия может заменить метод «Монте-Карло» он только намекает.

Перевод машинный, с небольшими правками, чтобы не резало слух после ката.

Я рад быть здесь, чтобы запустить исследовательский центр Data Analytics for Finance and Macro (DAFM) в бизнес-школе Королевского колледжа. Я хотел бы поздравить профессоров Георгиоса Капетаниоса и Георгиоса Чортареаса, как Содиректоров (а также бывших коллег), с тем, что они организовали для центра стартовую площадку и подготовили его к взлету.

Я считаю, что применение методов анализа данных для решения многих насущных вопросов в области финансов и макроэкономики имеет большие перспективы. Именно по этой причине Банк Англии около четырех лет назад создал собственное подразделение по анализу данных. И именно поэтому я очень приветствую создание этого нового центра, как средства реализации этого обещания.

Но сдержат ли большие данные свое обещание? Я хочу попытаться проиллюстрировать некоторые из этих обещаний больших данных, а также потенциальные ловушки, используя примеры из недавних исследований Банка Англии по экономической и финансовой системе. В заключение я приведу несколько более умозрительных мыслей о будущих исследованиях больших данных.1 (1- Cœuré (2017) offers an excellent summary of the potential for Big Data to improve policymaking, in particular in central banks.)

The Path Less Followed


Первое, что нужно сказать — это то, что большие данные и методы анализа данных не новы. Тем не менее, за последние годы они стали одним из наиболее быстро растущих направлений роста в академических и коммерческих кругах. За этот период данные стали новой нефтью; методы анализа данных стали нефтедобывающими и нефтеперерабатывающими заводами своего времени; а информационные компании стали новыми нефтяными гигантами.2 (2- For example, the Economist (2017), Henke et al (2016).)

Тем не менее, экономика и финансы до сих пор довольно сдержанно относились к всеобщему одобрению этой «нефтяной лихорадки». Для экономики и финансов использование методов анализа данных было менее распространенным путем, по крайней мере, по сравнению с другими дисциплинами. Одна из простых диагностик на этот счет исходит из рассмотрения очень различных интерпретаций выражения «интеллектуальный анализ данных» теми, кто находится внутри и вне экономики и финансов.

Для экономистов немногие грехи являются более отвратительными, чем интеллектуальный анализ данных. Это последнее средство негодяя — заниматься «охотой на регрессию», сообщая только те результаты регрессии, которые наилучшим образом соответствуют гипотезе, которую исследователь сначала намеревался проверить. Это то, что помещает «кон» в эконометрику.3 (3- Leamer 1983) для большинства экономистов такой анализ данных имеет печальное сходство с бурением нефтяных скважин — грязным, добывающим бизнесом, который сопровождается большим вредным влиянием на здоровье.

Для данных ученых (data science) ситуация может быть более другой. Для них добыча данных является средством извлечения новых ценных ресурсов и их использования. Это позволяет получать новые идеи, создавать новые продукты, устанавливать новые связи, продвигать новые технологии. Это сырье для новой волны производительности и инноваций, зарождающейся Четвертой промышленной революции.4 ( 4 — See, for example, Schwab 2017)

Чем объясняется осторожность некоторых экономистов в отношении больших данных? Ответ отчасти кроется в методологии.5 (5 — Haldane 2016) Приличный кусок экономики последовал по методологическим стопам Карла Поппера в 1930-х годах. Поппер отстаивал дедуктивный подход к научному прогрессу.6 (6 — Popper (1934) and Popper (1959)) Это началось с аксиом, перешло от аксиом к теории, а затем и только потом приняло гипотезы к данным. Иными словами, теория предшествовала измерению.

Существует альтернативный, индуктивный подход. Это имеет еще более глубокие корни, в работах Фрэнсиса Бэкона с начала 1600-х годов.7 (7 — Bacon 1620) Он начинает с данных, не стесненных аксиомами и гипотезами, а затем использует их для информирования выбора моделей поведения. Другими словами, данные предшествуют теории. Действительно, некоторые исследователи данных предположили, что такой подход может сигнализировать о «конце теории».8 (8 — Anderson 2008)

Поэтому там, где некоторые экономисты склонны видеть подводные камни в больших данных, специалисты по данным видят многообещающие перспективы. Там, где некоторые экономисты склонны видеть экологическую угрозу, которую она представляет, специалисты по анализу данных видят экономический потенциал. Я немного карикатурен, но только немного. Так кто же прав? И разве эра больших данных сигнализирует о нефтяном потоке или разливе нефти?

Правда, как это часто бывает, вероятно, лежит где-то посередине. Как дедуктивный, так и индуктивный подходы могут предложить понимание мира. Их лучше рассматривать как методологические дополнения, чем как заменители. Иными словами, использование одного подхода в изоляции повышает риск ошибочных выводов и потенциально серьезных ошибок в понимании и политике. Позвольте мне привести несколько примеров для иллюстрации.

Во время мирового финансового кризиса в настоящее время довольно хорошо принято, что модель динамического стохастического общего равновесия (DSGE) основной рабочей лошади макроэкономики упала на первом заборе.9 (9 — For example, Stiglitz 2018) Она не смогла объяснить динамику бизнес-цикла во время или после кризиса. Хотя теоретически чистая, она оказалась эмпирически хрупкая. Я полагаю, что эта эмпирическая хрупкость возникла из-за чрезмерной методологической зависимости от дедуктивных методов. Или, другими словами, из-за того, что слишком мало внимания уделяется реальным данным прошлого, в том числе кризисам.

В качестве контрпримера в 2008 году Google запустила прогностическую модель вспышек гриппа, основанную на поиске таких фраз, как «признаки гриппа».10 (10 — Ginsberg et al 2009) Это проделало огромную работу по отслеживанию вспышек гриппа в США в 2009-10 годах. Но в последующие годы предсказания этой модели потерпели сокрушительное поражение.11 (11 — Lazer et al 2014) Я бы предположил, что эта эмпирическая хрупкость возникла из-за чрезмерной зависимости от эмпирических закономерностей и чрезмерной приверженности индуктивным методам. Или, другими словами, слишком мало внимания уделяется глубоким медицинским причинам прошлых вспышек гриппа.

В первом случае эмпирическая хрупкость возникла из-за слишком узкого набора аксиом и ограничений, из-за слишком большого акцента на теории, а не на реальных корреляциях и историческом опыте. Во втором эмпирическая хрупкость возникла из-за слишком слабого набора аксиом и ограничений из-за наблюдаемых эмпирических корреляций, которым отводится слишком большая роль по отношению к теории и причинности.

В обоих случаях эти ошибки можно было бы уменьшить, если бы индуктивный и дедуктивный подходы использовались дополняющим или итеративным образом. Этот итеративный подход имеет сильную родословную в других дисциплинах. История прогресса во многих научных дисциплинах включала двухсторонний процесс обучения между теорией и эмпирикой, когда теория в некоторых случаях стимулировала измерения, а в других — теория мотивации измерения в непрерывном цикле обратной связи.12 (12 — Bacon (1620) summarises this well: «Those who have handled sciences have been either men of experiment or men of dogmas. The men of experiment are like the ant, they only collect and use; the reasoners resemble spiders, who make cobwebs out of their own substance. But the bee takes a middle course: it gathers its material from the flowers of the garden and of the field, but transforms and digests it by a power of its own.»)

Один из примеров такого подхода, обсуждавшийся губернатором Карни во время запуска собственной программы анализа данных Банка, касается динамики движения планет. (13 — Carney 2015) Именно сэр Исаак Ньютон (бывший владелец Королевского монетного двора, тоже печатавший деньги) разработал физическую теорию небесного движения. Но эта теория была построена на эмпирических плечах другого научного гиганта, Иоганна Кеплера. Когда дело доходит до движения планет, эмпирика сначала вела теорию, индуктивность вела дедуктивную.

То же самое было время от времени, когда мы понимали движение экономики и финансовых рынков. Кейнсианская и монетаристская теории были построены на эмпирическом опыте времен Великой Депрессии. Кривая Филлипса зародилась как эмпирическая закономерность Кеплера, которая лишь впоследствии получила ньютоновскую теоретическую основу. Многие загадки в области финансов, которые десятилетиями преследовали теоретиков, начинались как эмпирические аномалии на рынках активов.14 (14 — Obstfeld and Rogoff (2001) discuss six major puzzles in international macroeconomics, such as the excess volatility of exchange rates relative to fundamentals.) В каждом случае эмпирика вела теорию, индуктивное вело дедуктивное.

Мой вывод из всего этого ясен. Если этот итеративный процесс обучения между эмпирикой и теорией будет продолжать приносить плоды в экономике, то для дедуктивного и индуктивного подходов может потребоваться в целом равное составление счетов. Если это так, то я думаю, что экономика и финансы получат высокую отдачу, сделав дальнейшие интеллектуальные инвестиции в большие данные и сопровождая их аналитическими методами в будущем периоде.

Определение больших данных


Если большие данные многообещающи, то, вероятно, полезно начать с определения того, что это такое. Это не совсем просто. Как и красота, то, что считается большими данными, находится в глазах наблюдающего. Это также текучая концепция. Например, ясно, что данные больше не означают только числа это и слова. Действительно, в последние годы наблюдается рост исследований по семантике, в том числе в области экономики и финансов.

Что менее спорно, так это то, что в течение последнего десятилетия произошла самая экстраординарная революция в создании, извлечении и сборе данных, в широком смысле этого слова. Отчасти это стало результатом действия закона Мура и сопутствующих ему достижений в области информационных технологий.15 (15 — Moore (1965) noted the annual doubling in the number of components per integrated circuit) В отличие от нефти, ресурсы которой ограничены, новые данные создаются с беспрецедентной скоростью и имеют практически неограниченные запасы.

Подсчитано, что 90% всех когда-либо созданных данных приходились на последние два года.16 (16 — SINTEF 2013) хороший кусок пришел благодаря социальным сетям. Около 1,5 миллиарда человек пользуются Facebook ежедневно и 2,2 миллиарда ежемесячно. В 2017 году было 4,4 миллиарда подписок на смартфоны, более одного на каждого второго человека на планете. По прогнозам, к 2023 году число абонентов смартфонов составит 7,3 миллиарда, то есть почти по одному на каждого человека.17 (17 — Ericsson Mobility Report 2017) По оценкам, в 2017 году было сделано 1,2 трлн фотографий, что составляет 25% от всех фотографий, сделанных когда-либо.18 (18 — See www.statista.com/chart/10913/number-of-photos-taken-worldwide)

Другой вид на эту информационную революцию открывается, когда мы смотрим на число ученых, изучающих данные. Используя данные о вакансиях с сайта поиска работы Reed, недавно было опубликовано более 300 объявлений о вакансиях в Великобритании для специалистов по обработке данных.19 (19 — Using dataset in Turrell et al (forthcoming)) Еще в 2012 году их почти не было. Оценки, основанные на самоидентификации на сайте социальной сети Linked-In, предполагают, что в мире может быть более 20 000 специалистов по обработке данных.20 (20 — Dwoskin (2015). The true number of data scientists worldwide is highly uncertain. Many individuals work on data science without necessarily using that job title, but the opposite is also true.)

В то же время наблюдается быстрый рост новых методов обработки, фильтрации и извлечения информации из этих данных. Методы машинного обучения быстро развиваются. Так называемые методы «глубокого обучения» дополняют существующие подходы, такие как tree-based models, машины опорных векторов и support vector machines and clustering techniques.21 (21 — Chakraborty and Joseph 2017) В области текстового анализа быстро набирают обороты словарные методы, модели векторного пространства и семантический анализ.22 (22 — Bholat et al 2015)

Все эти методы предлагают различные способы извлечения информации и получения надежных выводов в ситуациях, когда эмпирические отношения могут быть сложными, нелинейными и эволюционирующими и когда данные могут поступать с разной частотой и в разных форматах. Эти подходы существенно отличаются от классических эконометрических методов вывода и тестирования, часто используемых в экономике и финансах.

Эта революция в представлении данных и в методах их понимания предлагает аналитические богатства. Добыча этих богатств требует, однако, значительной осторожности. Например, вопросы конфиденциальности данных вырисовываются гораздо шире с гранулированными, в некоторых случаях персонализированными данными. В последнее время эти вопросы по праву занимают видное место. В то же время защита больших данных является одной из ключевых задач Банка в его исследованиях.

Обещание больших данных


В той мере, в какой большие данные могут быть охарактеризованы, это обычно делается с использованием «трех V»: объема (volume), скорости (velocity) и разнообразия (variety). Используя три V в качестве организационной структуры, позвольте мне обсудить некоторые примеры того, как эти данные и методы использовались в недавних банковских исследованиях для улучшения нашего понимания функционирования экономики и финансовой системы.

Объем


Статистическим фундаментом макроэкономического анализа, по крайней мере, с середины XX века, являются национальные счета. Национальные счета всегда опирались на эклектичный набор данных.23 (23 — Coyle 2014) В прошлом для оценки сельскохозяйственного производства использовались счета усадеб по землепользованию, урожаям и поголовью скота. Промышленное производство измерялось по таким различным источникам, как количество железных доменных печей и книг, перечисленных Британской библиотекой. А выпуск услуг оценивался исходя из тоннажа торгового флота.24 (24 — Fouquet and Broadberry 2015)

В условиях, когда поступает больше данных, чем когда-либо ранее, использование новых и эклектичных источников и методов данных, если уж на то пошло, получает все большее распространение в статистических учреждениях. В области измерения потребительских цен проект MIT «Billion Prices Project» использует данные более чем 1000 интернет-магазинов примерно в 60 странах для сбора 15 миллионов цен на ежедневной основе. Было установлено, что такой подход позволяет получить более своевременную (и дешевую) информацию о потребительских ценах, чем традиционные опросы.25 (25 — Cavallo and Rigobon 2016) Было также обнаружено, что онлайновые данные о ценах улучшают краткосрочные прогнозы инфляции на некоторых рынках.26 (26 — Cœuré 2017)

В том же духе Управление национальной статистики Великобритании (УНС) изучает возможность использования «веб-скрейпинга» в дополнение к существующим методам сбора цен. На сегодняшний день они сосредоточены на таких предметах, как продукты и одежда. Несмотря на ранние годы, потенциальные выгоды с точки зрения увеличения размеров выборки и детализации представляются значительными. Например, УНС до сих пор собирало 7000 ценовых предложений в день для группы продуктовых товаров, что больше, чем текущий ежемесячный сбор для этих товаров в ИПЦ.27 (27 — See www.ons.gov.uk/economy/inflationandpriceindices/articles/researchindicesusingwebscrapedpricedata/august2017update)

Что касается измерения ВВП, то здесь также появляются новые источники и методы. Одно недавнее исследование использовало спутниковые изображения для измерения количества неестественного света, испускаемого из различных регионов мира. Было обнаружено, что это имеет статистически значимую связь с экономической активностью.28 (28 — Henderson, Storeygard and Weil (2011) этот подход потенциально может помочь в отслеживании деятельности в регионах, которые географически удалены, где статистические методы обследования являются плохими или где проблемы неправильного измерения являются острыми.

Более приземленным примером, используемым УНС Великобритании и другими статистическими агентствами, являются так называемые административные данные. Сюда относятся данные, собираемые государственными органами в рамках их деятельности – например, о налоговых поступлениях и выплатах пособий. В Великобритании некоторые из этих данных недавно стали доступны для более широкого использования в рамках правительственной инициативы по открытым данным, хотя и подвергались серьезной проверке.

В качестве одного из примеров можно привести данные по НДС, полученные от МСП в ряде отраслей, которые в последнее время использовались УНС при составлении оценок ВВП на основе выпуска. Как и в случае с ценами, выигрыш в размере выборки и степени детализации от использования таких административных данных потенциально велик. Ежемесячный обзор деловой активности УНС, как правило, опирается на выборку из примерно 8000 фирм, представляющих эту подгруппу МСП. В настоящее время это дополняется декларациями по НДС от примерно 630 000 единиц отчетности.29 (29 — www.ons.gov.uk/economy/grossdomesticproductgdp/articles/vatturnoverinitialresearchanalysisuk/december)

Эти новые данные дополняют, а не заменяют существующие методы обследования. Они обладают потенциалом для повышения своевременности и точности данных национальных счетов о совокупных экономических тенденциях. УНС имеет свой собственный научный центр данных, чтобы возглавить эти усилия. И новые исследовательские организации, такие как институт Алана Тьюринга, делают отличную работу, применяя новые данные и методы для экономических измерений.

Еще одной потенциально плодотворной областью исследований при отслеживании потоков деятельности в экономике являются финансовые данные. Почти вся экономическая деятельность оставляет финансовый след на балансе того или иного финансового учреждения. Отслеживание движения денежных средств между финансовыми учреждениями может помочь в определении размера этого следа и, таким образом, косвенно, в отслеживании экономической деятельности.

В банке мы в течение последних лет опирались на базу данных по продажам продуктов Управления по финансовому регулированию и надзору (PSD). Это очень детализированный источник административных данных по ипотечным продуктам собственника-арендатора, выпущенным в Великобритании. В нем содержатся данные о почти 16 миллионах ипотечных кредитов с середины 2005 года. ОСЧС предоставила банку новый инструмент с более высоким разрешением для анализа поведения домохозяйств и рынка жилья.

Например, в 2014 году PSD был использован Комитетом по финансовой политике Банка (FPC) для информирования и калибровки его решений по установлению макропруденциальных ограничений на ипотечные кредиты с высоким доходом для домохозяйств Великобритании.30 (30 — June 2014 Financial Stability Report) С тех пор мы использовали эти данные для отслеживания характеристик существующих ипотечников с высокими доходами по ссудам и высокими кредитами по стоимости с течением времени.31 (31 — Chakraborty, Gimpelewicz and Uluc 2017) Данные ОСЧС были использованы для понимания ценовых решений на рынке жилья Великобритании.32 (32 — Bracke and Tenreyro (2016) and Benetton, Bracke and Garbarino (2018)) И они также были использованы для калибровки многоотраслевой агентной модели рынка жилья Великобритании.33 (33- Baptista et al 2016).

В последние годы банк и УНС разрабатывают более полный набор данных о потоках средств между учреждениями. Есть надежда, что эти данные помогут отслеживать не только изменения портфеля, но и то, как они могут повлиять на финансовые рынки и экономику в целом. Например, влияют ли перераспределения портфелей институциональными инвесторами на рынки активов и оказывают ли они стимулирующее воздействие на расходы?34 (34 — Bank of England and Procyclicality Working Group 2014) Ответы на подобные вопросы помогают, например, при оценке эффективности количественного смягчения.35 (35 — For example, Albertazzi, Becker and Boucinha (2018) show evidence of the portfolio rebalancing channel from the ECB»s asset purchase programme)

Новые, очень детализированные данные также поступают на поток по платежным, кредитным и банковским потокам. Некоторые из них использовались для прогнозирования или отслеживания изменений в экономической деятельности. Они добились некоторого успеха. Например, в США для анализа структуры потребления в разбивке по возрасту, размеру фирмы, столичному району и сектору недавно был использован набор данных о более чем 12 миллиардах операций по кредитным и дебетовым картам за 34-месячный период.36 (36 — Farrell and Wheat 2015)

Со временем, возможно, эти виды данных могут помочь создать карту финансовых потоков и потоков деятельности в реальном времени по всей экономике, во многом так же, как это уже делается для потоков трафика, информации или погоды. После того, как они будут сопоставлены, появится возможность моделировать и с помощью политики изменять эти потоки. Об этой идее я впервые заговорил шесть лет назад. Сегодня он выглядит ближе, чем когда-либо, к тому, чтобы быть в пределах нашей досягаемости.37 (37 — Ali, Haldane and Nahai-Williamson 2012)

Это все области, в которых DAFM может внести важный вклад в усилия по повышению качества и своевременности данных о макроэкономической и финансовой системе. Общеизвестно, что возможности для улучшения качества данных национальных счетов весьма велики.38 (38 — For example, Bean 2016) И эти проблемы измерения будут только усиливаться по мере того, как мы будем продвигаться к все более цифровой и ориентированной на обслуживание экономике.

Скорость


Вторым аспектом революции больших данных является ее большая частота и своевременность. Более частые данные могут дать новое или более точное представление о тенденциях на финансовых рынках и в экономике. Он также иногда может помочь в решении сложных проблем идентификации, которые в противном случае мешают как большим данным (как показал пример Google flu), так и классическим эконометрическим методам (как показал пример DSGE).

Кризис показал, что в стрессовых ситуациях некоторые из крупнейших и наиболее глубоких финансовых рынков мира могут быть лишены ликвидности. Это привело к тому, что некоторые из этих рынков были захвачены. В ответ на это, в качестве одного из своих первых актов, G20 в 2009 году согласилась собрать гораздо больший объем данных о сделках на этих рынках, чтобы помочь лучше понять их динамику в стрессовых ситуациях.39 (39 — See, for example, FSB 2010) Эти данные хранятся в торговых хранилищах.

В последние годы эти торговые хранилища начали собирать данные на весьма детализированной, торговой основе. Это означает, что они быстро накопили большой запас данных. Например, каждый рабочий рабочий день на валютном рынке собирается около 11 миллионов отчетов. Они предоставляют богатый источник данных, когда речь заходит о высокочастотной динамике финансового рынка и дислокациях.

Один из примеров такого смещения произошел, когда швейцарский франк был де-привязан в январе 2015 года. Этот неожиданный шаг вызвал большие сдвиги в ценах активов. Франк продемонстрировал резкое V-образное движение в течение нескольких часов сразу после снятия привязки. Анализируя данные торгового репозитария о форвардных контрактах по курсу швейцарского франка к евро, можно выявить некоторые движущие силы, стоящие за этими изменениями.40 (40 — Cielinska et al (2017). Other recent research papers using trade repository data include Abad et al (2016) and Bonollo et al (2016))

Например, высокочастотные колебания курса швейцарской валюты можно сравнить с объемом торгов по форвардным контрактам. Эти сделки могут быть далее разложены по контрагентам-например, крупным банкам-дилерам и конечным инвесторам. Этот тип метода декомпозиции показывает, что именно изъятие ликвидности крупными банками – дилерами вызвало перерасход Франка-классический признак во времена рыночных потрясений.41 (41 — See, for example, Duffie, Gârleanu and Pedersen (2005) and Lagos, Rocheteau and Weill (2011)) Это движение частично обратилось вспять, как только дилеры возобновили рыночное производство.

Данные торгового репозитария могут также использоваться для оценки того, оказало ли ослабление привязки франка какое-либо долгосрочное воздействие на функционирование рынка. Исследование банка показало, что это так, с постоянной фрагментацией на рынке форвардных франков. Ликвидность и междилерская активность были структурно ниже, а волатильность рынка устойчиво выше, после этого эпизода.

Дополнительная детализация этих данных позволяет рассказать квази-причинную историю о движущих силах V-образного движения на рынках активов после снятия привязки. Использование параллельных данных тик-за-тиком и трейд-за-трейдом позволяет идентифицировать триггеры и усилители таким образом, который в противном случае был бы невозможен.

Второй пример исследования, использующего более быстрые данные для улучшения нашего понимания экономической динамики, — это рынок труда. Понимание совместного поведения занятости и заработной платы остается одним из центральных вопросов современной макроэкономики. В последнее время эта динамика осложняется изменениями в мире труда, когда автоматизация изменяет как природу, так и структуру труда.

Недавние банковские исследования использовали детализированные данные о объявленных вакансиях, чтобы пролить свет на эту динамику.42 (42 — Turrell et al (forthcoming)) Исследование анализирует около 15 миллионов вакансий за десятилетний период. Вместо того чтобы классифицировать вакансии по секторам, родам занятий или регионам, он использует методы машинного обучения в тексте описания вакансий для классификации и кластеризации вакансий. Результатом является более «основанная на описании должностных обязанностей» схема классификации спроса на рабочую силу.

Этот подход обеспечивает иной способ классификации и описания того, как развивается мир труда – например, типы навыков, необходимых в условиях автоматизации. Схема классификации также была полезна при определении взаимосвязи между спросом на рабочую силу и заработной платой. Использование классификации, основанной на описании работы, помогает выявить более четкую связь между спросом на рабочую силу и предлагаемой и согласованной заработной платой.
Разнообразие

Одним из потенциально наиболее продуктивных направлений исследований больших данных в макро-и финансовой сфере является использование в качестве данных не чисел, а слов. Семантические данные и методы семантического поиска имеют богатую родословную в других социальных науках, таких как социология и психология. Но до сих пор их применение в экономике и финансах было относительно ограниченным.43 (43 — Notable examples include Schonhardt-Bailey (2013) and Goldsmith-Pinkham, Hirtle and Lucca (2016))

Как и другие социальные науки, экономика и финансы связаны с человеческим выбором. И мы знаем, что люди часто полагаются на эвристику или истории, а не на статистику, когда осмысливают мир и принимают решения. Таким образом, семантическое восприятие этих историй важно для понимания человеческого поведения и принятия решений.

Например, недавно Банк начал изучать язык, который он использует при внешнем общении, будь то с финансовыми фирмами или общественностью в целом. Например, Майкл Мак-Магон из Оксфордского университета и я недавно оценили, как упрощение формулировок Комитета по денежно-кредитной политике (MPC) в отчете об инфляции в конце прошлого года повысило понимание общественностью сообщений о денежно-кредитной политике.44 (44 — Haldane and McMahon (forthcoming)).

Во втором примере рассматривается гораздо менее изученный аспект принятия банком решений-его надзор за финансовыми фирмами.45 (45 — Bholat et al 2017) Это основано на текстовом анализе конфиденциальных периодических итоговых встреч Банка (PSM), направляемых финансовым фирмам. Это, возможно, единственные наиболее важные письма, которые орган пруденциального регулирования (PRA) регулярно направляет фирмам, излагая оценку надзорными органами рисков фирм и требуя принятия мер по смягчению этих рисков. Используя метод машинного обучения, называемый случайными лесами, исследователи анализируют эти буквы и извлекают данные об их тоне и содержании.

Этот тип анализа имеет ряд приложений политики. Он может быть использован для оценки того, передают ли письма четкое и последовательное надзорное сообщение фирмам. Например, можно сравнить силу и содержание этих писем с внутренней оценкой банком сильных и слабых сторон фирм. Согласуются ли эти два подхода и система надзора Банка? В общем, исследования показали, что они есть.

Этот подход также может быть использован для оценки того, как стиль надзора эволюционировал с течением времени. Например, как он изменился с момента перехода в надзорных моделях от управления финансовых услуг (FSA) к PRA? Исследование показало, что по сравнению с этими двумя режимами обмен надзорными сообщениями стал более перспективным, формальным и содержательным, что согласуется с новой моделью надзорной деятельности PRA.

Это упражнение, я думаю, является хорошим примером применения новой методики (случайные леса) к совершенно новой базе данных (надзорные оценки банка) в области политики, практически не исследованной ранее исследователями (надзор за финансовыми фирмами). Он приходит к выводам, которые имеют прямое отношение к вопросам политики. Таким образом, я думаю, что это красиво подчеркивает перспективы больших данных.

В моем последнем примере используются не новые, а старые данные. Тем не менее, я думаю, что это хорошая иллюстрация того, как новые методы могут также использоваться для понимания прошлого. Задолго до того, как Банк стал отвечать за денежно-кредитную политику и финансовую стабильность, одной из ключевых ролей банка было предоставление кредитов в крайнем случае коммерческим банкам, испытывающим давление ликвидности.

Трудно точно датировать, но банк начал проводить такие операции всерьез, вероятно, примерно в то время, когда Великобритания столкнулась с постоянной чередой банковских Паник в 1847, 1857 и 1866 годах. Банк отреагировал на эту панику предоставлением ликвидности для поддержки банков. На свет появилось последнее средство кредитования, как впоследствии стал называть его Бейджхот. 46 (46 — Bagehot 1873) В самом деле, позднее Бейджхот определил принципы такого кредитования: оно должно происходить свободно, с неустойкой за хорошее обеспечение.

Интересный исторический вопрос, имеющий отношение к сегодняшнему дню, заключается в том, действительно ли банк придерживался этих принципов при кредитовании последней инстанции во время паники 1847, 1857 и 1866 годов. Чтобы оценить это, мы взяли данные из гигантских бумажных бухгалтерских книг, фиксирующих изменения в балансе банка, где эти интервенции были записаны по кредиту за кредитом, контрагенту за контрагентом, процентной ставке за процентной ставкой.47 (47 — Anson et al 2017)

Расшифровка этих данных была выгодна тем, что рукописные записи в бухгалтерских книгах были сделаны небольшим числом клерков в течение трех кризисов — одно из косвенных преимуществ непрерывности работы. В то время как данные в основном записывались вручную, проект разработал систему распознавания изображений с использованием алгоритма нейронной сети, который мы будем использовать в будущем, чтобы превратить исторические операции с книгами в машиночитаемые данные 21-го века.

Данные по историческому кредитованию последней инстанции банка являются новыми и очень детализированными, большими данными из ушедшей эпохи. Это показывает, что подход Банка к кредитованию в крайних случаях значительно изменился во время кризисов середины XIX века. Это означало, что ко времени кризиса 1866 года Банк более или менее следовал принципам кредитования на крайний случай, изложенным впоследствии Бейджхотом. Это еще один пример ведущей эмпирической теории.

Методы машинного обучения применяются к статистике, регулярно собираемой и сообщаемой банком. В частности, эти методы используются для выявления ошибок или аномалий в исходных данных, предоставляемых банку. Это делает очистку данных гораздо более систематичной и эффективной, чем это возможно при использовании ручных процессов. Методы анализа данных также могут быть использованы для сопоставления новых источников гранулированных данных. Это не только обеспечивает еще один способ проверки достоверности данных, но и может дать представление о том, что отдельные источники данных не могут раскрыть сами по себе.48 (48 — Bahaj, Foulis and Pinter (2017), for example, match firm-level accounting data, transaction-level house price data and loan-level residential mortgage data to show how the house price of the director of an SME can affect their firm»s investment and wage bill.) В Банке Англии, как и везде, роботы находятся на подъеме.

Взгляд в будущее


Заглядывая в будущее, можно отметить, что существует много потенциальных областей, в которых эти новые источники и новые методы могут быть расширены для улучшения понимания банком экономической и финансовой системы. Из длинного списка позвольте мне обсудить один, который, как мне кажется, имеет особое значение.

Поведенческая экономика, по праву, сделала большой всплеск за последние несколько лет в изменении мышления экономистов о том, как принимаются человеческие решения. Человеческие решения и действия отклоняются, часто значительно и последовательно, от рациональных ожиданий, которые часто принимаются за норму.49 (49 — Rotemberg (1984), for example, discusses the statistical rejection of rational expectations models for consumption and labour demand.) Эмпирические правила и эвристика доминируют в принятии решений человеком. И ожидания, формируемые людьми, часто формируются в значительной степени историей, эмоциями и действиями других людей, а также рациональным расчетом.

Такое поведение представляется важным как для индивидов (микроэкономика), так и для обществ (макроэкономика). Например, популярные нарративы, которые развиваются на финансовых рынках и в повседневном публичном дискурсе, оказались важными эмпирическими факторами колебаний цен на активы и экономической активности.50 (50 — Tuckett and Nyman (2017), Shiller (2017) and Nyman et al (2018)) Эти повествования могут быть особенно важны в периоды экономического и финансового стресса, когда эмоции накаляются, а социальные истории приобретают дополнительную значимость.

И все же, когда речь заходит об измерении такого поведения, будь то на микро — или макроэкономическом уровне, наши существующие методы зачастую плохо оснащены. Уловить истинные чувства и предпочтения людей чертовски трудно. Традиционные опросы участников рынка или широкой общественности, как правило, предвзяты в своей выборке и формулируются в ответах. Как и в квантовой физике, сам акт наблюдения может изменить поведение.

Эти реалии могут потребовать изучения нетрадиционных способов выявления предпочтений и настроений людей. В качестве одного из недавних примеров можно привести данные о скачиваниях музыки из Spotify, которые использовались в тандеме с методами семантического поиска, применяемыми к словам песен, чтобы обеспечить индикатор настроения людей. Интересно, что результирующий индекс настроений, по крайней мере, так же хорошо отслеживает потребительские расходы, как и Мичиганский опрос потребительского доверия.51 (51 — Sabouni 2018).

И зачем останавливаться на музыке? Вкусы людей в книгах, телевидении и радио также могут открыть окно в их душу. Так же, как и их вкус в играх. Действительно, меня интересует потенциал использования игровых техник не только для извлечения данных о предпочтениях людей, но и как средство генерирования данных о предпочтениях и действиях.

Существующие модели, эмпирические и теоретические, часто делают сильные предположения о поведении агентов. Теоретические модели основаны на аксиоматических допущениях. Эмпирические модели основаны на исторических моделях поведения. Эти ограничения могут быть или не быть подтверждены в будущем поведении. Если это не так, то модель распадется на выборку, как это сделали (дедуктивная) модель DSGE и (индуктивная) модель Google flu.

Игровая среда может быть использована для понимания поведения таким образом, чтобы было меньше ограничений. Поведение людей будет наблюдаться непосредственно в акте игры, который, при условии, что это поведение является разумным отражением истинного поведения, даст нам новые данные. Поскольку это виртуальный, а не реальный мир, где Шоки контролируются и регулируются, это может облегчить решение вопросов причинности и идентификации в ответ на шоки, включая политические Шоки.

Уже существуют игры с участием нескольких человек и примитивными экономиками, которые позволяют товарам и деньгам переходить из рук в руки между участниками. К ним относятся EVE Online и World of Warcraft. Некоторые экономисты начали использовать игровые технологии для понимания поведения.52 (52 — For example, Lehdonvirta and Castronova (2014) Например, Стивен Левитт (из Freakonomics fame) использовал игровые платформы для понимания кривой спроса на виртуальные товары.53 (53 — Levitt et al (2016)

Идея здесь состояла бы в том, чтобы использовать динамическую игру с несколькими людьми для изучения поведения в виртуальной экономике. Это будет включать в себя взаимодействие игроков – например, появление популярных нарративов, которые формируют расходы или сбережения. И это может включать реакцию игроков на вмешательство в политику – например, их реакцию на денежно-кредитную и регулятивную политику. Действительно, в последней роли игра могла бы служить испытательным стендом для политических действий-крупномасштабной, динамичной, цифровой фокус-группы.54 (54 — Yanis Varoufakis has previously been involved with a similar idea: uk.businessinsider.com/yanis-varoufakis-valve-gameeconomy-greek-finance-2015-2)

Специалисты по искусственному интеллекту создают виртуальные среды для ускорения процесса изучения динамики систем. «Обучение с подкреплением» позволяет алгоритмам учиться и обновляться, опираясь на взаимодействие между виртуальными игроками, а не на ограниченный исторический опыт.55 (55 — See deepmind.com/blog/deep-reinforcement-learning for a discussion) По крайней мере, в принципе виртуальная экономика позволила бы политикам участвовать в их собственном обучении подкреплению, ускоряя их процесс открытия о поведении сложной экономической и финансовой системы.

Вывод


Так сдержат ли большие данные свое обещание? Я уверен, что так и будет. Экономике и финансам необходимо постоянно инвестировать в большие данные и аналитику данных, чтобы сбалансировать методологические шкалы. И ранние исследования, в том числе в банке, показывают, что отдача от такой деятельности может быть высокой, углубляя наше понимание экономики и финансовой системы.

Эти результаты будут лучше всего получены, если будет налажено тесное сотрудничество между статистическими органами, директивными органами, коммерческим сектором, исследовательскими центрами и академическими кругами. Банк Англии может сыграть каталитическую роль в объединении этих экспертных знаний. То же самое может сделать и DAFM. Я желаю DAFM всяческих успехов и надеюсь на сотрудничество с вами.

References
Abad, J, Aldasoro, I, Aymanns, C, D»Errico, M, Rousová, L F, Hoffmann, P, Langfield, S, Neychev, M and Roukny, T (2011), «Shedding light on dark markets: First insights from the new EU-wide OTC derivatives dataset», ESRB Occasional Paper Series, No. 11.

Albertazzi, U, Becker, B and Boucinha, M (2018), «Portfolio rebalancing and the transmission of largescale asset programmes: evidence from the euro area», ECB Working Paper Series, No. 2125.

Ali, R, Haldane, A and Nahai-Williamson, P (2012), «Towards a common financial language», paper available at www.bankofengland.co.uk/paper/2012/towards-a-common-financial-language
Anderson, C (2008), «The End of Theory: The Data Deluge Makes The Scientific Method Obsolete», Wired Magazine, 23 June.

Anson, M, Bholat, D, Kang, M and Thomas, R (2017), «The Bank of England as lender of last resort: new historical evidence from daily transactional data», Bank of England Staff Working Paper, No. 691.

Bacon, F (1620), Novum Organum.

Bagehot, W (1873), Lombard Street: A Description of the Money Market, Henry S. King & Co.

Bahaj, S, Foulis, A and Pinter, G (2017), «Home values and firm behaviour», Bank of England Staff Working Paper, No. 679.

Bank of England and Procyclicality Working Group (2014), «Procyclicality and structural trends in investment allocation by insurance companies and pension funds», Discussion Paper, July.

Baptista, R, Farmer, JD, Hinterschweiger, M, Low, K, Tang, D and Uluc, A (2016), «Macroprudential policy in an agent-based model of the UK housing market», Bank of England Staff Working Paper, No. 619.

Bean, C (2016), «Independent Review of UK Economic Statistics», available at www.gov.uk/government/publications/independent-review-of-uk-economic-statistics-final-report
Benetton, M, Bracke, P and Garbarino, N (2018), «Down payment and mortgage rates: evidence from equity loans», Bank of England Staff Working Paper, No. 713.

Bholat, D, Brookes, J, Cai, C, Grundy, K and Lund, J (2017), «Sending firm messages: text mining letters from PRA supervisors to banks and building societies they regulate, Bank of England Staff Working Paper, No. 688.

Bholat, D, Hansen, S, Santos, P and Schonhardt-Bailey, C (2015), «Text mining for central banks», Bank of England Centre for Central Bank Studies Handbook.

Bonollo, M, Crimaldi, I, Flori, A, Gianfanga, L and Pammolli, F (2016), «Assessing financial distress dependencies in OTC markets: a new approach using trade repositories data», Financial Markets and Portfolio Management, Vol. 30, No. 4, pp. 397-426.

Bracke, P and Tenreyro, S (2016), «History dependence in the housing market», Bank of England Staff Working Paper, No. 630.

Carney, M (2015), speech at Launch Conference for One Bank Research Agenda, available at www.bankofengland.co.uk/speech/2015/one-bank-research-agenda-launch-conference

Cavallo, A and Rigobon, R (2016), «The Billion Prices Project: Using Online Prices for Measurement and Research», Journal of Economic Perspectives, Vol. 30, No. 2, pp. 151-78.

Chakraborty, C, Gimpelewicz, M and Uluc, A (2017), «A tiger by the tail: estimating the UK mortgage market vulnerabilities from loan-level data, Bank of England Staff Working Paper, No. 703.

Chakraborty, C and Joseph, A (2017), «Machine learning at central banks», Bank of England Staff Working Paper, No. 674.

Cielenska, O, Joseph, A, Shreyas, U, Tanner, J and Vasios, M (2017), «Gauging market dynamics using trade repository data: the case of the Swiss franc de-pegging», Bank of England Financial Stability Paper, No. 41.

Cœuré, B (2017), «Policy analysis with big data», speech at the conference on «Economic and Financial Regulation in the Era of Big Data».

Coyle, D (2014), GDP: A Brief but Affectionate History, Princeton University Press.

Duffie, D, Gârleanu, N and Pedersen, L (2005), «Over-the-Counter Markets», Econometrica, Vol. 73, No.6, pp. 1815-1847.

Dwoskin, E (2015), «New Report Puts Numbers on Data Scientist Trend», Wall Street Journal, 7 October.

Economist (2017), «The world»s most valuable resource is no longer oil, but data», article on 6 May 2017.

Ericsson (2017), Ericsson Mobility Report, November 2017.

Farrell, D and Wheat, C (2015), «Profiles of Local Consumer Commerce», JPMorgan Chase & Co. Institute.

Financial Stability Board (2010), «Implementing OTC Derivatives Market Reforms», Financial Stability Board.

Fouquet, R and Broadberry, S (2015), «Seven Centuries of European Economic Growth and Decline», Journal of Economic Perspectives, Vol. 29, No. 4, pp. 227-244.

Ginsberg, J, Hohebbi, M, Patel, R, Brammer, L, Smolinski, M and Brilliant, L (2009), «Detecting influenza epidemics using search engine data», Nature, Vol. 457, pp. 1012-1014.

Goldsmith-Pinkham, P, Hirtle, B and Lucca, D (2016), «Parsing the Content of Bank Supervision», Federal Reserve Bank of New York Staff Reports, No. 770.

Haldane, A (2016), «The Dappled World», speech available at www.bankofengland.co.uk/speech/2016/the-dappled-world

Haldane, A and McMahon, M (forthcoming), «Central Bank Communication and the General Public», American Economic Review: Papers & Proceedings.

Henderson, V, Storeygard, A and Weil, D (2011), «A Bright Idea for Measuring Economic Growth», American Economic Review: Papers & Proceedings, Vol. 101, No. 3, pp. 194-99.

Henke, N, Bughin, J, Chui, M, Manyika, J, Saleh, T, Wiseman, B and Sethupathy, G (2016), «The Age of Analytics: Competing in a Data-Driven World», McKinsey Global Institute.

IMF (2018), «Cyclical Upswing, Structural Change», World Economic Outlook, April 2018.

Lagos, R, Rocheteau, G and Weill, P-O (2011), «Crises and liquidity in over-the-counter markets», Journal of Economic Theory, Vol. 146, No. 6, pp. 2169-2205.

Lazer, D, Kennedy, R, King, G and Vespignani, A (2014), «The Parable of Google Flu: Traps in Big Data Analysis», Science, Vol. 343, pp. 1203-1205.

Leamer, E (1983), «Let»s Take the Con Out of Econometrics», American Economic Review, Vol. 73, No. 1, pp. 31-43.

Lehdonvirta, V and Castronova, E (2014), Virtual Economies: Design and Analysis, MIT Press.

Levitt, S, List, J, Neckermann, S and Nelson, D (2016), «Quantity discounts on a virtual good: The results of a massive pricing experiment at Kind Digital Entertainment», Proceedings of the National Academy of Sciences of the United States of America, Vol. 113, No. 27, pp. 7323-7328.

Moore, G (1965), «Cramming more components onto integrated circuits», Electronics, Vol. 38, No. 8.

Nyman, R, Kapadia, S, Tuckett, D, Gregory, D, Ormerod, P and Smith, R (2018), «News and narratives in financial systems: exploiting big data for systemic risk assessment», Bank of England Staff Working Paper, No. 704.

Obstfeld, M and Rogoff, K (2001), «The Six Major Puzzles in International Macroeconomics: Is There a Common Cause?», NBER Macroeconomics Annual, Vol. 15, MIT Press.

Popper, K (1934), Logik der Forschung, Akademie Verlag.

Popper, K (1959), The Logic of Scientific Discovery, Routledge.

Rotemberg, J (1984), «Interpreting the Statistical Failures of Some Rational Expectations Models», American Economic Review, Vol. 74, No. 2, pp. 188-193.

Sabouni, H (2018), «The Rhythm of Markets», mimeo.

Schonhardt-Bailey, C (2013), Deliberating American Monetary Policy: A Textual Analysis, MIT Press.

Schwab, K (2017), The Fourth Industrial Revolution, Portfolio Penguin.

Shiller, R (2017), «Narrative Economics», American Economic Review, Vol. 104, No. 4, pp. 967-1004.

SINTEF (2013), «Big Data, for better or worse: 90% of world»s data generated over last two years», ScienceDaily, 22 May.

Stiglitz, J (2018), «Where modern macroeconomics went wrong», Oxford Review of Economy Policy, Vol. 34, No. 1-2, pp. 70-106.

Tuckett, D and Nyman, R (2017), «The relative sentiment shift series for tracking the economy», mimeo.

Turrell, A, Speigner, B, Thurgood, J, Djumalieva, J and Copple, D (forthcoming), «Using Online Vacancies to Understand the UK Labour Market from the Bottom-Up», Bank of England Staff Working Paper.
Tags:big datadata analysisdata qualitymachine learningdata miningdata scienceискусственный интеллектмашинное обучение
Hubs: Data Mining Big Data Research and forecasts in IT Artificial Intelligence
+3
1.5k 9
Leave a comment