MagisterLudi Jun 6 2018 at 15:46

Ричард Хэмминг: Глава 27. Недостоверные данные

20 min

6.9K

Professional literature*Research and forecasts in IT*Studying in ITReading roomCrowdsourcing

Translation

Original author: Ричард Хэмминг

«Цель этого курса — подготовить вас к вашему техническому будущему.»

Привет, Хабр. Помните офигенную статью «Вы и ваша работа» (+219, 2394 в закладки, 386k прочтений)?

Так вот у Хэмминга (да, да, самоконтролирующиеся и самокорректирующиеся коды Хэмминга) есть целая книга, написанная по мотивам его лекций. Мы ее переводим, ведь мужик дело говорит.

Это книга не просто про ИТ, это книга про стиль мышления невероятно крутых людей. «Это не просто заряд положительного мышления; в ней описаны условия, которые увеличивают шансы сделать великую работу.»

Мы уже перевели 21 (из 30) главу. И ведем работу над изданием «в бумаге».

Глава 27. Недостоверные данные

(За перевод спасибо Валентину Пинчуку, который откликнулся на мой призыв в «предыдущей главе».) Кто хочет помочь с переводом, версткой и изданием книги — пишите в личку или на почту magisterludi2016@yandex.ru

По моему опыту, да и опыту многих других исследователей, данные, как правило, гораздо менее точны, чем это декларируется. Это не простой момент – мы зависим как от выбора исходных данных для принятия решений, так и от исходных данных при моделировании, по результатам которого принимаются решения. Так как природа ошибок очень многообразна, и у меня нет единой теории, чтобы объяснить их все, то я вынужден перейти к отдельным примерам и обобщениям из них.

Позвольте мне начать с испытаний на долговечность. Хорошим примером служит мой опыт, участия в испытаниях жизненного цикла вакуумных труб. Они предназначались к использованию в первых подводных кабелях для передачи голоса с ожидаемым сроком службы 20 лет (после 22 лет мы просто вывели кабель из эксплуатации, которая стала слишком затратной – и это дает хорошее представление о скорости технического прогресса в те дни).

Трубы для кабеля впервые были получены примерно за 18 месяцев то того, как сам кабель предстояло опустить под воду. Я располагал средним по возможностям вычислительным устройством, на базе специализированного статистического вычислителя IBM 101, которое и предоставил сотрудникам, занимавшимся обработкой данных. Также я помогал им преимущественно в технических аспектах выполнения расчетов. В то же время я никоим образом не участвовал в непосредственной работе над проектом. Тем не менее, однажды один из руководителей проекта показал мне тестовое оборудование, хранящееся на чердаке. По своему обыкновению, я задался вопросом: «Почему вы уверены в том, что тестовое оборудование имеет ту же надежность, что и оборудование на испытаниях?» Его ответ убедил меня, что он вообще не думал об этом. Из-за бесплодности углубления в детали, я оставил это занятие. Но сам вопрос я не забыл!

Испытания на долговечность становятся все более важными и все более сложными по мере того, как мы нуждаемся во всё более надежных компонентах для всё более масштабных и сложных систем. Одним из базовых принципов является ускорение тестового процесса, которое основывается на том, что с увеличением температуры на 17° С многие, но не все, химические реакции удваивают свою скорость. Метод увеличения рабочего напряжения также используется для ускорения выявления слабых мест. Аналогичный эффект при испытаниях микросхем дает увеличение тактовой частоты. Но даже комплексное применение методов не гарантирует прочность оснований для выводов о долговечности. Впрочем, в ответ эксперты говорят: «А что мы можем еще сделать в условиях ограничений на время и средства?» Ведь интервал времени между научным открытием и его техническим воплощением постоянно сокращается, так что для проведения реальных испытаний жизненного цикла нового устройства, прежде чем оно будет запущено в широкое использование, фактически не остается времени. А если вы все же предпочтете удостовериться в этом, то навсегда отстанете от жизни.

Конечно же, помимо перечисленных, есть и другие способы тестирования, предназначенные для исследования других аспектов. До настоящего времени я убеждался в шаткости этих основ испытаний долговечности, но других-то не существует! Когда-то давно в Bell Telephone Laboratories я доказывал, что необходимо создать департамент испытаний на долговечность, задачей которого будет подготовка к испытанию нового устройства, когда оно только планируется к разработке, а не когда в них возникла необходимость с появлением готового устройства. Я не достиг успеха, хотя сделал несколько относительно слабых предположений о том, с чего начать. На фундаментальные исследования в испытаниях на долговечность не было времени – они были под сильнейшим давлением сроков: получить необходимые результаты завтра. Как говорится: «Никогда не хватит времени, чтобы сделать всё правильно, зато потом оно всегда найдется на исправление ошибок», – особенно в компьютерном программном обеспечении!

Вот вопрос, который я поставлю для вас: «Как вы предполагаете испытывать устройство (или узел устройства), от которого требуется высокая надежность, когда оборудование для испытаний менее надежно, время на испытания крайне ограничено, но при этом от устройства требуется очень продолжительный срок эксплуатации». Эта проблема обязательно придет мучить вас в будущем, так что лучше начать думать о ней уже сейчас, чтобы наметить пути ее решения в ситуации, когда придет ваше время получать результаты испытаний долговечности.

Позвольте мне обратиться теперь к некоторым аспектам измерений. Например, мой приятель в Bell Telephone Laboratories, который был очень хорошим статистиком, посчитал, что некоторые данные, которые он анализировал, неточны. Его доводы о необходимости повторного их измерения не убедили главу департамента, который был убежден в надежности своих подчиненных, и, более того, все измерительные инструменты были с медными табличками, подтверждающими их точность. Тогда одним прекрасным утром в понедельник мой приятель, придя на работу, заявил, что он забыл свой портфель в электричке по пути домой в пятницу и всё потерял. Главе департамента пришлось дать распоряжение на повторные измерения, после которых мой приятель представил первоначальные записи и продемонстрировал, насколько они отличались! Конечно, это не добавило ему популярности, но выявило неточность измерений, которые должны были сыграть важнейшую роль впоследствии.

Тот же приятель-статистик однажды проводил исследования для внешней компании по образцам телефонных звонков из их правления. Эти данные записывались именно тем оборудованием центрального офиса, которое выполняло звонки и составляло платежные документы по их оплате. Однажды он случайно обнаружил вызов в несуществующий офис! Тогда он изучил данные внимательнее и обнаружил достаточно высокий процент вызовов, которые соединялись на несколько минут с несуществующими офисами! Данные были записаны теми же машинами, которые совершали вызовы, но это были ошибочные данные. Так что вы не можете полагаться даже на то, что машина правильно запишет данные о самой себе!

Мой брат, проработавший много лет в Службе контроля загрязнения воздуха Лос-Анджелеса, однажды поведал мне, что они выявили необходимость повторной сборки, калибровки и установки каждого нового инструмента, который приобретали! Иначе возникали бесконечные проблемы с точностью, и это несмотря на заверения поставщика!

Однажды я проводил большое исследование по оборудованию для Western Electric. Они предоставили к исследованию первичные данные за 18 месяцев по записям о более чем 100 образцах оборудования. Я задал напрашивавшийся вопрос, почему я должен верить в непротиворечивость данных – например, не может ли в записях оказаться, например, выбытие несуществующего оборудования? Они заверили, что задумывались об этом, просмотрели все данные и добавили несколько псевдотранзакций, чтобы исключить такие случаи. Я опрометчиво поверил им, и только позднее в ходе работы я обнаружил, что в данных все еще есть остаточные противоречия, так что я должен был сначала искать их, затем исключать их, и только потом обсчитывать все данные заново. Из этого опыта я научился не приступать к обработке данных до тщательного анализа на наличие ошибок. На мою медлительность жаловались, но практически всегда я находил ошибки в данных. Когда же я их предъявлял, вынуждены были признать мою предусмотрительность разумной. Независимо от того, насколько неприкосновенны данные и насколько срочно требуется ответ, я научился предварительно тестировать данные для непротиворечивости и минимизации числа резко отличающихся значений (выбросов).

В другой раз я участвовал как инициатор, а затем как советник в большом исследовании персонала AT&T в Нью-Йорке с применением арендованного компьютера UNIVAC. Данные должны были поступать из многих мест, так что я решил, что будет разумно провести сначала пилотное исследование, чтобы удостовериться, что все источники понимают суть происходящего и знают как готовить перфокарты IBM с необходимыми данными. Мы это сделали. Однако когда началось основное исследование, некоторые источники не набивали перфокарты в соответствии с полученными инструкциями. Мне сразу стало понятно, что пилотное исследование, небольшое по масштабу, целиком прошло через местную обученную группу специалистов по подготовке перфокарт, а основное исследование пошло через общие группы по перфокартам. К моему сожалению, они не имели представления о пилотном исследовании! Снова я оказался неразумнее, чем представлял о себе: я недооценил внутренние механизмы большой организации.

Но как обстоит дело с базовыми научными данными? В публикации Национального бюро стандартов по 10 фундаментальным физическим константам (скорость света, число Авогадро, заряд электрона и т.д.) приведены два набора данных (для 1929 года и 1973 года) и соответствующие ошибки расчета (см. Рис. 27.I). Легко видеть, что если:

набор данных 1973 года принять за правильный (в соответствии с тем, что таблица иллюстрирует повышение точности определения физических констант в тысячи раз за 44 года между изданиями),
рассчитать отклонение новых значений констант от прежних;
рассчитать, во сколько раз это отклонение превышает погрешность прежнего расчета,
то в среднем это отклонение в 5,267 раза больше (значения последнего столбца R добавлены в таблицу автором).

Вы могли предполагать, что уж значения физических констант были вычислены тщательно, но теперь видно, насколько они были неточны! Следующая подборка физических констант (см. Рис. 27.II) показывает среднюю ошибку в половину от этой. Однако можно только догадываться, что произойдет с этой точностью спустя очередные 20 лет! Хотите пари?

Figure 27.l

Подписи: «ненадежные данные» ТОЧНОСТЬ ИЗМЕРЕНИЯ (в долях на миллион)

Источники

Birge, R.T.; Probable Values of the General Physical Constants Rev. of Mod. Phys. 1 (1929) 1;
Cohen, E. Richard; Taylor, Barry N. (1973). «The 1973 least-squares adjustment of the fundamental constants» (PDF). Journal of Physical and Chemical Reference Data. 2 (4): 663–734. Bibcode:1973JPCRD...2..663C. doi:10.1063/1.3253130
Cohen, E. Richard; Taylor, Barry N. (1987). «The 1986 CODATA recommended values of the fundamental physical constants». Journal of Research of the National Bureau of Standards. 92 (2): 1–13. doi:10.6028/jres.092.010

Это вовсе не удивительно. Я совсем недавно видел таблицу измерений постоянной Хаббла (наклон линии зависимости красного смещения от расстояния), которая фундаментальна в современной космологии. Множество значений выходят за пределы ошибок, объявленных для большинства других значений.

Таким образом, прямое статистическое измерение указывает, что даже самые точные физические константы в таблицах вовсе не так точны, как это заявлено. Как такое может быть? Беспечность и оптимизм – два главных фактора. Вдумчивое исследование выявляет, что существующие технологии экспериментов, которым нас обучали, также не идеальны и вносят свой вклад в ошибки оценивания погрешностей. Разберемся, как вы на практике, а не в теории, ставите эксперимент. Вы собираете оборудование и включаете его, и, конечно же, оборудование не работает как надо. Поэтому вы тратите некоторое время, часто недели, заставляя его работать надлежащим образом. Теперь вы готовы получать данные, но сначала вы выполняете тонкую настройку оборудования. Как? Настраивая его так, чтобы получать непротиворечивые данные. Проще говоря, вы добиваетесь низкой дисперсии, а что еще вы можете сделать? Но именно эти данные с малой дисперсией вы передаете статистику, и именно они используются для оценки изменчивости. Вы не передаете правильные данные за счет правильных настроек – вы не знаете, как это сделать – вы передаете низкодисперсные данные, и вы получаете от статистика высокую надежность, которую хотите декларировать! Это общая лабораторная практика! Неудивительно, что достоверность данных редко соответствует заявленной.

Figure 27.II

Я напомню вам правило Хэмминга:

в 90% случаев результат следующего независимого измерения выйдет за пределы, предполагаемые предыдущим уровнем 90% уверенности!

Это правило, конечно, слегка преувеличивает факты, но в такой формулировке его легче запомнить – большинство опубликованных сведений о точности измерений далеко не так хороши, как заявлено. Это обосновано самой историей эксперимента и отражает выявляющиеся впоследствии расхождения с заявленной точностью. Я не пытался получить грант на проведение соответствующего масштабного изучения, но я практически не сомневаюсь в его результатах.

Другой удивительный феномен, с которым можно встретиться, – это использование данных в модели, когда есть ошибки как данных, так и самой модели. Например, предполагается нормальное распределение, но хвосты могут в действительности быть больше или меньше предсказываемых моделью. Или не могут получиться отрицательные значения, хотя нормальное распределение допускает их. Тогда есть два источника ошибок: измерений и модельные. И ваша способность делать все более точные измерения только увеличивает вклад в ошибку из-за несоответствия модели реальности.

Я вспоминаю свой опыт, когда я был членом Совета Директоров компьютерной компании. Мы собирались переходить на новое семейство компьютеров и приготовили весьма выверенные оценки стоимости новых моделей. Специалист по продажам затем заявил, что при некоторой цене он сможет получить заказ на 10, при другой – на 15, и при третьей – на 20 продаж. Его предположения, и я не говорю, что они были неверные, были объединены с выверенными инженерными данными для принятия решения о цене новой модели! То есть итоговую сумму определили в основном, учитывая надежность инженерных расчетов, игнорируя имеющуюся неопределенность предположений специалиста по продажам. Это характерно для больших организаций. Тщательные оценки объединяются с произвольными предположениями, а надежность целого принимается равной надежности инженерной составляющей. Вы можете задать справедливый вопрос, зачем возиться с тщательными инженерными оценками, когда они объединяются с другими произвольными предположениями, но такова широко распространенная практика во многих сферах деятельности!

Я сначала говорил о науке и инженерии, чтобы вы не слишком иронизировали при переходе к экономическим данным. Я несколько раз прочитал книгу Моргенштерна «О точности экономических измерений», Принстон Пресс, 2-е изд. Это весьма уважаемый экономист.
Мой любимый пример из его книги – официальные цифры по золотому потоку из одной страны в другую, по данным обеих сторон. Цифры могут иногда отличаться больше чем в два раза! Если они не могут получить правильные данные по золотому потоку, то какие же данные тогда могут быть правильными? Я мог видеть, как электротехническое устройство при отгрузке в страны третьего мира могло быть названо медицинским из-за различия в таможенных пошлинах, но золото – это золото, его трудно назвать как-то еще.

Моргенштерн отмечает, что однажды ДюПон Кемикл владел примерно 23% акций Дженерал Моторс. Как вы думаете, был учтен этот факт при расчете валового национального продукта (ВНП)? Да никак, получился двойной учет!

В качестве примера я обнаружил, что не так давно, когда налоговые правила по отчетности по товарно-материальным ценностям (ТМЦ) изменились, многие компании изменили свои методы составления отчетности, чтобы получить выгоду от применения новых правил. Для этого им надо было показывать меньше ТМЦ и, соответственно, платить меньший налог. Напрасно я разыскивал в Уолл Стрит Джорнал хотя бы упоминание об этом факте. Не было ни единого. Хотя запасы ТМЦ являются одним из главных показателей, которые мы используем для оценки ожиданий производителей, растет или падает экономика. Считается, что производители снижают запасы ТМЦ, если предполагают снижение продаж, но повышают запасы ТМЦ, если предполагают рост продаж – чтобы не упустить возможный доход от них. Так что, насколько я смог понять, изменение закона об отчетности по ТМЦ и его влияние на экономические измерения вообще не были учтены.

Вообще для всех временных рядов есть общая проблема. Определение измеряемого объекта постоянно меняется. Рассмотрим, как наилучший пример, бедность. Мы постоянно повышаем уровень бедности, так что вам никогда не удастся избавиться от нее – всегда это определение будет изменяться чиновниками, заинтересованными в сохранении возглавляемых ими проектов, для которых необходимо достаточное количество людей ниже уровня бедности. То, что мы называем «бедностью», во многих отношениях превосходит то, чем располагал Король Англии не так давно!

В Военно-Морском Флоте США содержание терминов «йоумен» (офис-секретарь), «корабль» и т.п. менялось с годами, так что в любых временных рядах, которые вы изучаете для определения тенденций в ВМФ США, этот дополнительный фактор будет запутывать вас в ваших выводах. Не то, чтобы вы не должны пытаться понять ситуацию, используя прошлые данные (при этом применяя изощренные методы обработки сигналов из глав 14-17), а по-прежнему остаются проблемы из-за изменения определений, о которых могло быть ничего не сказано в официальных документах! Определения имеют обыкновение изменяться со временем безо всякого формального закрепления этого факта.

Регулярно публикуемые формы экономических показателей, включая безработицу (в которой не различают незанятых и нетрудоспособных, а следовало бы, по моему мнению), обычно подготовлены задолго до публикации. Наше общество за последние годы быстро менялось от индустриального (производственного) к постиндустриальному (обществу услуг), но ни Вашингтон (в смысле федеральные власти), ни экономические показатели не осознали это в разумной степени. Их нежелание изменить определение экономических показателей основывается на тезисе, что изменения, как это отмечалось в предыдущем параграфе, сделают прошлое несопоставимым с настоящим – и лучше иметь неактуальный показатель, чем меняющий свой смысл, так они утверждают. Большинство наших учреждений (и людей) медленно отзываются на перемены, такие как переход к услугам от производства, и еще более медлят спросить себя, как то, что они делали вчера, должно быть изменено, чтобы соответствовать завтрашнему дню. Учреждения и люди предпочитают жизнь без перемен, и потому далеко отстают, а потом делают героические усилия, чтобы идти в ногу со временем. Учреждения, как и люди, шевелятся только если их заставить.

Если вы добавите к вышеизложенному очевидные факты, что большинство экономических данных собирались для других целей и только случайно стали доступны для проводимого экономического исследования, и зачастую есть сильные доводы для фальсификации первичных данных, то становится ясно, почему экономические данные некачественные.

Как другой источник неточности, упомянутый Моргенштерном, рассмотрим общепринятую практику предоставления скидок особым клиентам, которые ревностно сохраняются в секрете. Как правило, в периоды депрессии компании увеличивают скидки и снижают их, когда деловая обстановка улучшается, но официальные цифры стоимости должны основываться на открытых ценах продаж, поэтому скидки неизвестны. Поэтому экономические спады и подъемы систематически вносят разнонаправленные отклонения в собранные данные.

Что могут использовать правительственные экономисты в качестве первичных данных, кроме этих преимущественно неточных данных с систематическим отклонением? Да, они могут в той или иной степени знать о наличии систематических ошибок, но им никак не узнать, насколько искажены данные. Поэтому вас не должно удивлять, что многие прогнозы экономистов весьма ошибочны. Другого варианта у них просто нет, поэтому не следует сильно доверяться их предсказаниям.

По моему опыту большинство экономистов просто не желают обсуждать принципиальную неточность в используемых экономических данных, поэтому я мало верю им, как ученым. Но кто сказал, что экономика – это наука? Только сами экономисты!

Если научные и инженерные данные в 5 (или более) раз менее точны, чем заявлено, если с эконометрическими данными дела обстоят еще хуже, то можно только представить только себе, как обстоят дела с социометрическими данными! У меня нет сравнительного исследования всей области, но мой небольшой, ограниченный опыт подсказывает, что они не очень хороши. Опять-таки, ничего лучшего может не быть доступно, но это не значит, что доступные данные можно использовать без оглядки.

Должно быть понятно, что я уделил много внимания вопросу точности данных на протяжении большей части моей деятельности. И я не ожидаю ничего большего, чем медленное улучшение в обозримом будущем по данной проблематике, зная позицию экспертов.

Если данные обычно плохие, и вы понимаете, что вам надо собрать еще данные, то что вы можете сделать в лучшем случае?

Во-первых, осознайте то, что я постоянно говорил вам: человеческое существо не создано быть надежным, оно не может считать без ошибок, оно не может выполнять монотонную рутинную повторяющуюся работу с высокой точностью. В качестве примера, рассмотрим игру в боулинг. Всё, что нужно сделать игроку – это каждый раз бросить шар строго по нужной линии. Но как редко даже величайшие игроки исполняют идеальный бросок! Группы поддержки восхищаются точностью полета шара, так как это требует предельной тщательной подготовки и исполнения, но при внимательном рассмотрении игроку остаётся еще много что для совершенствования.

Во-вторых, вы не можете собрать без ошибок действительно большой объем данных. Это известный факт, который постоянно игнорируется. Руководство обычно требует 100% охвата опросом, в то время как намного меньший, скажем 1% или даже 1/10% по охвату опрос, принесет более точные результаты! Это известно, как я сказал, но это игнорируется. Телефонные компании для распределения дохода между разными компаниями, участвующими в обеспечении междугородного вызова, привыкли использовать очень маленькую, тщательно отобранную выборку, и на основе этой выборки они распределяют деньги между партнерами. То же самое теперь делают и авиакомпании. Тщательно взятые небольшие выборки лучше, чем большие выборки, плохо отобранные. Лучше, так как они дешевле и точнее.

В-третьих, многие социометрические данные получены через опросники. Но это давно известный факт, что способ формулировки вопросов, порядок следования, люди, которые задают вопросы или просто стоят в ожидании, когда опросник будет заполнен, — всё это серьезно влияет на ответы. Конечно, в простой «черно-белой» ситуации это неприменимо, но когда вы делаете обзор, то, как правило, ситуация мутная, иначе вам не пришлось бы его затевать. Я сожалею, что не сохранил некий опрос Американского Математического Общества среди его членов. Я был настолько возмущен вопросами, которые своими формулировками навязывали желаемые ответы, что я просто вернул его с объяснением этой причины. Сколько математиков, столкнувшись с наводящими на ответ вопросами вроде таких: достаточно ли финансовой поддержки для математиков, достаточно ли для публикаций, для стипендий аспирантам и т.п., – сколько их скажет, что денег более чем достаточно? Конечно же, Математическое Общество использовало результаты, чтобы обосновать запрос об увеличении поддержки математикам по всем направлениям.

Я недавно заполнял длинный, важный опросник (важный по тем руководящим действиям, которые могли последовать по его результатам). Я заполнил его настолько честно, насколько мог, но осознал, что я не был типичным респондентом. Продолжая размышлять, я предположил, что опрашиваемый класс людей вовсе не был однородным, а скорее состоял из довольно различающихся между собой подклассов, следовательно, любые расчетные осредненные значения были неприменимы ни к одной из таких групп. Это в точном соответствии с известной шуткой о том, что в средней американской семье два с половиной ребенка. Но при этом ни в одной не найдешь половину ребенка! Средние значения полезны для однородных групп (однородных в смысле к тем операциям, какие с ними предполагается совершать), но для разнородных групп они часто не имеют смысла. Как ранее отмечалось, в среднем взрослый человек имеет одно яичко и одну грудь, но этот вовсе не имеет никакого отношения ни к одной средней персоналии в нашем обществе (теперь, если придерживаться педантичности автора, надо говорить про общество в США в терминах «не имело» – прим. переводчика).

Если диапазон ответов сильно асимметричен, то медианное значение (которое делит численность объектов выборки пополам – половина имеет данное значение меньше медианного, половина – больше, прим. переводчика) предпочтительнее среднего в качестве индикатора – это мы публично приняли относительно недавно. Поэтому теперь чаще публикуют медианный доход и медианную цену жилья вместо средних значений.

В-четвертых, есть еще один аспект, на который я призываю обратить внимание. Я неоднократно повторял, что ход событий в организации изменяется в месте и во время присутствия высших чинов этой организации, поэтому постарайтесь успеть лично ознакомиться с тем, как заполняются опросники, пока вас еще не продвинули достаточно высоко по службе. Я столкнулся с яркой демонстрацией такого эффекта, когда был в Совете Директоров компьютерной компании. Мелкие чиновники действовали так, чтобы постараться угодить мне, но только сильно злили меня этим, притом я не имел повода ничего им сказать в замечание. Зачастую подчиненные делают то, что, по их мнению, вы хотите от них, а на самом деле это вовсе не то, что вам нужно! Я также полагаю, что если руководство вашей организации направит опросник, тот, кто хочет выслужиться, скорее всего заполнит его тщательно и в срок, основная масса будет тянуть до последнего момента, и уже после этого сотрудник низшего звена заполнит их интуитивно, без проведения необходимых расчетов и измерений – слишком поздно их уже проводить, так что отправляю, что могу! Что с общей достоверностью таких «составных» отчетов, никому не известно. Они могут завысить результаты, занизить или даже не исказить сильно. Но топ-менеджмент должен принимать решения именно на основе таких опросов – так что если данные плохие, то и решения, скорее всего, будут плохие.

Мое любимое занятие, когда я читаю или слышу о данных, – спросить самого себя как люди собирали их, как можно обосновать их выводы. Например, много лет назад, когда я упомянул об этом на званом обеде, очаровательная вдова сказала, что она не видит причин, почему бы не собирать данные по любому вопросу. После некоторого размышления я возразил: «А как бы вы измерили количество прелюбодеяний в год на полуострове Монтерей?» В самом деле? Вы поверите опроснику? Или вы будете следить за людьми? Представляется трудным, если вообще возможным, выполнить разумную по точности оценку количества прелюбодеяний за год. Есть много других аналогичных вещей, которые очень трудно измерить, и это особенно справедливо для социальных отношений.

Был предложен весьма тонкий метод, эффективность которого лично я не проверял на практике. Предположим, вы хотите оценить количество нераскрытых убийств. Вы опрашиваете людей и просите их подбросить монетку без свидетелей, и если выпадет решка – они должны объявить, что совершили убийство, а если орел – то должны сказать правду. По определению никто, кроме самих людей не знает исход бросания монеты, поэтому никто не обвинит их в убийстве, если они об этом заявят. Тогда для достаточно большой выборки небольшое превышение доли признаний в убийствах над значением 0,5 даст вам желаемую оценку. Но это в предположении, что опрошенные люди отвечают искренне с учетом защищенности. Широко обсуждались варианты такого метода, но насколько я знаю, серьезное исследование его эффективности до сих пор отсутствует.

В заключение, вы, возможно, слышали о знаменитых выборах Президента, на которых газеты объявляли победу одному человеку, когда на самом деле другой выиграл с огромным отрывом. Известен также опрос журнала «Литературный дайджест», который проводился по телефону, результаты которого впоследствии оказались совершенно ошибочными, так что журнал вскоре прекратил свое существование, и многие считают, из-за этого опроса. Тогда объясняли ошибочность результатов тем, что владение телефоном коррелирует с уровнем достатка, а уровень достатка – с политическими пристрастиями.

(Автор неожиданно допускает здесь целую серию ошибок и перепутываний, что весьма неожиданно! Приведем детали. В конце предвыборной кампании 1936 года в США влиятельный еженедельный журнал «The Literary Digest», тираж которого составлял почти два миллиона копий, опубликовал результаты беспрецедентного по масштабу почтового опроса. Исследование должно было определить, кого хотят видеть американцы своим президентом: Франклина Д. Рузвельта, кандидата от демократической партии, баллотировавшегося на второй срок, или Элфа Лэндона, кандидата республиканской партии. За республиканца Лэндона по итогам опроса собирались голосовать 55% респондентов, за Рузвельта только 41%. Результат выборов стал полной неожиданностью для «The Literary Digest»: действовавший президент Ф. Д. Рузвельт получил 61% голосов избирателей, в то время как его соперник — 37%. Сам опрос вошел в историю социологии как печальный пример полного провала крупномасштабного почтового опроса, а этот ошибочный прогноз считается главной причиной закрытия журнала. Последствия оказались катастрофическими: газеты и журналы как в Соединенных Штатах, так и во всем мире публиковали бесконечные памфлеты и карикатуры, высмеивающие «точность» прогнозов «The Literary Digest». Журнал потерял не только престиж, но и основную часть своих подписчиков. Серьезные финансовые затруднения вынудили владельцев провести слияние с несколькими аналогичными журналами. Эти меры оказались недостаточными, и в 1938 году «The Literary Digest» был приобретен издательством «Time Magazine». Практически каждая работа, посвященная методам проведения социологических опросов или президентским выборам в США, содержит ссылку на это исследование и объясняет причины, которые помешали «The Literary Digest» правильно прогнозировать результаты. Обсуждение причин самой крупной ошибки за всю историю опросов, начавшееся более семидесяти лет назад, все еще продолжается. Тем не менее, один вывод можно сделать с уверенностью: опрос «The Literary Digest» в 1936 году занимает достаточно важное место в истории эмпирической социологии. Неверный прогноз журнала в значительной мере определил будущее опросов общественного мнения, продемонстрировав необходимость использования научных методов в социологических исследованиях. Так что совершенно непонятно, почему крайне внимательный к деталям автор в следующем предложении говорит о телефонном характере опроса данного журнал – на него подписчики отвечали на обратной стороне подписных карточек, а также отделяет его от случая с выборами Президента США в 1936 году. – прим.переводчика).

Проектировать, проводить и подводить итоги опросов – занятие не для дилетантов. Вам требуется экспертная консультация по опросникам (а не рядового статистика), когда вы начнете заниматься опросниками, и избежать этого занятия невозможно. Все чаще нам нужны не голые факты о материальных объектах, а результаты наблюдений в социальной и смежной отраслях – а это предательски зыбкая почва.

Отсюда вывод: по мере прогресса вам понадобится все больше и больше информации такого рода, так как мы становимся всё более социально ориентированными и подверженными судебным искам за тривиальные вещи. Вы будете вынуждены снова и снова проводить опросы личных установок людей, и именно потому я уделил столько внимания ненадежным данным. Вам нужны надежные данные для принятия надежных решений, но вы редко будете располагать ими хоть с какой-то надежностью!

Продолжение следует...

Кто хочет помочь с переводом, версткой и изданием книги — пишите в личку или на почту magisterludi2016@yandex.ru

Кстати, мы еще запустили перевод еще одной крутейшей книги — «The Dream Machine: История компьютерной революции»)

Содержание книги и переведенные главы

Предисловие

Intro to The Art of Doing Science and Engineering: Learning to Learn (March 28, 1995) Перевод: Глава 1
«Foundations of the Digital (Discrete) Revolution» (March 30, 1995) Глава 2. Основы цифровой (дискретной) революции
«History of Computers — Hardware» (March 31, 1995) Глава 3. История компьютеров — железо
«History of Computers — Software» (April 4, 1995) Глава 4. История компьютеров — Софт
«History of Computers — Applications» (April 6, 1995) Глава 5. История компьютеров — практическое применение
«Artificial Intelligence — Part I» (April 7, 1995) Глава 6. Искусственный интеллект — 1
«Artificial Intelligence — Part II» (April 11, 1995) (готово)
«Artificial Intelligence III» (April 13, 1995) Глава 8. Искуственный интеллект-III
«n-Dimensional Space» (April 14, 1995) Глава 9. N-мерное пространство
«Coding Theory — The Representation of Information, Part I» (April 18, 1995) (пропал переводчик :((( )
«Coding Theory — The Representation of Information, Part II» (April 20, 1995)
«Error-Correcting Codes» (April 21, 1995) (готово)
«Information Theory» (April 25, 1995) (пропал переводчик :((( )
«Digital Filters, Part I» (April 27, 1995) Глава 14. Цифровые фильтры — 1
«Digital Filters, Part II» (April 28, 1995) Глава 15. Цифровые фильтры — 2
«Digital Filters, Part III» (May 2, 1995) Глава 16. Цифровые фильтры — 3
«Digital Filters, Part IV» (May 4, 1995) готово
«Simulation, Part I» (May 5, 1995) (в работе)
«Simulation, Part II» (May 9, 1995) готово
«Simulation, Part III» (May 11, 1995)
«Fiber Optics» (May 12, 1995) Глава 21. Волоконная оптика
«Computer Aided Instruction» (May 16, 1995) (пропал переводчик :((( )
«Mathematics» (May 18, 1995) Глава 23. Математика
«Quantum Mechanics» (May 19, 1995) Глава 24. Квантовая механика
«Creativity» (May 23, 1995). Перевод: Глава 25. Креативность
«Experts» (May 25, 1995) Глава 26. Эксперты
«Unreliable Data» (May 26, 1995) (готово)
«Systems Engineering» (May 30, 1995) Глава 28. Системная Инженерия
«You Get What You Measure» (June 1, 1995) Глава 29. Вы получаете то, что вы измеряете
«How Do We Know What We Know» (June 2, 1995) пропал переводчик :(((
Hamming, «You and Your Research» (June 6, 1995). Перевод: Вы и ваша работа

Кто хочет помочь с переводом, версткой и изданием книги — пишите в личку или на почту magisterludi2016@yandex.ru

Tags:

Hubs: