Шум. Несовершенство человеческих суждений бесплатное чтение

cover

Даниэль Канеман, Оливье Сибони, Касс Р. Санстейн
Шум. Несовершенство человеческих суждений

Посвящается Ноге, Ори и Гили – ДК



Посвящается Фантин и Лелии – ОС



Посвящается Саманте – КРС


Daniel Kahneman, Olivier Sibony and Cass R. Sunstein

NOISE:

A Flaw in Human Judgment

Перевод с английского

А. Котовой (I–II части),

С. Селифоновой (III–IV части),

В. Тулаева (V–VI части, приложения)

Печатается с разрешения авторов и литературного агентства Brockman, Inc.

Исключительные права на публикацию книги на русском языке принадлежат издательству AST Publishers.

© Daniel Kahneman Amended and Restated Family Trust, Olivier Sibony, and Cass R. Sunstein, 2021

Школа перевода В. Баканова, 2021

© Издание на русском языке AST Publishers, 2021

Введение
Два вида ошибок

Представьте, что в стрелковый тир пришли четыре компании друзей. В компаниях по пять человек; они получают по винтовке на команду, и каждый участник производит один выстрел. Результаты показаны на рисунке 1.

В идеале все выстрелы попали бы точно в «десятку».

Рис. 1. Четыре команды


У команды А почти так и вышло: все попадания сгруппировались возле цели.

Результаты команды B можно назвать смещенными, поскольку все промахи легли по одну сторону от «яблочка». Систематичность промахов, наглядно представленная на рисунке, позволяет предположить, что очередной выстрел пришелся бы недалеко от первых пяти, а также что у винтовки, возможно, попросту сбит прицел.

Результаты команды C мы назовем шумными: попадания разбросаны по всей мишени. Поскольку они все-таки сосредоточены преимущественно вокруг центра, очевидного смещения не наблюдается. Если участник команды выстрелит снова, мы едва ли сможем предугадать, куда он попадет. Более того, нам не удастся выдвинуть никакой содержательной гипотезы, чтобы объяснить подобный результат. Эта команда стреляет плохо. Почему в их результатах столько шума – неизвестно.

У команды D результаты смещенные и шумные одновременно: систематические промахи, как у команды B, и широкий разброс, как у команды C.

Впрочем, эта книга не про стрельбу по мишеням – она про человеческие ошибки. Смещение и шум, или, другими словами, систематические отклонения и случайный разброс, – это составляющие ошибок. Пример с мишенями наглядно показывает1, в чем между ними отличие.

Стрельба по мишени – образное представление сбоев в процессе вынесения людьми суждений, особенно когда принимаются всевозможные решения в интересах организаций. Тогда-то и происходят те самые ошибки с рисунка 1. Одни суждения содержат смещения и систематически не попадают в цель. Другие можно назвать шумными: вместо согласованных действий мы видим попадания, разбросанные по всей мишени. К несчастью, для многих организаций характерны оба типа ошибок.

На рисунке 2 показано важное отличие между смещением и шумом. Представьте, что вы заглядываете на оборотную сторону мишеней, по которым стреляли наши команды, где «яблочко» не обозначено.

С этой стороны вы не определите, кто оказался ближе к «десятке»: команда А или команда B. Зато сразу же понятно, что шумный результат именно у команд С и D, ведь разброс попаданий здесь так же очевиден, как и на рисунке 1. Шум можно обнаружить и измерить, даже ничего не зная ни о цели, ни о смещении, – это одно из его основных свойств.


Рис. 2. Оборотная сторона мишеней


Вышеупомянутое свойство шума весьма существенно для целей этой книги. Ко многим заключениям мы пришли, изучая суждения, о справедливости которых мы не имеем ни малейшего понятия. Если диагнозы разных врачей пациенту не совпадают, мы вполне можем исследовать расхождения в медицинских заключениях, не владея информацией о том, чем на самом деле болен этот человек. Разницу в оценках рыночной стоимости фильма кинопродюсерами можно изучить, не будучи в курсе, какую кассу в итоге сделал фильм или был ли он вообще снят. Нет нужды знать, кто прав, чтобы определить, насколько при этом разнятся оценки. Чтобы измерить уровень шума, нужно всего лишь заглянуть на оборотную сторону мишени.

Понять природу ошибочных суждений невозможно без понимания сущности смещения и шума. Как мы убедимся далее, порой основную проблему представляет собой именно шум. Однако в организациях по всему миру, а также при проведении общественных дискуссий ему редко уделяется должное внимание. Главную роль всегда отводят смещению, а шуму достается удел жалкого статиста. О смещении написаны тысячи научных работ и десятки бестселлеров, а шум при этом едва упоминается. С помощью этой книги мы попытаемся установить равновесие.

Зачастую, когда решения принимаются на практике, уровень шума просто зашкаливает. Вот несколько примеров пугающих масштабов шума в ситуациях, где суждения должны быть безошибочными:


• Шум в медицине. Врачи могут сильно расходиться во мнениях по поводу диагноза одному и тому же пациенту. Такие ситуации нередки с диагностированием рака кожи, груди, болезней сердца, туберкулеза, пневмонии, депрессии и целого ряда других заболеваний. Особенно высок уровень шума в психиатрии, где без субъективных суждений просто не обойтись. Вместе с тем на удивление заметный уровень шума наблюдается даже в таких областях медицины, как, например, чтение рентгеновских снимков.


• Шум при вынесении решений об опеке2. Специалисты органов по защите малолетних должны оценить, угрожает ли ребенку жестокое обращение, и если да, передать его приемным родителям. В системе опеки уровень шума весьма значителен: некоторые специалисты гораздо охотнее, чем коллеги, направляют детей в приемные семьи. Годы спустя несчастные дети, чью судьбу решили более жесткие сотрудники, поместив их под опеку, совершают больше правонарушений, чаще рожают в подростковом возрасте и имеют в дальнейшем более низкие доходы.


• Шум в прогнозировании. Мнения профессиональных прогнозистов не совпадают касательно ожидаемых объемов продаж нового продукта, предполагаемого роста безработицы, вероятности банкротства проблемных компаний – в общем, чего угодно. Прогнозисты противоречат не только друг другу, но даже сами себе. К примеру, когда одних и тех же разработчиков программного обеспечения3 дважды в разные дни попросили оценить сроки выполнения одного и того же задания, их оценки в среднем отличались на 71 %.

• Шум в решениях о предоставлении убежища4. Подача прошения об убежище в США чем-то сродни лотерее. При изучении дел, случайным образом распределенных между разными судьями, обнаружилось, что один судья предоставлял убежище 5 % просителей, тогда как другой – 88 %. Исследование носит красноречивое название: «Рулетка для беженцев». (О рулетке мы с вами еще поговорим, и не раз.)


• Шум в кадровых вопросах. Специалисты, проводящие собеседования, совершенно по-разному оценивают одних и тех же соискателей. Оценки производительности труда персонала тоже сильно различаются и в большей степени зависят от личности оценивающего, чем от продуктивности сотрудника.


• Шум в решениях об освобождении под залог. Выпустят ли обвиняемого под залог или оставят ожидать суда в тюрьме, отчасти зависит от судей, слушающих дело: некоторые из них проявляют заметно бо́льшую снисходительность. Судьи также весьма по-разному оценивают вероятность побега или повторного правонарушения подсудимых.


• Шум в криминалистике. Мы привыкли безоговорочно доверять идентификации по отпечаткам пальцев. Но специалисты в этой области иногда расходятся во мнениях о том, совпадают ли отпечатки с места преступления с отпечатками подозреваемого. Эксперты могут не только не соглашаться друг с другом, но даже делать непоследовательные выводы по поводу одних и тех же отпечатков. Документально подтверждены подобные расхождения и в других областях судебной медицины, в частности даже при анализе ДНК.


• Шум при выдаче патентов5. Авторы ведущего исследования о патентных заявках подчеркивают роль шума: «Результат подачи заявки на патент в значительной степени зависит от того, кому поручено ее рассмотрение». С точки зрения беспристрастности такая вариативность, конечно же, вызывает озабоченность.

Все эти ситуации – лишь верхушка огромного айсберга. Когда имеешь дело с человеческими суждениями, вероятность обнаружить шум весьма велика. Повысить качество суждений можно, только устранив как шум, так и смещение.

Эта книга состоит из шести частей. В части I мы исследуем разницу между шумом и смещением и демонстрируем присутствие шума в деятельности как государственных, так и частных организаций, причем порой его уровень может быть ошеломляюще высоким. Чтобы оценить проблему, мы начинаем с рассмотрения суждений в двух сферах. Первая – вынесение уголовных приговоров (государственный сектор), вторая – страхование (частный сектор). На первый взгляд области совсем разные, но, когда дело касается шума, у них оказывается много общего. Чтобы это подтвердить, мы предлагаем процедуру ревизии шумовых помех, которая позволяет измерить уровень разногласий среди профессионалов по определенным вопросам внутри одной организации.

В части II мы изучаем природу человеческих суждений и выясняем, как можно измерить их точность или ошибочность. Суждениям свойственны как смещение, так и шум – и мы демонстрируем, что влияние обоих типов ошибок может быть на удивление равноценным. Ситуативный шум – это разброс в суждениях одного человека или группы по одному и тому же вопросу в разное время. На удивление часто такой шум возникает в групповых обсуждениях под воздействием, казалось бы, незначительных факторов, например очередности выступлений.

Часть III – это более пристальный взгляд на уже хорошо изученный вид суждений: прогнозные оценки. Мы исследуем важнейшее преимущество правил, формул и алгоритмов перед человеком в деле составления прогнозов. Вопреки расхожему мнению, превосходство правил заключается не в том, что они лучше помогают вникнуть в суть вопроса, а в том, что они не производят шума. Мы обсуждаем абсолютный предел, который, как и шум, ограничивает качество прогнозных суждений: объективную неосведомленность о будущем. Напоследок мы отвечаем на вопрос, которым вы к тому моменту уже наверняка зададитесь: если шум настолько вездесущ, почему мы не замечали его раньше?

В части IV мы обращаемся к человеческой психологии и объясняем главные причины шума. К ним относятся межличностные различия, возникающие вследствие разнообразных факторов: качеств характера, когнитивного стиля, особенностей взвешивания «за» и «против» во время принятия решений, разницы в восприятии одинаковых шкал. Мы отвечаем на вопрос, почему люди не замечают шум и зачастую совсем не удивляются, когда происходят события или принимаются решения, предвидеть которые они никак не могли.

В части V исследуется практический вопрос: как улучшить суждения и предотвратить ошибки? (Читатели, которых интересует главным образом применение методов снижения шума на практике, могут пропустить обсуждение проблем прогнозирования и психологии суждений в частях III и IV и сразу перейти к этой.) Мы изучаем попытки справиться с шумом в медицине, бизнесе, образовании, управлении и других сферах и предлагаем несколько методов снижения уровня шума под общим названием гигиена принятия решений. Пять тематических исследований, проведенных в областях деятельности с высоким уровнем шума, продемонстрируют активные усилия, приложенные по его снижению – с различной степенью успеха, – что весьма поучительно. Сюда включены исследования недостоверных медицинских диагнозов, оценок показателей производительности, ошибок в криминалистике, в кадровых вопросах и в прогнозировании в целом. В завершение мы предлагаем систему, которую назвали протоколом промежуточных оценок. Это универсальный подход к оценке имеющихся вариантов, включающий в себя самые важные методы в процедуре гигиены принятия решений. Он ставит своей целью снижение уровня шума и повышение надежности суждений.

Каков оптимальный уровень шума? Об этом мы поговорим в части VI. Как ни парадоксально, полное отсутствие шума – это не лучший вариант. В одних областях просто невозможно избавиться от шума полностью, в других это слишком дорого. Есть сферы, в которых попытки снизить уровень шума поставят под угрозу другие важные ценности. К примеру, можно подорвать моральный дух и заставить людей чувствовать себя винтиками в большой машине. Когда частью решения проблемы становятся алгоритмы, возникают всевозможные возражения, и в этой главе мы попытаемся рассмотреть некоторые из них. И все же наблюдаемый сейчас уровень шума во многих областях деятельности просто недопустим. Мы призываем государственные и частные структуры провести ревизию шума и принять беспрецедентные усилия по его снижению. Если это удастся, можно будет частично устранить повсеместную несправедливость и сократить многие издержки.

Рассчитывая на осуществление такого сценария, мы заканчиваем каждую главу краткими предложениями в виде цитат. Можете использовать их без изменений или адаптировать для соответствующей области применения – будь то здравоохранение, безопасность, образование, финансы, сфера занятости, индустрия развлечений или любая другая. Коллективные усилия, направленные на изучение и решение проблемы шума, все еще продолжаются. У всех нас есть возможность внести в эту работу свой вклад, и эта книга написана в надежде, что мы ею воспользуемся.

Часть I
Как обнаружить шум

Совершенно недопустимо, чтобы правонарушители, осужденные за одинаковые преступления, получали несопоставимые приговоры, к примеру, один – пять лет тюрьмы, а другой – условный срок. Однако подобное происходит сплошь и рядом. Конечно, для системы уголовного правосудия характерно также и смещение, вызванное предвзятостью. Но в главе 1 речь пойдет о шуме и, в частности, о том, что произошло, когда известный судья привлек к этой проблеме внимание, назвал ситуацию возмутительной и положил начало кампании, в каком-то смысле изменившей мир (но не совсем). Наша история разыгралась в США, но, без сомнения, подобное может и будет случаться во многих других странах. В некоторых из них проблема шума, вероятно, еще серьезнее, чем в Соединенных Штатах. Мы использовали пример с вынесением приговоров отчасти для того, чтобы продемонстрировать, как шум способен стать причиной вопиющей несправедливости.

Сфера вынесения уголовных наказаний исполнена особого драматизма, однако и в частном секторе ставки могут быть весьма высоки. В качестве иллюстрации в главе 2 мы рассмотрим пример с большой страховой компанией. В таких организациях страховщики устанавливают для потенциальных клиентов размер взноса, а оценщики убытков подсчитывают причитающиеся страховые выплаты. Казалось бы, это простая механическая работа и разные специалисты приходят примерно к одним и тем же цифрам. Чтобы это проверить, мы провели тщательно подготовленный эксперимент – ревизию шума. Результаты удивили нас самих, но, что еще важнее, поразили и привели в ужас руководство компании. Высокий уровень шума в работе специалистов, как выяснилось, стоит компании огромных денег. Мы используем этот пример, чтобы показать, как шум способен приводить к крупным экономическим убыткам.

В вышеупомянутых примерах множество людей выносит множество суждений. Но многие важные суждения уникальны. Как не упустить редкую возможность для бизнеса, стоит ли запускать новый продукт, как справиться с пандемией, брать ли на работу нестандартного кандидата – могут ли быть шумными решения в подобных, особенных, ситуациях? Напрашивается предположение, что нет. Ведь шум – это нежелательный разброс, а разве в принятии уникальных решений может быть место разбросу? Мы попытаемся ответить на этот вопрос в главе 3. Решение, принимаемое даже в, казалось бы, уникальной ситуации, – лишь одно из ряда возможных. Здесь тоже есть место шуму.

Первые три главы можно подытожить фразой, которая красной нитью пройдет через всю книгу: там, где есть место суждению, найдется и шум – и его намного больше, чем вы думаете. Давайте же посмотрим, сколько именно.

Глава 1
Преступление и шумное наказание

Допустим, человека осудили за совершение преступления – кражу в магазине, хранение наркотиков, нанесение телесных повреждений или вооруженное ограбление. Каким будет приговор?

Ответ на этот вопрос не должен зависеть ни от настроения судьи, ни от погоды, ни от успехов местной спортивной команды накануне рассмотрения дела. Разве не чудовищно, когда три человека, осужденные за одинаковые преступления, получают совершенно разные наказания: первый отделывается условным сроком, второму дают два года тюрьмы, а третьего сажают на десять лет? И все же такая вопиющая несправедливость характерна для многих государств – и это не дела давно минувших дней, а сегодняшняя реальность.

Во всем мире судьи имеют возможность свободно решать, насколько суровым должен быть приговор. Эксперты многих стран приветствуют эту свободу действий как справедливую и гуманную. Считается, что при вынесении уголовных приговоров нужно учитывать множество факторов, среди которых не только само преступление, но и личность обвиняемого, а также сопутствующие обстоятельства. Индивидуальный подход долго был в порядке вещей: если связывать судей правилами, обращение с преступниками станет бесчеловечным, ведь подсудимые перестанут быть уникальными личностями, имеющими право на рассмотрение особых обстоятельств их ситуации. Многим казалось, что сама идея надлежащего судебного разбирательства требует неограниченной свободы усмотрения для судей.

В 1970-е годы всеобщий энтузиазм по поводу судебного усмотрения начал угасать по одной простой причине: стали очевидными пугающие проявления шума. В 1973 году внимание к проблеме привлек известный судья Марвин Франкел. Еще до того как стать судьей, Франкел защищал свободу слова, горячо выступал за права человека и помог основать международную правозащитную организацию Lawyers’ Committee for Human Rights, известную сейчас как Human Rights First.

Франкел умел быть беспощадным. Когда же дело касалось шума в системе уголовного правосудия, он приходил в полнейшее негодование. Вот как он объяснял свои мотивы6:

Максимальный тюремный срок за ограбление федерального банка равнялся 25 годам. На практике приговор мог быть любым, в диапазоне от 0 до 25 лет. Скоро я осознал, что это зависит не столько от обстоятельств дела конкретного обвиняемого, сколько от личности судьи, его взглядов, наклонностей и предубеждений. Приговор одному и тому же обвиняемому по одному и тому же делу мог кардинально отличаться в зависимости от того, какой судья рассматривал дело.

Для подтверждения своих доводов Франкел не предоставил никакой статистической информации, однако привел ряд весьма убедительных примеров того, как в схожих ситуациях с людьми обращались по-разному безо всяких на то оснований. Двоих мужчин без уголовного прошлого осудили за обналичивание поддельных чеков на 58,40 и 35,20 доллара соответственно. Первого приговорили к 15 годам, а второго – к 30 дням тюремного заключения. За тождественные деяния, повлекшие растрату имущества, один обвиняемый отделался 117 днями, тогда как другой получил 20 лет. Указывая на бесчисленные дела такого толка, Франкел сетовал на «практически неограниченные широкие полномочия»7 федеральных судей, приводящие к «ежедневному произволу жестокости»8, что считал недопустимым в «системе, где правят законы, а не люди»9.

Франкел призвал конгресс покончить с «дискриминацией» – так он называл подобный произвол жестокости. Под «дискриминацией» в основном имелся в виду шум – необъяснимые расхождения при вынесении приговоров. При этом Франкел также выразил обеспокоенность смещением в виде расового и социально-экономического неравенства. Он утверждал, что для победы над смещением и шумом все подсудимые по уголовным делам должны получать одинаковое обращение, если только различия не «обоснованы соответствующими критериями, которые можно сформулировать и применить с достаточной степенью объективности, для того чтобы результаты не превращались в идиосинкразические указы10 отдельных чиновников, судей и прочих». (Термин «идиосинкразические указы»[1] может быть не всем понятен: Франкел имел в виду произвольные постановления, продиктованные личными предпочтениями.) Более того, Франкел выступал за снижение уровня шума при помощи «подробного списка параметров или перечня факторов, по возможности включающего числовую или другую объективную градацию»11.

Поскольку дело было в начале 1970-х, он не стал заходить настолько далеко, чтобы выступать за «вытеснение человека машиной», хотя был поразительно к этому близок. Франкел полагал, что «верховенство права требует свода универсально применимых безличных правил, обязательных как для судей, так и для всех остальных». Он открыто призывал использовать «компьютеры для упорядочивания мыслительного процесса12 при назначении наказаний» и рекомендовал сформировать комиссию по приговорам13.

Книга Франкела стала одной из самых влиятельных в истории уголовного права не только в США, но и во всем мире, однако ее недостатком был несколько неформальный характер. Книга получилась разгромной, но субъективной. Чтобы подвергнуть идею шума испытанию, несколько исследователей сразу же бросились изучать уровень шума в сфере вынесения приговоров.

Одно из первых широкомасштабных исследований под руководством самого судьи Франкела провели в 1974 году. Пятидесяти судьям из разных округов предложили гипотетические дела, по которым требовалось назначить наказание. По всем делам были подготовлены идентичные характеристики подсудимых. Основным итогом стало «повсеместное отсутствие консенсуса»14 и «поразительный»15 разброс в выборе наказания. В зависимости от судьи наркодилер16 мог получить от года до десяти лет тюрьмы. Наказание за ограбление банка17 могло составить от пяти до восемнадцати лет лишения свободы. В деле о вымогательстве18 один судья назначил целых двадцать лет и 65 000 долларов штрафа, а другой – всего лишь три года безо всякого штрафа. Самое поразительное, что судьи так и не пришли к единому мнению по поводу необходимости лишения свободы в 16 делах из 20.

За этим изысканием последовала серия других – и все они выявили катастрофический уровень шума. В 1977 году Уильям Остен и Томас Уильямс опросили 47 судей19, предложив тем рассмотреть пять дел о мелких правонарушениях. Описания дел включали информацию, которую судьи обычно используют при вынесении настоящих приговоров: предъявленные обвинения, свидетельские показания, наличие судимости, социальное положение и личные характеристики подсудимых. Авторы пришли к выводу о «существенных расхождениях» в приговорах. К примеру, в деле о взломе приговоры варьировались от пяти лет заключения до каких-то тридцати дней (плюс штраф в 100 долларов). В деле о хранении марихуаны одни судьи предлагали тюремное заключение, другие выступали за условный срок.

В еще более крупном исследовании20 1981 года участвовали 208 федеральных судей, которым предлагалось рассмотреть одинаковый набор из 16 гипотетических дел. Выводы исследования потрясают:

Лишь в 3 из 16 дел судьи оказались единогласны в решении приговорить обвиняемых к тюремному заключению. Когда же большинство приходило к выводу о необходимости лишения свободы, в рекомендуемых сроках заключения наблюдался значительный разброс. В деле о мошенничестве средняя величина назначенного тюремного срока составила 8,5 года, при этом самым суровым приговором оказалось пожизненное заключение. В другом деле со средним сроком в 1,1 года самой суровой рекомендацией было лишение свободы на 15 лет.

Какими бы показательными ни были эти исследования, они представляют собой строго контролируемые эксперименты и почти наверняка не отражают истинных масштабов проблемы шума в уголовном правосудии. В реальном мире судьи располагают гораздо бо́льшими объемами информации, чем участники экспериментов, которых снабдили тщательно подготовленными краткими описаниями дел. Что-то из этого информационного потока может оказаться полезным, но многое свидетельствует о том, что несущественная информация – небольшие и, казалось бы, случайные факторы – способны значительно изменить результат рассмотрения дела. Например, как выяснилось, судьи с большей вероятностью предоставляют условно-досрочное освобождение с утра или после обеденного перерыва. Голодные судьи21 более суровы.

Исследование тысяч решений суда по делам несовершеннолетних22 выявило, что, когда в выходные местная футбольная команда проигрывает, в понедельник судьи выносят более строгие приговоры (а также, хотя и в меньшей степени, в течение всей недели). Это особенно сильно сказывается на чернокожих подсудимых. Другое исследование проанализировало 1,5 миллиона судебных решений за более чем тридцать лет и также обнаружило, что судьи менее снисходительны23 на следующий день после проигрыша, чем после победы местной футбольной команды.

Анализ шести миллионов приговоров, вынесенных во Франции за двенадцать лет, показал, что к подсудимым относятся более мягко в дни рождения24. (Имеются в виду дни рождения подсудимых. Мы подозреваем, что в свой день рождения судьи также проявляют больше снисхождения, но, насколько нам известно, эту гипотезу пока никто не проверял.) Даже такой на первый взгляд незначительный фактор, как погода25, может повлиять на решение судьи. В результате обзора 207 000 решений иммиграционного суда, вынесенных за четыре года, была замечена существенная роль колебаний дневной температуры: в жаркие дни вероятность получить политическое убежище снижалась. Если на родине вас преследуют по политическим мотивам и вы ищете убежище, надейтесь, а лучше молитесь, чтобы ваше слушание состоялось в прохладный день.

Снижение уровня шума при назначении наказаний

В 1970-е годы доводы Франкела и поддерживающие их эмпирические выводы привлекли внимание Эдварда Мура Кеннеди, брата убитого президента и одного из наиболее влиятельных членов американского сената. Кеннеди был потрясен. Уже в 1975 году он внес законопроект о реформе назначения наказаний, но тогда это ни к чему не привело. Однако Кеннеди не сдавался: указывая на все имевшиеся свидетельства, он упорно, год за годом пытался провести законопроект. Наконец в 1984 году это удалось. Приняв во внимание доказательства необоснованных расхождений при вынесении приговоров, конгресс принял Закон о реформе системы назначения наказаний.

Новый закон должен был снизить уровень шума в системе, сократив «неограниченные дискреционные полномочия26, которыми закон наделяет судей и органы по условно-досрочному освобождению, ответственных за вынесение и исполнение приговоров». В частности, члены конгресса ссылались на «неоправданно высокую» дифференциацию при определении меры наказания27, цитируя результаты исследования о том, что в Нью-Йорке наказания за идентичные преступления могут варьироваться в диапазоне от трех до двадцати лет лишения свободы. Как когда-то настаивал судья Франкел, была создана Комиссия США по вопросам назначения наказаний, перед которой стояла четкая задача: разработать обязательные рекомендации о порядке вынесения приговоров с целью ограничить диапазон уголовных наказаний.

В следующем году, после анализа 10 000 дел, комиссия разработала эти рекомендации, взяв за основу средние сроки тюремного заключения за схожие преступления. Судья Верховного суда Стивен Брайер, принимавший активное участие в этом процессе, выступил в защиту традиционной практики28, указывая на трудноразрешимые разногласия внутри самой комиссии: «Почему мы просто не сели и не попытались все упорядочить и изучить? Да потому что это невозможно. Невозможно, так как мы располагаем вескими, но разрозненными свидетельствами, которые доказывают противоположные вещи… Попробуйте-ка расставить друг за другом все преступления от незначительного до заслуживающего самого сурового наказания… Затем попросите друзей сделать то же самое и сравните результаты. Уверяю вас, они будут совсем не похожими».

Согласно рекомендациям, при назначении наказания судье следует учитывать два фактора: само преступление и уголовное прошлое подсудимого. В зависимости от серьезности преступлениям присваивается одна из 43 степеней тяжести. Под уголовным прошлым главным образом понимается количество и срок вынесенных ранее обвинительных приговоров. На основе сложения этих двух факторов рекомендации предлагают относительно узкий диапазон наказаний. Верхний предел этого диапазона может превышать нижний лишь на шесть месяцев или на 25 % – при этом выбирается наибольшее значение из двух. Отклониться от этого диапазона судьи могут при наличии отягчающих или смягчающих обстоятельств, обосновав свое решение29 в апелляционном суде.

Несмотря на обязательность, рекомендации нельзя назвать абсолютно жесткими. Они не настолько радикальны, как того желал Франкел, и у судей остается значительное пространство для маневра. Тем не менее несколько исследований, проведенных с применением различных методов и охватывавших различные исторические периоды, пришли к одному и тому же заключению: рекомендации снижают уровень шума. Выражаясь формально, «они сокращают чистую изменчивость30 в приговорах, случайно обусловленную личностью судьи, назначающего наказание».

Наиболее подробное исследование провела сама комиссия31. Изучив дела, связанные с ограблением банков, распространением кокаина и героина, а также с банковскими хищениями, комиссия сравнила приговоры, вынесенные по таким делам в 1985 году (до введения рекомендаций), с приговорами, вынесенными между 19 января 1989 года и 30 сентября 1990 года. Правонарушителей для исследования подбирали с учетом факторов, которые, согласно рекомендациям, имели отношение к вынесению приговора. После принятия Закона о реформе системы назначения наказаний расхождений в приговорах по каждому из рассмотренных типов преступлений оказалось гораздо меньше.

Согласно другому исследованию32, ожидаемая разница в сроках тюремного заключения, назначенных разными судьями, составляла 17 %, или 4,9 месяца, в 1986 и 1987 годах. Эта разница сократилась до 11 %, или 3,9 месяца, между 1988 и 1993 годами. Независимое исследование33, затронувшее различные временные периоды, также выявило положительные сдвиги. Сравнение разницы в длине тюремных сроков, назначенных судьями со сходной рабочей нагрузкой, подтвердило сокращение расхождений между приговорами.

Несмотря на такие результаты, на рекомендации обрушился целый поток критики. Одни, включая значительное число судей, посчитали, что отдельные приговоры были слишком суровыми – камень в огород смещения, а не шума. Для наших целей более интересное возражение, поступившее от многочисленных судей, состояло в том, что рекомендации приводили к огромной несправедливости, так как не давали судьям должным образом учитывать все обстоятельства дела. Уровень шума снижался ценой превращения судейских решений в механические, что было неприемлемо. Профессор права Йельского университета Кейт Стит и федеральный судья Хосе Кабранес писали, что «нужна не слепая беспристрастность34, а понимание и справедливость», которые возможны, «только когда при вынесении приговора учитываются все нюансы каждого конкретного случая».

Из-за подобных возражений рекомендации оказались под серьезной угрозой, отчасти вследствие законодательных проблем, отчасти политических. Тем не менее им удалось просуществовать до 2005 года, когда по чисто техническим причинам, никак не связанным с вышеописанной полемикой, их отменил Верховный суд35, оставив за ними лишь консультативную функцию. Что примечательно, большинство федеральных судей были очень довольны таким решением. Консультативный статус рекомендаций оказался предпочтительнее для 75 % судей36, тогда как только 3 % отдавали предпочтение прежнему, обязательному.

К чему же привела смена статуса рекомендаций с обязательного на консультативный? Ответ на этот вопрос изучила профессор права Гарвардского университета Кристал Янг. Она не стала прибегать к экспериментам и опросам, вместо этого проанализировав огромный массив данных о приговорах, вынесенных по делам более 400 000 правонарушителей. Ее главный вывод: после 2005 года расхождения в судейских решениях многократно увеличились по нескольким показателям. Когда рекомендации носили обязательный характер, правонарушители, которые попадали в руки достаточно жестких судей, получали на 2,8 месяца больше, чем если бы решения выносили их среднестатистические коллеги. Когда рекомендации приобрели статус консультативных, эти расхождения удвоились. Слова Кристал Янг вторят выдвинутым за сорок лет до этого аргументам судьи Франкела: «Эти выводы внушают37 большие опасения за справедливое отношение, поскольку личность судьи, рассматривающего дело, играет значительную роль в вынесении разных приговоров схожим правонарушителям, осужденным за схожие преступления».

После того как рекомендации стали консультативными, судьи все чаще выносят приговоры на основе своих личных ценностей. Обязательные рекомендации снижают не только шум, но и смещение, вызванное предвзятостью. После того как Верховный суд сделал рекомендации необязательными, значительно увеличились расхождения в приговорах афроамериканцам и белым правонарушителям, осужденным за схожие преступления. В то же время судьи-женщины стали чаще, чем судьи-мужчины, действовать на свое усмотрение и проявлять больше снисхождения. То же самое можно сказать и о судьях, назначенных президентами-демократами.

Спустя три года после смерти Франкела в 2002 году отмена обязательности рекомендаций о порядке вынесения приговоров вернула ситуацию, которой он опасался больше всего: к закону без порядка.

_____

История борьбы судьи Франкела за введение рекомендаций по вынесению приговоров дает представление о важнейших моментах, которые мы рассмотрим в этой книге. Во-первых, выносить суждения нелегко, потому что реальный мир сложен и непредсказуем. Это очевидно как в работе судебных органов, так и в большинстве других ситуаций, когда выносятся профессиональные оценки. В широком понимании это суждения врачей, медсестер, юристов, инженеров, преподавателей, архитекторов, голливудских продюсеров, специалистов, ответственных за набор персонала, книгоиздателей, руководителей компаний и менеджеров спортивных команд. Где бы ни выносились суждения, разногласия неизбежны.

Во-вторых, масштабы этих разногласий гораздо шире, чем мы ожидаем. Мало кто возражает против принципа судебного усмотрения, но при этом почти все порицают возникающие в ходе его применения огромные расхождения. Системный шум, или нежелательный разброс в выносимых судебных решениях, которые в идеале должны быть идентичными, способен приводить к вопиющей несправедливости, высоким экономическим издержкам и всевозможным ошибкам.

В-третьих, уровень шума можно снизить. Соблюдение правил и рекомендаций – подход, за который ратовал судья Франкел и который воплотила в жизнь Комиссия США по вопросам назначения наказаний, – это один из методов, успешно сокращающих шум. Другие приемы лучше приспособлены для иных видов суждений. При этом некоторые методы снижения уровня шума могут одновременно уменьшать и смещение.

В-четвертых, усилия, направленные на сокращение шума, часто встречают сопротивление и наталкиваются на серьезные препятствия. Из таких ситуаций также необходимо находить выход, иначе борьба рискует закончиться ничем.

К разговору о шуме при вынесении приговоров

«Эксперименты показывают большие расхождения в том, как судьи выносят решения по идентичным делам. Такая вариативность просто не может быть справедливой. Приговор не должен зависеть от личности судьи, который рассматривает дело».

«Уголовные приговоры не должны зависеть от настроения судьи или погоды в день слушаний».

«Рекомендации по вынесению приговоров – один из способов решения проблемы. Однако многим он не нравится из-за ограничения принципа судебного усмотрения, что зачастую необходимо для вынесения адекватного и справедливого приговора. В конце концов, каждое дело уникально, разве не так?»

Глава 2
Шумная система

Первая встреча с шумом, вызвавшая у нас интерес к этой теме, не была исполнена такого драматизма, как столкновение с системой уголовного права. Собственно говоря, это произошло случайно, когда одна страховая компания воспользовалась услугами консалтинговой фирмы, с которой двое из нас сотрудничали.

Безусловно, тема страхования способна увлечь далеко не каждого. Но результаты наших изысканий демонстрируют, насколько серьезна проблема шума в коммерческих организациях, где шумные решения могут привести к большим убыткам. Наш опыт исследований в страховой компании объясняет, почему проблема остается незамеченной и как ее можно решить.

Руководство этой страховой компании пыталось просчитать, какую пользу можно извлечь, если сделать суждения сотрудников, ответственных за важные финансовые решения от имени фирмы, более последовательными и менее шумными. По общему мнению, последовательность в суждениях была действительно необходима. Все также согласились с тем, что подобные суждения невозможно сделать абсолютно последовательными, так как они неформальны и отчасти субъективны, а значит, полностью избежать шума не получится.

Разногласия возникли при обсуждении масштабов проблемы. Руководству представлялось сомнительным, что шум может быть для компании существенной проблемой. Однако надо отдать им должное: они выразили готовность разрешить этот спор при помощи простого эксперимента, который мы назвали ревизией шумовых помех. Результат оказался для них весьма неожиданным. При этом он стал яркой иллюстрацией проблемы шума.

Лотерея, создающая шум

В крупных компаниях многие специалисты наделены правом выносить суждения, которые связывают эти компании обязательствами. Например, в страховых организациях работает множество андеррайтеров[2], назначающих размеры взносов за страхование финансовых рисков, например от потерь банка вследствие мошеннических операций. Там также задействовано много оценщиков страховых убытков, которые прогнозируют расходы в связи с будущими претензиями и ведут переговоры с заявителями в случае возникновения споров.

В каждом крупном филиале компании есть несколько квалифицированных андеррайтеров. Когда возникает необходимость в страховой котировке, или ставке премии, ее подготовка может быть поручена любому свободному специалисту. Фактически андеррайтер, который определит размер страховой котировки, назначается на основе лотереи.

Точный размер ставки премии имеет для организации большое значение. Компании выгодно, когда ставка высокая и клиент с ней соглашается, однако завышенная котировка увеличивает риск лишиться сделки. Если же ставка низкая, клиент принимает ее с большей готовностью, но тогда уже компания упускает выгоду. Для любого риска существует размер ставки, отражающий золотую середину, – не слишком высокий и не слишком низкий, – при этом высоки шансы, что в среднем оценки большой группы специалистов не будут сильно от нее отклоняться. Ставки выше или ниже этой величины окажутся убыточными – именно таким образом разброс шумных оценок способен отрицательно повлиять на финансовые показатели компании.

Деятельность оценщиков страховых убытков тоже сказывается на финансовых показателях. Предположим, что от имени рабочего (заявителя), навсегда утратившего работоспособность правой руки из-за несчастного случая на производстве, было подано требование о страховом возмещении. Для работы с заявкой назначается свободный на этот момент оценщик страховых убытков – точно так же, как и в случае с андеррайтером. Оценщик собирает необходимую информацию о деле и представляет оценку его окончательной стоимости для страховой организации. Затем тот же специалист ведет переговоры с агентом предъявителя претензии, стараясь сделать так, чтобы заявитель получил выплаты, обещанные страховым полисом, но без ущерба компании.

Важное значение имеет предварительная оценка, поскольку она устанавливает определенную планку для специалиста в будущих переговорах с заявителем. Кроме того, страховая компания по закону обязана зарезервировать прогнозируемую сумму каждого требования о возмещении (другими словами, иметь достаточно свободных денег на выплаты). С позиции компании, в этом случае тоже возникает некое значение, отражающее золотую середину. Гарантировать урегулирование претензии невозможно, поскольку юрист заявителя может обратиться в суд, если посчитает предложение страховой компании мизерным. С другой стороны, если зарезервировать слишком большую сумму, есть риск, что оценщик уступит и согласится на необоснованно завышенные требования. Суждение оценщика имеет серьезные последствия для компании и еще более серьезные – для заявителя.

Мы используем термин лотерея, чтобы подчеркнуть роль случайности в выборе андеррайтера или оценщика убытков. В обычных условиях на каждое дело назначается один специалист, и никто не задается вопросом, что бы произошло, если бы вместо него назначили кого-то другого.

Лотереи бывают полезны, и в них необязательно видеть что-то плохое. Полезные лотереи используют как для распределения «благ», например при розыгрыше допуска к определенным университетским курсам, так и для раздачи «повинностей», например во время призыва в армию. Такие лотереи успешно выполняют свою функцию. Но в процессе вынесения суждений лотереи ничего не распределяют и не раздают – они лишь порождают неопределенность. Представьте, что андеррайтеры в страховой компании не выносят шумных оценок и всегда назначают оптимальные ставки премий. Однако затем некий механизм случайным образом изменяет эти ставки, и клиентам предлагается конечный результат. Очевидно, что для подобной лотереи нет никаких оснований. Как нет никаких оснований для существования системы, в которой конечный результат зависит от личности специалиста, случайно назначенного для вынесения профессионального суждения.

Ревизия шумовых помех выявляет системный шум

Если судья, выносящий приговор, или единственный стрелок, представляющий свою команду, назначаются при помощи лотереи, это приводит к разбросу результатов, однако остается незамеченным. Ревизия шума, аналогичная той, что была проведена на материале приговоров, выносимых федеральными судьями, помогает решить эту проблему. В процессе ревизии одно и то же дело оценивается большим количеством специалистов, и разброс в их заключениях становится очевидным.

Это особенно хорошо работает в случае с андеррайтерами и страховыми оценщиками, чьи решения основываются на информации, представленной в письменном виде. Для проведения ревизии шума руководство компании подготовило детальные описания пяти типичных кейсов для каждой из групп специалистов (андеррайтеров и оценщиков). Каждый специалист должен был самостоятельно оценить два-три кейса; при этом испытуемые не знали, что целью исследования была оценка разброса в их суждениях.

Прежде чем продолжить чтение, попробуйте сами ответить на следующие вопросы. Насколько сильно будут отличаться оценки двух случайным образом назначенных квалифицированных андеррайтеров или оценщиков в преуспевающей страховой компании? В частности, какова будет разница между двумя оценками в процентах от их среднего показателя?

Мы задали этот вопрос большому количеству руководителей компании, а в последующие годы получили подобные оценки от широкого круга специалистов в различных областях. К нашему удивлению, один ответ встречался намного чаще остальных. Большинство топ-менеджеров в страховой компании предположили, что эта разница составит 10 или менее процентов. Затем мы опросили 828 генеральных директоров и руководителей из различных отраслей, предложив им оценить ожидаемые различия в экспертных суждениях, подобных вышеописанным. Медианной, и наиболее популярной, снова стала оценка в 10 %. (Второй по популярности была оценка в 15 %.) Разница в 10 % означала бы, к слову, что один из андеррайтеров назначил ставку премии в 9500 долларов, тогда как второй – в 10 500. Разница не выглядит такой уж ничтожной, но она вполне допустима для подобной организации.

Расхождения, выявленные нами во время ревизии шума, оказались куда более серьезными. По нашим оценкам, медианная разница у андеррайтеров составила 55 % – в пять раз выше, чем того ожидали большинство опрошенных, включая руководителей. Это означает, что, если один андеррайтер назначает премию в 9500 долларов, оценка второго будет вовсе не 10 500, а 16 700 долларов. Для оценщиков страховых убытков медианное соотношение составило 43 %. Подчеркнем, что эти результаты медианные: в половине пар кейсов разница между двумя оценками оказалась еще выше.

Получив отчет о результатах ревизии шумовых помех, руководители компании очень быстро сообразили, что такой существенный уровень шума – проблема весьма дорогостоящая. Один топ-менеджер подсчитал, что шум в андеррайтинге, включая как потери клиентов от завышенных ставок премий, так и убытки от заниженной цены контрактов, обходится компании в сотни миллионов долларов.

Никто не мог сказать наверняка, сколько при этом было ошибок и каким было смещение, поскольку значение золотой середины для каждого кейса не было известно. Но необязательно знать, где находится «яблочко» мишени, чтобы оценить широту разброса попаданий на ее оборотной стороне и понять, что вариативность представляет собой проблему. Данные показали, что сумма, которую клиент заплатит за страховку, довольно сильно зависит от результатов лотереи выбора специалиста, отвечающего за сделку. Мягко выражаясь, клиенты не слишком бы обрадовались новостям о том, что они невольно поучаствовали в такой лотерее. Как правило, имея дело с организациями, люди ожидают от системы последовательных суждений, но никак не системного шума.

Нежелательный разброс против желаемого разнообразия

Одна из определяющих черт системного шума – его нежелательность, и здесь нужно подчеркнуть, что разброс в суждениях нежелателен отнюдь не всегда.

Возьмем, к примеру, предпочтения или вкусы. Когда десяток кинокритиков посмотрят один и тот же фильм, десяток дегустаторов оценят одно и то же вино, а десяток читателей прочтут одну и ту же книгу, никто не ожидает, что их мнения окажутся одинаковыми. Разнообразие вкусов здесь приветствуется и вполне предсказуемо. Никому (ну или почти никому) не хочется жить в мире, где всем поголовно нравится и не нравится одно и то же. Однако в том случае, когда выражение личных предпочтений принимается за профессиональное суждение, разнообразием вкусов могут оправдывать ошибки. Если кинопродюсер решится на необычный проект (скажем, фильм о расцвете и упадке дисковых телефонных аппаратов) только потому, что ему пришелся по душе сценарий, такой выбор будет грубым просчетом, окажись он в этом мнении совершенно одинок.

Вариативность мнений также ожидаема и желательна в условиях конкуренции – когда поощряются наилучшие решения. Если несколько компаний (или отделов в организации), конкурируя, пытаются найти новые подходы к одной и той же проблеме заказчика, не нужно, чтобы они были одинаковыми. Так же и в науке: когда несколько групп ученых решают исследовательскую задачу, например разрабатывают вакцину, весьма желательно, чтобы проблема рассматривалась с различных углов зрения. Даже прогнозисты порой конкурируют между собой. Аналитик, точно предсказавший рецессию, когда ее никто не ждал, наверняка получит широкую известность, в отличие от прогнозиста, который всегда придерживается общепринятых мнений и потому остается в тени. В таких условиях вариативность идей и суждений снова приветствуется, поскольку здесь разброс – только первый этап процесса. На следующем этапе результаты, к которым приведут эти суждения, уже померяются силами друг с другом: победит сильнейший. Как и в мире природы, в рыночных условиях отбор требует изменчивости.

Личные предпочтения и условия конкуренции – занятные проблемы, связанные с вынесением суждений. Но нас интересуют суждения, в которых разброс нежелателен. Системный шум – проблема систем, а к ним относятся не рынки, а организации. Когда трейдеры по-разному оценивают стоимость акций, одни на этом заработают, а другие нет. Рынок строится на разности мнений. Однако если случайно выбранному трейдеру поручат подобную оценку от имени целой компании и мы обнаружим, что оценки его коллег из той же компании будут кардинально отличаться, тогда налицо проблема системного шума.

Мы получили изящную иллюстрацию вышесказанного, когда представили наши выводы руководителям фирмы по управлению активами, предложив им провести собственную ознакомительную ревизию шума. Они поручили 42 опытным инвесторам компании оценить справедливую стоимость акции (стоимость, при которой инвесторы были бы не заинтересованы в ее покупке или продаже). Инвесторы провели анализ на основе одностраничного описания компании, включающего упрощенные данные о прибыли и убытках, баланс, отчеты о движении денежных средств за последние три года, а также финансовый прогноз на последующие два. Проделав такие же измерения, как ранее в страховой компании, мы обнаружили, что медианный шум в фирме по управлению активами составил 41 %. Такая огромная разница суждений среди инвесторов одной компании, пользующихся одинаковыми методами оценки, – неутешительные новости.

Когда специалиста, выносящего суждение, произвольно отбирают из числа других таких же квалифицированных специалистов, как мы уже наблюдали в фирме по управлению активами, в системе уголовного правосудия и в страховой компании, шум становится проблемой. Системный шум – проклятие многих организаций. Фактически случайным образом будет назначен врач, который окажет вам помощь в больнице, судья, который будет слушать ваше дело, патентный эксперт, который рассмотрит вашу заявку, представитель отдела обслуживания клиентов, который ответит на вашу жалобу, и т. д. Нежелательный разброс в таких решениях может стать причиной серьезных проблем, в числе которых финансовые потери и повсеместная несправедливость.

Нежелательному разбросу часто не придают значения, полагая, что случайные ошибки взаимно уничтожаются. Разумеется, положительные и отрицательные ошибки в суждении по одному вопросу имеют тенденцию друг друга компенсировать, и мы подробно рассмотрим, как эту особенность можно использовать для снижения уровня шума. Однако в шумных системах не принимается множество решений по одному и тому же вопросу – в них принимаются шумные решения по разным вопросам. Если цена одного страхового полиса оказывается завышена, а другого – занижена, усредненное значение может казаться справедливым, но при этом страховая компания допускает две дорогостоящие ошибки. Если двух преступников, которым полагается по пять лет тюрьмы, приговаривают к трем и семи годам соответственно, справедливость в целом не торжествует. В шумных системах ошибки не компенсируют друг друга – они накапливаются.

Иллюзия согласия

В последние десятилетия шуму в профессиональных суждениях было посвящено большое количество публикаций. Будучи знакомыми с их содержанием, мы не слишком удивились результатам ревизии шума в страховой компании. Настоящим же сюрпризом для нас стала реакция руководства компании на эти данные: они не ожидали, что шума будет так много. Никто не усомнился в результатах, никто не посчитал такой уровень шума допустимым, однако проблема шума – и возникающие из-за нее огромные издержки – стала для компании новостью. Словно протечку в подвале дома, шум не пытались устранить – не потому что он всех устраивал, а потому что его попросту никто не замечал.

Как такое могло случиться? Как мнения специалистов, выполняющих одинаковые функции в компании, могли так сильно отличаться и как это могло остаться незамеченным? Почему руководители ничего не видели, ведь, как они признали, такая ситуация представляла серьезную угрозу деятельности компании и ее репутации? Стало понятно, что зачастую организации не способны распознать проблему системного шума, и такое невнимание не менее интересно, чем сам масштаб проблемы. Ревизия позволила предположить, что авторитетные специалисты и их компании-работодатели поддерживали лишь иллюзию согласия и при этом фактически изо дня в день расходились в профессиональных суждениях.

Чтобы понять, откуда возникает иллюзия согласия, представьте себя на месте андеррайтера в ничем не примечательный рабочий день. У вас больше пяти лет опыта, и вы знаете, что коллеги вас ценят, а вы уважаете и любите своих коллег. Вы не сомневаетесь в своей компетенции. Тщательно проанализировав потенциальные риски финансовой организации, вы приходите к заключению, что ставка страховой премии в 200 000 долларов будет оправданной. Задание довольно сложное, но не труднее того, с чем вам приходится иметь дело ежедневно.

Теперь вообразите, что ваши коллеги получили те же данные и оценили риск той же финансовой организации. Поверите ли вы, что по меньшей мере половина специалистов назначили ставку выше 225 000 или ниже 145 000 долларов? Мысль не из приятных. Мы подозреваем, что андеррайтеры, узнав о проведенной нами ревизии шума и согласившись с ее результатами, все же так и не смирились с мыслью, что выводы исследования относились лично к ним.

Большинство из нас почти всегда уверено, что мир именно такой, каким мы его себе представляем. Отсюда недалеко до следующего убеждения: «Другие видят мир таким, каким его вижу я». Подобные представления, называемые наивным реализмом3839, необходимы для понимания реальности, общей для всех людей, и редко ставятся под сомнение. В любой момент у нас есть единая интерпретация окружающего мира, и, как правило, мы практически не утруждаем себя мыслями о правдоподобных альтернативах. Нам достаточно одной, в нашем понимании верной интерпретации. Мы не идем по жизни, воображая иные способы восприятия действительности.

В случае профессиональных суждений вера в то, что другие видят мир теми же глазами, ежедневно подкрепляется различными способами. Так, коллеги используют общий жаргон и набор правил, которые помогают сформулировать соображения, важные для принятия решений. Нас обнадеживает, когда коллеги соглашаются, что суждения, нарушающие эти правила, абсурдны. Если время от времени у нас все же возникают разногласия с коллегами, мы интерпретируем это как ошибку с их стороны. Мы редко замечаем, что согласованные нами правила довольно расплывчаты: с их помощью можно отбросить какие-то варианты решений, но нельзя прийти к общему положительному ответу в каждом конкретном случае. Мы можем работать с коллегами в мире и согласии и при этом совершенно не замечать, что они видят мир совсем иначе.

Вот как специалист по андеррайтингу описывала нам историю своего профессионального роста в отделе: «Когда я только пришла, я советовалась со своим начальником по поводу 75 % кейсов. Спустя пару лет необходимость в этом отпала – теперь экспертом стала я сама. Со временем я принимала решения гораздо увереннее». Как это случается со многими из нас, ее уверенность росла по мере накопления опыта вынесения суждений.

Психология этого процесса хорошо изучена. Уверенность подпитывается субъективным опытом все возрастающей легкости и свободы принятия решений, отчасти из-за их сходства с решениями, уже принимавшимися в похожих обстоятельствах. По мере того как эта сотрудница страховой компании все чаще соглашалась с собственными суждениями из прошлого опыта, ее уверенность росла. Нет никаких свидетельств того, что после начального периода обучения она научилась советоваться с коллегами, уточняя степень своего с ними согласия, или хотя бы попыталась сделать так, чтобы методы ее работы не слишком отличались от методов других специалистов.

В этой страховой компании было достаточно одной ревизии шума, чтобы иллюзия согласия полностью растаяла. Почему руководство даже не догадывалось о проблеме? На этот вопрос существует несколько вероятных ответов, но во многих ситуациях важную роль играет не что иное, как неловкость, возникающая при разногласиях. Большинство организаций предпочитают единодушие и гармонию, а не раскол и конфликты. Часто компании специально разрабатывают процедуры, призванные свести к минимуму внешние проявления фактических разногласий и сгладить споры в случае их возникновения.

Профессор психологии Университета Миннесоты и ведущий исследователь по вопросам прогнозирования эффективности Нэйтан Кансел поделился с нами наглядным примером этой проблемы. Он помогал приемной комиссии университета оптимизировать процесс принятия решений. Обычно член приемной комиссии изучал заявление абитуриента, оценивал его и направлял следующему члену комиссии, который, в свою очередь, тоже давал ему оценку. По причинам, которые станут очевидными по мере чтения этой книги, Кансел предложил скрывать первую оценку, чтобы она не повлияла на последующую. Вот что ответил университет: «Раньше мы прибегали к подобной практике, но это привело к такому количеству разногласий, что мы вернулись к прежнему формату рассмотрения заявлений». Это учебное заведение – в числе множества организаций, где избегание конфликтов считают едва ли не таким же важным аспектом работы, как и принятие верных решений.

Давайте рассмотрим еще один механизм, популярный во многих компаниях, а именно «разбор полетов» после неудачных решений. Такие разборы могут быть полезным инструментом обучения, но если допущена настоящая ошибка и выбранное решение далеко отклонилось от общепринятых профессиональных норм, обсуждение будет слишком легким. Эксперты без труда придут к заключению, что решение пошло вразрез с традиционными мнениями, и даже могут назвать его редким исключением из правил. Распознать плохие суждения гораздо легче, чем хорошие. Подобное разоблачение вопиющих ошибок и маргинализация коллег, которые их совершают, никак не помогут профессионалам осознать, насколько сильно их мнения отличаются от мнений других специалистов при вынесении в целом приемлемых суждений. Как раз наоборот: легкость в достижении консенсуса по поводу плохих решений может даже укрепить иллюзию согласия; при этом настоящий урок – о повсеместности системного шума – усвоен не будет.

Хочется надеяться, что вы уже начинаете разделять наш взгляд на шум как на серьезную проблему. Его присутствие совсем не удивительно, ведь шум – следствие неформальной природы суждений. Однако, как мы увидим далее, когда организация начинает присматриваться к проблеме, обнаруживаемый уровень шума всегда становится потрясением. Вывод прост: там, где есть место суждению, найдется и шум – и его намного больше, чем вы думаете.

К разговору о системном шуме в страховой компании

«Мы зависим от качества профессиональных суждений – решений андеррайтеров, оценщиков страховых убытков и так далее. На рассмотрение каждого страхового случая назначается один специалист вследствие ошибочного допущения, что решение любого другого специалиста окажется схожим».

«Уровень системного шума в пять раз выше, чем мы предполагали и чем мы можем допустить. Мы никогда бы не пришли к такому выводу без ревизии шума, позволившей развеять иллюзию согласия».

«Системный шум – серьезная проблема, приносящая убытки в сотни миллионов долларов».

«Там, где есть место суждению, найдется и шум – и его намного больше, чем вы думаете».

Глава 3
Уникальные решения

До сих пор мы обсуждали исследования решений, принимаемых многократно. Какой приговор вынести за кражу? Какую страховую ставку назначить при определенных рисках? Хотя каждый случай по-своему уникален, подобные суждения – это типовые решения. Врачи ставят диагнозы пациентам, судьи заслушивают дела об условно-досрочном освобождении, члены приемной комиссии рассматривают заявления абитуриентов, бухгалтеры готовят налоговую отчетность – все это примеры типовых решений.

Шум при вынесении типовых решений можно обнаружить при помощи ревизии шумовых помех, о которой мы говорили в предыдущей главе. Когда взаимозаменяемые специалисты принимают решения по схожим делам, охарактеризовать и измерить нежелательный разброс нетрудно. Однако создается впечатление, что гораздо сложнее – и даже, пожалуй, невозможно – применить понятие шума к категории суждений, которые мы называем уникальными решениями.

Вспомним, например, кризис, с которым мир столкнулся в 2014 году. В Западной Африке тысячи людей стали жертвами вируса Эбола. Все в мире взаимосвязано, и прогнозы показывали, что инфекция способна быстро распространиться и особенно ощутимо ударить по Европе и Северной Америке. В США зазвучали настойчивые призывы прекратить авиасообщение с пострадавшими регионами и срочно закрыть границы. Шаги в этом направлении поддерживались авторитетными и хорошо информированными лицами, а политическое давление было огромным.

Президенту США Бараку Обаме пришлось принять одно из самых непростых решений за все время работы на этом посту – с подобным он не сталкивался ни до, ни после. Он не стал закрывать границы и отправил в Западную Африку 3000 медиков и военных. Обама возглавил многонациональную коалицию стран, которые не могли похвастаться успехами на поприще совместной работы, и направил их ресурсы и опыт на решение проблемы у ее истоков.

Уникальные или типовые

Решения, принимаемые лишь единожды, как в случае с реакцией президента Обамы на вспышку вируса Эбола, уникальны. Они не принимаются периодически одним и тем же специалистом или группой экспертов, для них не существует заранее подготовленных шаблонных ответов, и у них есть характерные, присущие только им особенности. Когда разразилась эпидемия, у Обамы и его администрации не было предыдущего опыта, на который они смогли бы опереться. Значимые политические решения, судьбоносный выбор военачальников – как правило, наглядные примеры уникальных решений.

Такими же характеристиками обладают и решения, принимаемые в личной жизни: выбор профессии, покупка дома, вступление в брак. Даже если это не первая ваша работа, дом или брак, и несмотря на то, что до вас с такими же решениями сталкивалось огромное количество людей, для вас они уникальны. В бизнесе директора компаний тоже нередко вынуждены принимать уникальные для себя решения: стоит ли вводить новшества, способные изменить правила игры, сокращать ли бизнес во время пандемии, открывать ли филиал за рубежом, уступить ли под натиском государственного регулирования?

Вероятно, уникальные и типовые решения не следует относить к отдельным категориям: они, скорее, располагаются в разных частях одного спектра. Андеррайтеры вполне могут столкнуться в работе с уникальными случаями. В то же время, если вы покупаете дом уже в четвертый раз, возможно, вы начнете воспринимать решения о подобных приобретениях как типовые. И все же яркие примеры дают основание полагать, что разница значительна. Объявление войны – отнюдь не то же самое, что объявление о проведении ежегодного пересмотра бюджета.

Шум в уникальных решениях

Долгое время уникальные решения рассматривались отдельно от типовых – тех, что принимаются взаимозаменяемыми специалистами в крупных организациях. Типовые решения – предмет изучения социологов, тогда как ответственные уникальные решения остаются в ведении историков и гуру менеджмента. Подходы, применяемые к исследованию обоих типов решений, довольно сильно отличаются. Типовые решения рассматриваются в статистическом ключе: социологи оценивают большое количество похожих решений, чтобы разглядеть сходные черты, обнаружить закономерности и измерить правильность и точность. В противоположность этому подход к уникальным решениям обычно носит причинно-следственный характер: они обсуждаются в ретроспективе, и основной объект внимания – это причины произошедшего. С помощью исторического анализа, например изучения успехов или ошибок в управлении, исследователи пытаются понять, как были приняты принципиально уникальные решения.

Сама природа уникальных решений поднимает важный вопрос при изучении шума. Мы назвали шумом нежелательный разброс в суждениях, выносимых по одному и тому же вопросу. К уникальным решениям такое определение неприменимо – ведь они не повторяются. В конце концов, история вершится лишь однажды. У вас не получится сравнить принятое Обамой решение направить медиков и военных в Западную Африку в 2014 году с решениями других американских президентов, принятых по поводу других проблем, возникших в другое время (хотя вы вправе выдвигать гипотезы). Можно сравнить ваше решение связать себя узами брака с подобными решениями других подобных вам людей, но такое сравнение не будет для вас так же значимо, как сравнение размера страховых ставок, назначенных двумя андеррайтерами по одному делу. Вы и ваш избранник неповторимы. Прямого способа обнаружить шум в уникальных решениях не существует.

И все же нельзя утверждать, что уникальные решения не подвержены влиянию тех же факторов, что создают шум во время принятия типовых решений. Вспомним стрелков в тире: возможно, участники команды С (с шумными результатами) по-разному настроили прицел на винтовках, а может, у них дрожали руки. Увидев, как стреляет первый участник, мы бы не составили представления о том, насколько шумными будут результаты всей команды, однако источники шума никуда бы не делись. Аналогичным образом, принимая уникальное решение, вы должны понимать, что, даже если другой человек, размышляя над таким же решением, будет обладать схожей компетенцией и разделять ваши цели и установки, он не придет к такому же заключению на основе тех же фактов. К тому же следует понимать, что в случае каких-то незначительных изменений в ситуации или обстановке во время принятия решения ваш вывод мог бы стать совсем иным.

Другими словами, мы не можем измерить уровень шума в уникальных решениях, но, мысля контрфактуально[3], мы наверняка знаем о его присутствии. Так же как дрогнувшая рука стреляющего в тире дает основания предположить, что тот единственный выстрел мог попасть в другую точку мишени, шум при принятии решений дает основание считать, что уникальное решение могло быть совсем другим.

Задумаемся о том, какие факторы влияют на принятие уникального решения. Насколько отличались бы рекомендации президенту Обаме, если бы во время эпидемии лихорадки Эбола за анализ угрозы и подготовку мер реагирования отвечали совсем другие эксперты – с иным жизненным опытом и предысторией? Как повернулось бы обсуждение, если бы те же самые факты были представлены несколько иначе? Каким бы стало финальное решение, если бы настроение главных действующих лиц было другим, а встреча происходила во время снежной бури? С этой точки зрения уникальные решения перестают казаться такими уж предопределенными. В зависимости от множества факторов, о существовании которых мы даже и не подозреваем, решения вполне могут получиться совсем другими.

Давайте снова поупражняемся в контрфактуальном мышлении. Вспомним, как разные страны отреагировали на пандемию COVID‑19. Хотя она началась для всех примерно в одно и то же время и развивалась похожим образом, ответные меры существенно отличались от региона к региону. Такая вариативность четко свидетельствует о шуме в решениях, принимаемых разными государствами. Но что если бы эпидемия затронула только одну страну? Тогда бы мы просто не смогли заметить никакого разброса. Однако от того, что разброс незаметен, принятое решение не становится менее шумным.

Как контролировать шум в уникальных решениях

Такая теоретическая дискуссия небесполезна. Если в уникальных решениях столько же шума, сколько в типовых, тогда стратегии сокращения уровня шума в последних должны помочь улучшить и качество первых.

Эта рекомендация еще более парадоксальна, чем кажется. Когда вам предстоит принять единственное в своем роде решение, вы инстинктивно так к нему и отнесетесь: как к единственному в своем роде. Некоторые даже утверждают, что к уникальным решениям, принимаемым в условиях неопределенности, вообще неприменимы законы вероятностного мышления и что к подобным решениям нужно подходить совершенно иначе.

Наши наблюдения подсказывают, что следует действовать ровно наоборот. Руководствуясь соображениями уменьшения шума, мы должны относиться к уникальным решениям как к типовым решениям, принимаемым лишь единожды. Выносите ли вы суждение один или сотню раз, ваша цель – снизить при этом как масштаб смещения, так и уровень шума. При этом приемы, которые помогут этого добиться, должны оказаться настолько же эффективными для уникальных решений, как и для типовых.

К разговору об уникальных решениях

«Ваши решения в этой необычной ситуации рискуют подвергнуться действию шумовых помех».

«Не забывайте: уникальное решение – это типовое решение, принимаемое лишь однажды».

«Жизненный опыт, сформировавший вас как личность, не имеет отношения к вынесению данного суждения».

Часть II
Ваш разум – измерительный прибор

Чтобы что-то измерить как в повседневной жизни, так и проводя научные исследования, мы пользуемся специальными приборами, присваивая объекту или явлению некое значение по определенной шкале. Длину ковра в сантиметрах мы измерим рулеткой. Температуру в градусах по шкале Фаренгейта или Цельсия – термометром.

Нечто похожее происходит, когда мы выносим суждения. Назначая срок лишения свободы, судьи выбирают на шкале некую отметку. Так же поступают андеррайтеры, присваивая риску, который нужно застраховать, определенный эквивалент в долларах, или врачи, ставя диагноз пациенту. (Шкала необязательно должна быть числовой. «Виновен вне всяких сомнений», «меланома в поздней стадии», «рекомендовано хирургическое вмешательство» – все это тоже суждения.)

Таким образом, суждения можно охарактеризовать как измерения, инструментом для которых выступает человеческий разум. В само понятие измерения заложена идея достижения точного результата с целью приблизиться к истине и минимизировать ошибки. Мы выносим суждения не для того, чтобы произвести впечатление, отстоять точку зрения или в чем-то убедить. Важно заметить, что мы заимствовали понятие «суждение» из специальной литературы по психологии, и оно гораздо ýже, чем то, что используется в быту. «Суждение» не синоним «размышления», а «вынести точное суждение» не значит «проявить здравомыслие».

Мы определяем суждение как заключение, которое можно сформулировать при помощи одного слова или фразы. Когда аналитик разведывательной службы готовит длинный отчет c заключением, что режим в стране нестабилен, суждением здесь будет только само заключение. Термин «суждение», подобно «измерению», относится и к процессу вынесения суждения, и к его результату. Время от времени мы будем использовать слово «судить» в качестве специального термина для описания людей, выносящих суждения, даже если они не имеют никакого отношения к системе правосудия.

Хотя нашей целью и является точность, добиться ее полностью невозможно, даже проводя научные измерения, не говоря уже о вынесении суждений. Всегда будет некая погрешность в виде смещения или шума.

Чтобы убедиться, что шум и смещение вносят в суждения погрешность, попробуйте сыграть в игру, которая займет у вас не более минуты. Если ваш смартфон оснащен секундомером, наверняка там есть функция, которая позволяет отмерять последовательные временные интервалы, не останавливая секундомер и даже не глядя на экран. Ваша цель – не подсматривая в телефон, отсчитать пять последовательных интервалов ровно по 10 секунд. Перед началом эксперимента вы можете потренироваться, понаблюдав за прохождением десятисекундного интервала. Время пошло!

А теперь взгляните на экран и проверьте, сколько секунд пришлось на каждый засеченный вами отрезок времени. (Работа самого телефона тоже не лишена шума, но его уровень крайне низок.) Вы убедитесь, что время, отведенное вами на каждый интервал, вовсе не равняется десяти секундам и что между полученными значениями есть существенная разница. Вы пытались точно засечь одинаковое количество секунд, но потерпели неудачу. Разброс, неподвластный вашему контролю, – это пример шума.

Такой вывод совсем не удивителен, ведь шум – универсальное явление в физиологии и психологии. Вариативность среди индивидуумов заложена природой, и какие-то различия есть даже у близнецов. Процессы внутри одного человека тоже вариативны. Бывает, сердце сбивается с четкого ритма. Нельзя воспроизвести какой-то жест с идеальной точностью. При проверке слуха у отоларинголога одни звуки будут для вас всегда слишком тихими, а другие – всегда слышимыми. А некоторые вы будете различать лишь от случая к случаю.

Взгляните еще раз на пять значений, зафиксированных вашим секундомером. Прослеживается ли какая-нибудь закономерность? К примеру, если все временные отрезки оказались короче десяти секунд, возможно, ваши внутренние часы спешат. В этом простом задании смещение – положительная или отрицательная разница между десятью секундами и средним арифметическим отмеренных вами интервалов. Разброс же в ваших результатах – это шум, аналогичный увиденному нами разбросу попаданий по мишени. В статистике основной единицей измерения разброса40 является стандартное отклонение; его-то мы и будем использовать для оценки уровня шума в суждениях.

Мы можем уподобить большинство суждений, особенно прогнозных суждений, вашим манипуляциям с секундомером. Прогнозируя, мы стараемся приблизиться к истинному значению. Экономический прогнозист пытается как можно точнее предсказать рост ВВП в следующем году, врач преследует цель поставить верный диагноз. (Отметим, что «прогноз» в этой книге используется как специальный термин и не подразумевает предсказание будущего. В этом смысле «прогнозом» может считаться поставленный пациенту диагноз.)

Мы будем часто прибегать к аналогии между суждениями и измерениями, так как она помогает наглядно объяснить роль шума в возникновении погрешностей. Прогнозист сродни стрелку, который целится в «яблочко», или физику, который пытается измерить точный вес частицы. Шум в суждениях подразумевает погрешность. Проще говоря, если целью суждения является истина, два отличных друг от друга суждения просто не могут быть верны одновременно. Так же как у измерительных приборов, погрешность у некоторых людей при выполнении определенных задач будет выше – возможно, из-за нехватки навыков или опыта. Так же как измерительные приборы, люди никогда не выносят идеальных суждений. Наша задача – понять и измерить возникающую при этом погрешность.

Безусловно, вынесение большинства профессиональных суждений гораздо сложнее фиксирования временных интервалов секундомером. В главе 4 мы рассмотрим различные виды профессиональных суждений и проанализируем, каковы их цели. В главе 5 мы обсудим, как измерить погрешность и количественно оценить роль системного шума. Глава 6 посвящена более глубокому изучению системного шума и его различных составляющих. В главе 7 мы подробнее исследуем одну из таких составляющих, а именно ситуативный шум. Наконец, в главе 8 мы продемонстрируем, как группы способны усиливать шум в суждениях.

Главы этой части книги подводят нас к простому заключению: как и любой измерительный прибор, человеческий разум несовершенен и его выводы подвержены воздействию смещения и шума. Почему и в какой мере? Давайте разберемся.

Глава 4
Субъективные суждения

Эта книга посвящена профессиональным суждениям в широком смысле. Предполагается, что те, кто выносит такие суждения, компетентны и стремятся к точным результатам. Однако само понятие суждения поневоле подразумевает, что в его точности никогда нельзя быть уверенным до конца.

Задумайтесь о значении выражений «субъективная оценка» или «субъективное решение». Никто не назовет субъективными утверждения о том, что завтра снова взойдет солнце или что формула хлорида натрия – NaCl. Ожидается, что каждый разумный человек безусловно с этим согласится. В субъективные оценки заложена доля неопределенности, и мы допускаем, что здравомыслящие и компетентные люди могут иметь разные мнения.

Существует, однако, некий предел тому, насколько сильно мнения могут не совпадать. Действительно, слово «суждение» в основном используют, когда предполагается некое согласие. Субъективные суждения не то же самое, что личные мнения или вкусы, где непреодолимые разногласия вполне допустимы. Руководители страховой компании, которых поразили результаты ревизии шума, едва ли удивились бы тому, что оценщики убытков имеют полярно противоположные взгляды на достоинства «Битлз» и «Роллинг Стоунз» или, к примеру, тунца и горбуши.

Субъективные суждения, в том числе профессиональные, находятся где-то между фактами и вычислениями, с одной стороны, и личными мнениями или вкусами – с другой. Для них характерно ожидание ограниченных разногласий.

Ответ на вопрос о допустимом масштабе разногласий в суждениях сам по себе является субъективной оценкой, зависящей от сложности проблемы. Особенно нетрудно достичь согласия по поводу суждений, лишенных здравого смысла. Судьи, чьи приговоры по типичному делу о мошенничестве могут сильно различаться, сойдутся в том, что штраф в размере одного доллара или пожизненный срок здесь совершенно неуместны. Члены жюри на конкурсе вин41 могут спорить по поводу победителей, но единогласно забракуют неудачные вина.

Процесс вынесения суждения: пример

Прежде чем говорить о процессе вынесения суждений, мы предлагаем вам попробовать вынести свое собственное. Глава принесет больше пользы, если вы выполните нижеследующее упражнение до конца.

Представьте, что вы входите в комиссию, задача которой оценить кандидатов на должность генерального директора в довольно благополучной финансовой компании, столкнувшейся с ростом конкуренции. Вам нужно оценить вероятность успеха потенциального кандидата спустя два года после начала работы. Под успехом понимается способность кандидата удержаться на месте генерального директора по истечении двухлетнего срока. Оценку вероятности требуется выразить по шкале от 0 (невозможно) до 100 (определенно).

Майклу Гамбарди тридцать семь лет. Двенадцать лет назад он окончил Гарвардскую школу бизнеса и с тех пор успел поработать на разных должностях. В начале карьеры он стал основателем и инвестором двух стартапов, которые потерпели неудачу, не найдя необходимой финансовой поддержки. Затем Майкла наняла крупная страховая компания, где он быстро вырос до главного исполнительного директора в Европейском регионе. На этой должности он предложил и затем курировал изменения, позволившие оптимизировать урегулирование страховых исков. Коллеги и подчиненные находили Гамбарди эффективным, однако излишне властным и жестким: за время его пребывания в должности управленческий персонал менялся довольно часто. Сослуживцы также указывают на его честность и готовность взять на себя ответственность за неудачи. Последние два года Майкл является генеральным директором финансовой компании среднего размера, которая изначально находилась под угрозой банкротства. Ему удалось стабилизировать положение компании; коллеги считают его успешным, хотя подтверждают, что работать с ним нелегко. Гамбарди выразил заинтересованность в карьерном росте. По результатам собеседования, проведенного с ним несколько лет назад, специалисты по кадрам охарактеризовали его как в высшей степени находчивого и энергичного специалиста, отметив при этом, что он высокомерен и порой деспотичен.

Итак, Майкл претендует на должность генерального директора в относительно успешной региональной компании, столкнувшейся с растущей конкуренцией. Какова вероятность того, что, если Майкла пригласят на эту должность, он все еще будет генеральным директором два года спустя? Прежде чем продолжать читать, пожалуйста, оцените эту вероятность по шкале от 0 до 100. При необходимости перечитайте данную вам информацию.

Если вы отнеслись к этому упражнению серьезно, вероятно, оно показалось вам непростым. Информации довольно много, при этом она кажется довольно противоречивой. Вам пришлось потрудиться, чтобы составить для себя некий связный портрет специалиста, необходимый для вынесения суждения. При этом вы сосредоточили внимание на деталях, которые представлялись вам важными, и, скорее всего, не придали значения остальным. Если вас попросят объяснить свой выбор, вы назовете несколько характерных фактов, но их будет недостаточно для полноценного отчета о вашем решении.

Ваш мыслительный процесс при выполнении этого задания демонстрирует несколько особенностей умственных операций, называемых суждениями:

• Во всем наборе данных (которые могут быть лишь частью необходимой информации) вы посчитали некоторые детали более существенными, не осознавая своего выбора в полной мере. Вы заметили, что Гамбарди – это итальянская фамилия? Вы помните, где он учился? Задание намеренно перегружено информацией для того, чтобы вам непросто было вспомнить все детали. Вероятнее всего, ваше описание информации в задаче будет отличаться от того, что запомнили другие читатели. Избирательное внимание и избирательное припоминание – источники разброса в суждениях.

• Вы также неформально использовали выбранные вами детали в общем прогнозе успеха Гамбарди. «Неформально» – это ключевое слово. Для ответа вам не понадобилось составлять план. Практически незаметно для вас ваш разум составил цельный образ Майкла: его сильные и слабые стороны, трудности, с которыми он сталкивается в работе. Неформальность позволила справиться с задачей быстрее. В то же время она породила разброс. Формальный процесс, например суммирование цифровых показателей, гарантирует идентичные результаты, но при неформальных операциях определенная доля шума неизбежна.

• Наконец, вы преобразовали ваше общее впечатление в цифровой показатель на вероятностной шкале успеха. Сопоставление числа от 0 до 100 с неким впечатлением – это весьма примечательный процесс, к обсуждению которого мы еще вернемся в главе 14. И тут вы снова не можете сказать точно, почему ответили именно так. Скажем, почему вы выбрали 65, а не 61 или 69? Скорее всего, в какой-то момент вам в голову пришло некое число. Вы засомневались в его справедливости и в результате подумали о другом. Эта часть процесса тоже является источником разброса.

Поскольку каждый из этих трех шагов в сложном процессе вынесения суждения влечет за собой возникновение разброса, не следует удивляться, когда ответы на задачу про Майкла Гамбарди окажутся очень шумными. Если вы предложите это упражнение своим друзьям, скорее всего, вы обнаружите огромный разброс в оценках будущего успеха кандидата на должность. Когда мы дали это задание 115 студентам MBA, их оценки вероятности успеха Гамбарди варьировались от 10 до 95. Это очень шумный результат.

Между прочим, возможно, вы заметили, что задачка о Гамбарди и упражнение с секундомером служат примерами двух разных видов шума. Разброс во время нескольких попыток отмерить интервалы с секундомером – это шум в суждениях одного человека (вас). Разброс в задаче о Гамбарди – шум в суждениях разных людей. С точки зрения измерений первая проблема демонстрирует внутриэкспертную надежность, а вторая – межэкспертную.

Цель суждения: внутренний сигнал

Ответ, данный вами на задачу о Гамбарди, – прогнозное суждение в нашем определении этого термина. Однако оно существенно отличается от других суждений, которые мы также называем прогнозными. До какого значения завтра поднимется температура воздуха в Бангкоке? Кто победит сегодня вечером в футбольном матче? Кто станет следующим президентом? Если вы с приятелем расходитесь во мнениях на этот счет, когда-нибудь вы все равно узнаете, кто прав. Но если вы по-разному оцениваете шансы Гамбарди, точного ответа вы не узнаете даже со временем. Причина проста: никакого Гамбарди не существует.

Даже если бы в задаче говорилось о реальном человеке и мы знали ответ, невозможно подтвердить или опровергнуть одно-единственное вероятностное суждение (отличное от 0 или 100 %). Ответ не раскрывает, какой вероятность была изначально. Если событие, вероятность которого оценили в 90 %, не происходит, само суждение о вероятности необязательно считать неудачным. В конце концов, результаты, вероятность которых оценивается в 10 %, в итоге достигаются в 10 % случаев. Задача о Гамбарди – пример вынесения непроверяемого прогнозного суждения. Его нельзя проверить по двум причинам: кандидатура Гамбарди – вымышленная, а ответ на задачу – вероятностный.

Многие профессиональные суждения непроверяемы. За исключением ситуаций с вопиющими ошибками, андеррайтеры, например, так никогда и не узнают, была ли стоимость полиса завышена или, наоборот, занижена. Прогнозы бывают непроверяемыми из-за своей условности. Каким бы важным ни казалось пророчество «если мы ввяжемся в войну, нас просто раздавят», скорее всего, оно (надеемся) так и останется непроверенным. Прогнозы также могут охватывать слишком длительный период, и тогда профессионалов, которые их составили, уже нельзя будет призвать к ответу – к таким прогнозам можно, например, отнести предположения о средних температурах на планете к концу XXI века.

Повлияла ли непроверяемость ответа в задаче о Гамбарди на ваш подход к ее решению? Задались ли вы вопросом о том, существовал ли Гамбарди на самом деле? А о том, будет ли в конце главы информация о его дальнейшей судьбе? Может, вы подумали, что, даже если вы о ней узнаете, это все равно не поможет ответить на вопрос задачи? Вероятно, нет, потому что в процессе выполнения задания все эти соображения казались несущественными.

Проверяемость суждения никак не влияет на сам процесс его вынесения. Возможно, вы чуть серьезнее подойдете к обдумыванию задачи, решение которой вскоре будет дано, поскольку ваш мозг сосредотачивается больше, когда есть риск быть уличенным в неправоте. С другой стороны, вы не станете задумываться над задачей, которая абстрактна до нелепости. («Стал бы Гамбарди хорошим директором, если бы у него было три ноги и способность летать?») В общем же и целом, если гипотетическая задача правдоподобна, вы отнесетесь к ней точно так же, как и к реальной. Это немаловажно для исследований в психологии, где нередко используются вымышленные задания.

Поскольку у задачи нет решения, а вы, вероятно, даже не задумывались, будет ли оно вообще дано, вы не пытались минимизировать погрешность. Вы постарались вынести верное суждение и остановились на значении, которое не побоялись предложить в качестве ответа. Конечно, оно не вселяло в вас столько же уверенности, как утверждение о том, что дважды два четыре. Вы допускали некоторую неопределенность (и, как мы увидим, на самом деле ее больше, чем вы думали). Однако в какой-то момент вы осознали, что дальше двигаться некуда, и сделали свой выбор.

Как вы поняли, что приняли верное или хотя бы вполне допустимое решение? Мы полагаем, вы почувствовали внутренний сигнал о том, что суждение вынесено, никак не связанный c информацией извне. Найденный ответ вполне соответствовал условиям задачи. Ощущения соответствия не возникло бы, будь ваш ответ 0 или 100: такие выводы предполагают уверенность, несовместимую с настолько беспорядочными, неоднозначными и противоречивыми условиями задачи. Однако ваш ответ, каким бы он ни был, показался вам вполне правомерным. Когда вы выносили суждение, вашей целью было найти именно правомерное решение.

Основное свойство такого внутреннего сигнала – то, что ощущение правомерности является неотъемлемой частью процесса вынесения суждения, не зависящей от реального результата. Поэтому внутренний сигнал возникает при вынесении как непроверяемых, так и проверяемых суждений. Вот почему решение задачи о вымышленном человеке вроде Гамбарди ничем не отличается от решения задач с реальными данными.

Как оценивается суждение: результат и процесс

Проверяемость не влияет на процесс вынесения суждения, однако от нее зависит то, как это суждение будет оцениваться впоследствии.

Объективный наблюдатель просто оценит точность проверяемых суждений, сравнив выводы с реальным результатом. Если синоптик дал прогноз, что воздух сегодня прогреется до 70 градусов Фаренгейта, а реальная температура достигла лишь 65, значит, он ошибся на пять градусов. Очевидно, что такой подход не сработает, когда суждения проверить нельзя, как в задаче о Гамбарди, где искомого ответа просто нет. Как же тогда оценить их качество?

Существует еще один способ оценивать как проверяемые, так и непроверяемые суждения. Он заключается в оценивании процесса их вынесения. Называя одни суждения удачными, а другие неудачными, мы подразумеваем либо итоговый ответ (к примеру, число, данное вами при решении задачи о Гамбарди), либо процесс решения – то, как вы к этому ответу пришли.

Чтобы оценить процесс решения, можно понаблюдать, насколько успешно его можно применить к большому количеству задач. Представьте, что политический прогнозист оценил шансы множества кандидатов на победу в местных выборах. Вероятность победы ста из этих кандидатов он оценил в 70 %. Если семьдесят человек из них в итоге будут избраны, у нас появится повод считать, что этот прогнозист действительно неплохо разбирается в деле. Проверяемой является вся совокупность этих суждений, тогда как признать единственное вероятностное суждение верным или неверным просто невозможно. Подобным образом установить наличие предвзятости по отношению к определенной группе людей достовернее всего можно с помощью статистики по значительному количеству случаев.

Процесс вынесения суждения можно также оценить, ответив на вопрос о его соответствии принципам логики или теории вероятностей. Многие исследования когнитивных искажений посвящены именно этому.

Если сосредоточить внимание не на результате, а именно на процессе вынесения суждения, можно оценить непроверяемые выводы, такие как гипотетические задачи или долгосрочные прогнозы. Даже не сравнивая эти выводы с реальным результатом, мы все-таки способны определить, была ли в них допущена ошибка. Когда мы перейдем к вопросу улучшения качества суждений, а не просто их оценки, мы также уделим основное внимание именно процессу. Все процедуры, рекомендованные в этой книге для снижения уровня смещения и шума, нацелены на внедрение процессов вынесения суждений, минимизирующих ошибки в совокупности похожих ситуаций.

Мы противопоставили друг другу два способа оценки суждений: сравнение вывода с реальным результатом и оценку качества процесса, который позволил к этому выводу прийти. Заметьте, что, оценивая проверяемое суждение обоими способами, мы можем прийти к разным заключениям. Квалифицированный и осторожный прогнозист, вооруженный лучшими инструментами и методиками, время от времени ошибается, предсказывая уровень квартальной инфляции. С другой стороны, иногда даже шимпанзе, метающая дротики в дартс[4], может попасть в точку.

Чтобы разрешить это противоречие, специалисты, изучающие принятие решений, дают четкие рекомендации: сосредоточьте внимание не на результате, полученном в индивидуальном случае, а на процессе принятия решения. Однако мы понимаем, что на практике так обычно не происходит. Профессионалов, как правило, оценивают по тому, насколько близкими их оценки оказываются к проверяемым результатам. При этом и сами они уверены, что стремятся к наиболее точному совпадению.

Итак, обычно люди убеждены, что при вынесении проверяемых суждений стремятся к совпадению прогноза с реальным результатом. На деле же, вне зависимости от степени проверяемости прогноза, они ждут внутреннего сигнала о готовности суждения, а он, в свою очередь, возникает, когда между условиями задачи и сделанным выводом не остается противоречий. Однако гораздо правильнее стремиться к тому, чтобы в процессе вынесения суждений было найдено оптимальное решение для целой совокупности похожих случаев.

Оценочные суждения

До сих пор в этой главе мы подробно рассматривали прогнозные суждения, и большинство примеров, разбираемых в этой книге, относятся именно к этому типу. Однако глава 1, где речь шла о судье Франкеле и шуме в системе вынесения уголовных приговоров, исследует иной тип суждений. Вынесение приговора – это не прогноз, а оценочное суждение, призванное подобрать наказание, соответствующее тяжести преступления. Жюри винных конкурсов и ресторанные критики выносят оценочные суждения. Профессора, читающие сочинения студентов, судьи на соревнованиях по фигурному катанию и комитеты, распределяющие исследовательские гранты, также выносят оценочные суждения.

Несколько другой тип оценочных суждений выносится в ситуациях, где для принятия решения нужно рассмотреть и взвесить множество альтернатив: руководители выбирают самого подходящего кандидата на некую должность, управленцы ищут оптимальную стратегию, президенты решают, как реагировать на эпидемию в Африке. Несомненно, для решения всех этих задач нужно сначала вынести прогнозные суждения, которые послужат исходными данными. Насколько продуктивным окажется выбранный кандидат в первый год работы? Как фондовый рынок отреагирует на новый стратегический ход? Как быстро распространится эпидемия в отсутствие сдерживающих мер? Однако для окончательного решения потребуется взвесить преимущества и недостатки имеющихся вариантов, и вот здесь понадобятся оценочные суждения.

Оценочные суждения, как и прогнозные, допускают лишь ограниченные разногласия. Ни один уважающий себя федеральный судья не скажет: «Я считаю такой приговор самым подходящим, и меня совершенно не волнует, что по этому поводу думают другие судьи». При выборе стратегии компании специалисты ожидают, что коллеги и эксперты, знакомые с ситуацией и преследующие те же цели, с ними согласятся или, по крайней мере, не будут категорически против такого выбора. Оценочные суждения отчасти зависят от ценностей и предпочтений тех, кто их выносит, но их нельзя назвать делом вкуса или личным мнением.

Именно по этой причине граница между прогнозными и оценочными суждениями настолько размыта, что часто о ней даже не подозревают. Судьи, назначающие наказания, и преподаватели, оценивающие сочинения, очень серьезно подходят к своей задаче и стремятся принять «правильное» решение. Постепенно они приобретают уверенность как в верности своих суждений, так и в их мотивах. Нет никаких различий в том, как мыслят, действуют и оправдывают свои действия профессионалы, выносящие прогнозные («Будет ли этот продукт хорошо продаваться?») и оценочные суждения («Насколько продуктивным был мой ассистент в этом году?»).

В чем проблема с шумом

Если мы обнаруживаем шум в прогнозных суждениях, это сигнализирует о проблемах. Когда мнения двух врачей по поводу диагноза отличаются, а два прогнозиста ожидают разные показатели продаж в следующем квартале, по крайней мере один из них ошибается. Ошибку можно объяснить нехваткой квалификации у одного из специалистов или каким-то иным источником шума. Какой бы ни была причина, ошибка в суждении может иметь серьезные последствии для людей, полагающихся на диагнозы и прогнозы этих экспертов.

В оценочных суждениях шум является проблемой по другой причине. В системе, где судьи предположительно взаимозаменяемы и якобы назначаются случайным образом, значительные расхождения в приговорах по одному делу нарушают ожидания справедливости и последовательности. При значительных расхождениях в наказаниях, назначенных одному подсудимому, мы сталкиваемся с «произволом жестокости», который обличал судья Франкел. Даже судьи, которые выступают за индивидуальный подход в вынесении приговоров и имеют разные точки зрения по поводу наказания грабителю, не станут отрицать, что разногласия, превращающие судейство в лотерею, недопустимы. Это утверждение справедливо (хотя, пожалуй, с несколько меньшим накалом драматизма) в отношении огромных расхождений в отметках за одно и то же сочинение, разнобоя в оценках мер безопасности одного и того же ресторана, разброса в баллах после выступления одного и того же фигуриста или даже случаев, когда один пациент, страдающий от депрессии, получает пособие по инвалидности, а другой – с таким же заболеванием – не получает ничего.

Даже если считать, что несправедливость не так уж и страшна, в феномене системного шума кроется другая проблема. Люди, которых коснулись последствия оценочных суждений, полагают, что такие суждения отражают решение, принятое системой, а не мнение отдельно взятого судьи. Должно быть, дела плохи, если один покупатель, пожаловавшись на бракованный ноутбук, получил деньги назад, а другому достались лишь извинения от магазина; если один служащий с пятилетним стажем в компании, попросив о повышении, получил его, тогда как другой, ничем не хуже первого, услышал вежливый отказ. Системный шум – это непоследовательность, а непоследовательность подрывает авторитет системы.

Нежелательный, но поддающийся измерению

Все, что нам нужно для измерения уровня шума, – это множество суждений, вынесенных по одной проблеме. При этом нет нужды знать истинный результат. Как показала история про стрельбу в тире во введении, взглянув на оборотную сторону мишени, мы не видим обозначения ее центра, зато можем наблюдать разброс попаданий. Если нам известно, что все стрелки целились в одно и то же «яблочко», мы можем измерить уровень шума. Именно эту задачу и выполняет ревизия шума. Если мы попросим прогнозистов оценить продажи в следующем квартале, шумом будет разброс в их оценках.

Понимание различия между смещением и шумом необходимо для практической цели улучшения качества суждений. Утверждение о том, что можно улучшить суждения, даже не имея шансов проверить, насколько они верны, звучит парадоксально. Однако это действительно так – при условии, что мы начнем с измерения уровня шума. Неважно, нацелено суждение на достижение верного ответа или на более сложный компромисс между различными альтернативами, шум нежелателен и при этом часто поддается количественной оценке. Как только уровень шума измерен, во многих случаях его можно сократить, как мы увидим в части V.

К разговору о профессиональных суждениях

«Это субъективное суждение. Люди не могут полностью во всем соглашаться».

«Да, это суждение субъективно, но некоторые оценки настолько оторваны от жизни, что просто не могут быть верными».

«Ваш выбор в пользу одного из кандидатов – отражение личных предпочтений, а не трезвое суждение».

«Для принятия решения необходимы как прогнозные, так и оценочные суждения».

Глава 5
Погрешность измерения

Очевидно, что постоянное смещение обходится очень дорого. Если ваши весы неизменно ошибаются в бóльшую сторону каждый раз, когда вы на них встаете, если полный энтузиазма менеджер регулярно вдвое занижает предполагаемые сроки завершения проекта, а неуверенный в себе руководитель год за годом дает неоправданно пессимистичные прогнозы продаж, это приводит к многочисленным серьезным просчетам.

Мы уже убедились, что шум тоже ведет к возникновению дорогостоящих ошибок. Если менеджер в большинстве своих прогнозов вдвое занижает сроки окончания проекта, но при этом иногда вдвое их завышает, бессмысленно утверждать, что «в среднем» он оказывается прав. Такие ошибки не отменяют друг друга, а суммируются.

Вот почему так важно установить, каким образом и насколько сильно смещение и шум способствуют появлению погрешностей в суждениях. Мы постараемся ответить на эти вопросы в настоящей главе. Основная идея проста: во всех видах профессиональных суждений, целью которых является точность, при расчете общей погрешности смещение и шум играют одинаковую роль. В некоторых случаях больший вклад вносит смещение, в других – шум (и таких случаев гораздо больше, чем можно было бы ожидать). Однако сокращение уровня шума всегда оказывает такой же эффект на значение общей погрешности, как и уменьшение смещения. По этой причине измерению и снижению шума и смещения следует уделять одинаково пристальное внимание.

Подход к измерению погрешности, на основе которого сделан этот вывод, имеет давнюю историю и является общепринятым в науке и статистике. В этой главе мы дадим обзор истории этого подхода и вкратце опишем его основные тезисы.

Нужно ли компании GoodSell сокращать уровень шума?

Представьте себе крупную компанию розничной торговли под названием GoodSell, в которой работает множество специалистов, прогнозирующих объемы сбыта. Они занимаются расчетом будущей доли рынка компании в различных регионах. Возможно, прочитав некую книгу о шумовых помехах, глава отдела прогнозирования Эми Симкин провела ревизию шума: все прогнозисты GoodSell подготовили независимую оценку доли компании на рынке в одном и том же регионе.

На рисунке 3 изображен (неправдоподобно плавный) график с результатами этой ревизии. Эми видит, что прогнозы расположились на кривой, имеющей знакомые очертания колокола, также известной как нормальное распределение, или распределение Гаусса.

Рис. 3. Распределение прогнозов рыночной доли компании GoodSell в одном регионе


Чаще всего эксперты компании давали оценку в 44 %, что отражено в самой верхней точке кривой. Эми убеждается, что в системе прогнозирования компании довольно много шума, ведь будь прогнозы точны, они были бы идентичными, однако на деле они варьируются в широком диапазоне.

Уровень шума в прогнозах компании GoodSell можно оценить количественно. Мы можем рассчитать стандартное отклонение в заключениях экспертов – так же как мы это сделали, отмеряя временные интервалы при помощи секундомера. Как следует из названия, стандартное отклонение отражает типичное расстояние от среднего значения. В нашем примере это 10 процентных пунктов. Как и в любом нормальном распределении, примерно две трети прогнозов расположились в пределах одного стандартного отклонения по обе стороны от среднего значения – между 34 % и 54 % рыночной доли. Теперь у Эми появилась количественная оценка системного шума в прогнозах о доле рынка. (Для более достоверных результатов в ревизию шумовых помех следовало бы включить сразу несколько задач по прогнозированию, однако для наших целей будет достаточно и одной.)

Как и руководство реально существующей страховой компании из главы 2, Эми потрясена результатами и хочет принять меры. Непозволительно высокий уровень шума указывает на то, что прогнозисты недостаточно строго следуют необходимым процедурам. Чтобы сделать действия специалистов более единообразными и упорядоченными, Эми просит разрешения нанять консультанта по шуму, но, к сожалению, эта идея не находит поддержки. Ответ ее начальника кажется вполне разумным: «Как можно сократить погрешность, если мы не знаем, насколько верны наши прогнозы? Конечно, если погрешность в них действительно велика (то есть имеется большое смещение), мы должны приложить максимум усилий для их устранения. Прежде чем принимать меры по улучшению качества прогнозов, нужно подождать и посмотреть, насколько точными они окажутся».

Спустя год после ревизии шума стали известны результаты, которые пытались предугадать прогнозисты. Доля рынка компании в целевом регионе составила 34 %. Теперь мы можем оценить погрешность каждого прогноза: нужно просто подсчитать разницу между прогнозом и результатом. Если эксперты прогнозировали 34 %, то погрешность оказалась нулевой, для среднего прогноза в 44 % погрешность составила 10 %, а для заниженного прогноза в 24 % она оказалась – 10 %.

На рисунке 4 показано распределение ошибок. Выглядит так же, как и распределение прогнозов на рисунке 3, но из числового значения каждого прогноза было вычтено истинное значение (34 %). Кривая распределения не изменилась, и стандартное отклонение (выбранная нами единица измерения шума) все еще составляет 10 %.


Рис. 4. Распределение ошибок в прогнозах GoodSell о рыночной доле в одном регионе


Разница между кривыми на рисунках 3 и 4 аналогична разнице между разбросом попаданий, видимых на передней и задней поверхностях мишени с рисунков 1 и 2 (см. введение). Чтобы заметить шум в результатах стрельбы, необязательно знать точное расположение «яблочка» мишени; подобным же образом данные об истинной доле рынка ничего не меняют в том, что мы уже знаем об уровне шума в прогнозах.

Теперь Эми Симкин и ее руководителю стала известна информация, которой они раньше не располагали, а именно величина смещения в прогнозах. Смещение – это средняя погрешность, которая в нашем случае также составила 10 %. В этом наборе данных смещение и шум оказались одинаковыми в числовом выражении. (Уточним, что такое совпадение ни в коем случае не является нормой, однако роль смещения и шума становится понятнее на примере, где их числовые выражения равны.) Мы видим, что ошибки большинства прогнозистов получились оптимистичными, то есть эксперты переоценили будущую долю рынка: многие прогнозы оказались по правую сторону от вертикальной черты нулевой погрешности. (На самом деле благодаря свойствам нормального распределения мы знаем, что в этой части кривой расположилось 84 % прогнозов.)

С едва скрываемым удовлетворением шеф Эми отмечает, что был прав: в прогнозах выявлено огромное смещение! И в самом деле, теперь стало очевидно, что уменьшить его масштабы было бы весьма полезно. И все же Эми продолжает задаваться вопросом о том, стоило ли год назад – и стоит ли сейчас – пытаться также сократить и уровень шума. Насколько сильно выиграла бы компания от этого шага в сравнении с коррекцией смещения?

Среднеквадратические значения

Для ответа на вопрос Эми нам необходимо воспользоваться «правилом подсчета ошибок» – способом взвесить и свести индивидуальные ошибки в единый показатель общей погрешности. К счастью, такой способ уже существует. Это метод наименьших квадратов, предложенный в 1795 году4243 гением математики Карлом Фридрихом Гауссом, родившимся в 1777 году и вставшим на путь великих открытий в уже очень юном возрасте.

Гаусс предложил правило для оценки вклада индивидуальных ошибок в общую погрешность. Его мера общей погрешности, называемая среднеквадратической ошибкой (MSE[5]), – это среднее значение квадратов индивидуальных погрешностей измерения.

Подробные доводы Гаусса в пользу своего метода измерения общей погрешности выходят далеко за рамки этой книги, а предложенное им решение на первый взгляд неочевидно. Зачем нужны квадраты ошибок? Идея кажется взятой с потолка, даже эксцентричной. И все же, как вы сможете убедиться, она базируется на предположении, с которым вы почти наверняка согласитесь.

Чтобы понять, почему это так, давайте обратимся к проблеме, которая кажется совсем не относящейся к делу, хотя в действительности имеет к нашему вопросу самое прямое отношение. Представьте, что вам вручили линейку и попросили измерить длину прямой с точностью до миллиметра. Проводить замеры разрешено пять раз. Результаты этих замеров представлены на рисунке 5 в виде направленных вниз треугольников, расположенных на прямой.

Рис. 5. Пять замеров одной и той же прямой


Как видите, диапазон результатов пяти замеров составил от 971 до 980 миллиметров. Какой будет ваша самая точная оценка длины этой прямой? У нас есть два очевидных претендента на лучший ответ. Во-первых, это медианное значение: результат, находящийся между двумя наименьшими и двумя наибольшими измерениями. Оно составляет 973 миллиметра. Во-вторых, это среднее арифметическое, или, проще говоря, среднее значение, составляющее в этом примере 975 миллиметров и показанное на рисунке в виде стрелки, направленной вверх. Интуитивно вы, скорее всего, выберете среднее арифметическое и будете правы. Средний показатель более информативен, он зависит от величины значений, тогда как медиана – только от их последовательности.

Между вышеописанной задачей приблизительного подсчета, о пути решения которой у вас имеется четкое интуитивное представление, и задачей измерения общей погрешности, которая нас сейчас интересует, существует тесная связь. На самом деле это две стороны одной медали, потому что самая точная оценка – та, которая минимизирует общую погрешность в имеющихся результатах измерений. Соответственно, если вы правы, интуитивно полагая, что среднее арифметическое – это самая точная оценка, тогда формула для измерения общей погрешности должна подсчитывать среднее арифметическое как значение, для которого погрешность минимизируется.

Среднеквадратическая ошибка такое свойство как раз имеет – и это единственный подобный способ измерения общей погрешности. На рисунке 6 мы показали подсчет MSE в наборе из пяти измерений для десяти возможных целых значений истинной длины прямой. Например, если бы истинное значение равнялось 971, погрешности в пяти измерениях составили бы 0, 1, 2, 8 и 9. Сумма квадратов этих погрешностей равняется 150, а среднее арифметическое – 30. Такое большое число говорит о том, что какие-то измерения довольно далеки от истины. Вы видите, что MSE уменьшается по мере приближения к 975, или среднему арифметическому значению, и снова увеличивается по мере удаления в бóльшую сторону. Нашей лучшей оценкой является среднее арифметическое значение, потому что оно минимизирует общую погрешность.


Рис. 6. Среднеквадратическая ошибка для десяти возможных значений истинной длины прямой


Вы также могли заметить, что общая погрешность быстро растет по мере отклонения оценки от среднего арифметического значения. Например, при отклонении оценки всего на 3 миллиметра, от 976 к 979, MSE удваивается. Это ее ключевое свойство: возведение в квадрат придает значительным погрешностям гораздо больший вес, чем незначительным.

Теперь вы понимаете, почему гауссовская формула измерения общей погрешности называется среднеквадратической ошибкой, а сам подход – методом наименьших квадратов. Метод базируется на возведении погрешностей в квадрат, и никакая другая формула не способна поддержать ваше интуитивное предположение, что лучшая оценка – это среднее арифметическое значение.

Другие математики быстро признали преимущества гауссовского метода. Сам же Гаусс среди множества прочих достижений использовал MSE (и другие математические открытия) для решения задачи, которая была не под силу лучшим астрономам Европы: повторного обнаружения Цереры – астероида, который ученые могли наблюдать лишь непродолжительное время, после чего в 1801 году он пропал из виду из-за ярких солнечных бликов. Астрономы пытались рассчитать траекторию движения Цереры, неправильно учитывая погрешность измерения своих телескопов, поэтому так и не обнаружили карликовую планету в точке, на которую указывали их расчеты. Гаусс исправил их вычисления при помощи метода наименьших квадратов. Направив телескопы в точку, указанную Гауссом, астрономы увидели Цереру!

Вскоре метод наименьших квадратов стал применяться учеными в самых различных дисциплинах. Спустя два века он остается стандартным способом оценить погрешность в любых вычислениях, требующих точности. В статистике без взвешивания квадратов погрешностей не обойтись, да и в других областях науки метод наименьших квадратов используется постоянно. Очень скоро мы с вами убедимся, что последствия применения этого подхода могут быть весьма неожиданными.

Уравнения расчета погрешности

Роль смещения и шума в возникновении погрешностей легко обобщить двумя выражениями, которые мы назовем уравнениями расчета погрешности. Первое из этих уравнений раскладывает погрешность однократного измерения на две составляющие, с которыми вы уже знакомы: смещение, или среднюю погрешность, и остаточную «шумную погрешность». Шумная погрешность имеет положительное значение, если погрешность больше, чем смещение, и отрицательное, если меньше. Среднее значение шумных погрешностей равняется нулю. В первом уравнении нет ничего нового:

Погрешность в однократном измерении = Смещение + Шумная погрешность

Второе уравнение расчета погрешности – это разложение на составные части среднеквадратической ошибки, уже знакомой нам меры общей погрешности. При использовании простых алгебраических действий44 среднеквадратическая ошибка может быть представлена как сумма квадратов смещения и шума. (Вспомните, что шум – стандартное отклонение в измерениях, идентичное стандартному отклонению шумных погрешностей.) Таким образом:

Общая погрешность (MSE) = Смещение2+ Шум2

Возможно, вид этого уравнения – сумма двух квадратов – напоминает вам известную со школьных лет теорему Пифагора. Как вы, вероятно, помните, в прямоугольном треугольнике сумма квадратов катетов равняется квадрату гипотенузы. Поэтому уравнение расчета погрешности можно визуализировать при помощи трех квадратов, стороны которых образуют стороны прямоугольного треугольника, при этом площади этих квадратов равны соответственно MSE, смещению2 и шуму2. Рисунок 7 показывает, что MSE (площадь темного квадрата) равняется сумме площадей двух других квадратов. На изображении слева шум больше, чем смещение; на изображении справа смещение больше, чем шум. Однако в обоих случаях MSE одинаковы, а уравнение расчета погрешности применимо к обоим изображениям.

Рис. 7. Два разложения MSE на составляющие


Математическое выражение и его визуализация показывают, что роли смещения и шума в уравнении расчета погрешности идентичны. При определении общей погрешности они взаимонезависимы и равновзвешенны. (Заметьте, что в последующих главах мы прибегнем к похожему разложению на сумму квадратов, анализируя составляющие шума.)

Уравнение расчета погрешности предлагает ответ на практический вопрос, заданный Эми: как изменится общая погрешность, если в одинаковой степени сократить уровень шума или смещения? Ответ на этот вопрос очевиден: в уравнении расчета погрешности смещение и шум взаимозаменяемы, поэтому независимо от того, какой из этих двух показателей мы уменьшим, снижение общей погрешности будет одинаковым. На рисунке 4, где смещение и шум оказались идентичными (по 10 %), их вклад в общую погрешность равнозначен.

Уравнение расчета погрешности определенно говорит в пользу первоначального порыва Эми принять меры по сокращению уровня шума. Каждый раз, когда вы обнаруживаете шум, вы должны постараться его уменьшить! Уравнение указывает на то, что шеф Эми был не прав, предложив подождать до момента, когда можно будет измерить смещение в прогнозах, и только затем принимать решение о дальнейших действиях. При подсчете общей погрешности шум и смещение выступают независимо: выгода от сокращения уровня шума никак не изменится, каким бы при этом ни было смещение.

Эта идея крайне парадоксальна, но при этом принципиально важна. В качестве демонстрации на рисунке 8 показан эффект от одинакового сокращения смещения и шума. Чтобы вам было проще оценить, чего удалось достичь в каждом случае, мы представили первоначальное распределение ошибок (с рисунка 4) в виде пунктирной линии.

В случае А мы исходим из того, что начальник Эми настоял на своем: был определен уровень смещения, затем его сократили вдвое (возможно, предоставив данные исследования прогнозистам, оказавшимся слишком оптимистичными). Уровень шума остался неизменным. На графике сразу заметны улучшения: распределение ошибок целиком сдвинулось в направлении истинного значения.


Рис. 8. Распределение ошибок: двукратное сокращение смещения в сравнении с двукратным сокращением шума


В случае Б мы видим, что бы произошло, если бы Эми все же удалось переубедить своего шефа. Уровень смещения не меняется, а шум сокращается вдвое. Парадокс в том, что создается впечатление, что снижение уровня шума только ухудшило ситуацию. Теперь разброс прогнозов гораздо меньше (ниже уровень шума), но они не стали точнее (смещение не изменилось). Если раньше по одну сторону от истинного значения были 84 % прогнозов, теперь там оказались почти все прогнозы (98 %). Кажется, что сокращение шума значительно ухудшило их качество – совсем не похоже на положительные изменения, на которые так надеялась Эми!

Вопреки создавшемуся впечатлению, в обоих случаях общая погрешность уменьшилась одинаково. Иллюзия того, что в случае Б результаты стали хуже, возникает из-за ошибочных интуитивных представлений о смещении. Целесообразной мерой смещения следует считать не то, какой процент ошибок оказывается по разные стороны от нулевой погрешности, а среднюю погрешность – расстояние между наивысшей точкой кривой и истинным значением. В случае Б средняя погрешность не изменилась. Она все еще высока – 10 %, но больше она не стала. Действительно, смещение стало гораздо заметнее, потому что теперь его вклад в общую погрешность весомее (80 % против 50 % ранее). Но это произошло потому, что уменьшился уровень шума. Напротив, в случае А смещение сократилось, а шум остался прежним. В конечном счете MSE одинакова в обоих случаях: равные объемы сокращения шума или смещения оказывают на MSE один и тот же эффект.

Как показывает этот пример, среднеквадратическая ошибка противоречит нашим интуитивным представлениям об оценке прогнозных суждений. Чтобы минимизировать MSE, нужно постараться избежать значительных ошибок. К примеру, при измерении длины эффект от уменьшения погрешности с 11 см до 10 см в 21 раз выше, чем эффект ее сокращения с 1 см до истинного значения. К сожалению, интуитивные представления в этом отношении45 почти зеркально противоположны верным: люди всеми силами стремятся получить максимально точный ответ и очень внимательно относятся к небольшим погрешностям, при этом практически игнорируя разницу между двумя значительными ошибками. Даже если вы искренне полагаете, что пытаетесь добиться точности суждения, ваш эмоциональный отклик на результаты может помешать достижению точности в научном понимании.

Конечно же, самым оптимальным решением в этой ситуации будет заняться уменьшением как шума, так и смещения. Поскольку эти величины друг от друга не зависят, бессмысленно выбирать между предложениями Эми Симкин и ее начальника. Если компания GoodSell все же возьмется за сокращение уровня шума, тот факт, что при этом станет очевиднее смещение – а на самом деле его просто невозможно будет не заметить, – может обернуться благом.

Разумеется, при уровне смещения намного больше уровня шума сокращение последнего будет менее приоритетной задачей. Но пример с компанией GoodSell дает нам еще один немаловажный урок. В этой упрощенной модели мы посчитали, что уровни шума и смещения одинаковы. Согласно уравнению расчета погрешности, их вклад в общую погрешность тоже одинаков: 50 % у шума и 50 % у смещения. И все же, как мы заметили, 84 % прогнозистов ошиблись в бóльшую сторону. Требуется именно такой высокий уровень смещения (шесть из семи специалистов ошиблись в одинаковом направлении), чтобы их эффект сравнялся с эффектом шума. Поэтому не стоит удивляться, столкнувшись с ситуациями, когда уровень шума выше, чем уровень смещения.

Мы показали применение уравнения расчета погрешности на единичном примере – только в одном регионе, где GoodSell ведет свою деятельность. Безусловно, всегда желательно проводить ревизию шума сразу на нескольких примерах. Метод при этом не меняется. Уравнение расчета погрешности используют в каждом отдельном случае, и суммарное уравнение получается при подсчете среднего значения среднеквадратической ошибки, квадрата шума и квадрата смещения, разделенных на количество случаев. Для Эми Симкин было бы полезнее получить целый ряд прогнозов по различным регионам от одной или нескольких групп специалистов. Средние результаты дали бы ей более четкую картину смещения и шума в системе прогнозирования компании GoodSell.

Цена шума

Рациональной основой этой книги является уравнение расчета погрешности. Оно объясняет, зачем нужно сокращать уровень системного шума в прогнозных суждениях: это, по сути, настолько же важно, как и сокращение статистического смещения.

Уравнение расчета погрешности и построенные на его основе заключения зависят от использования среднеквадратической ошибки в качестве меры общей погрешности. Это правило применимо к чисто прогнозным суждениям, включая прогнозы и оценки, задачей которых является приближение к истинному значению с максимальной точностью (наименьшим смещением) и максимальной прецизионностью[6] (наименьшим уровнем шума).

К оценочным суждениям, однако, уравнение расчета погрешности не применишь, поскольку к ним гораздо сложнее применить само понятие погрешности, предполагающее наличие истинного значения. Более того, даже если бы мы определили погрешности, убытки от них редко бывают симметричными и вряд ли в точности соответствуют их квадратам.

Например, для компании, производящей лифты, погрешности в оценке максимальной грузоподъемности лифта будут иметь явно асимметричные последствия: заниженная оценка чревата затратами, а завышенная может привести к катастрофе. Таким же образом квадрат погрешностей бесполезен, когда вы решаете, во сколько нужно выйти из дома, чтобы успеть на поезд. В такой ситуации опоздайте вы на одну или на пять минут – последствия будут совершенно одинаковыми. Когда же страховая компания из главы 2 назначает цену полисам или определяет стоимость страховых претензий, затратными будут погрешности в обоих направлениях, однако нет никаких причин полагать, что эти затраты будут одинаковыми.

Все эти примеры показывают, насколько важно определить роли прогнозных и оценочных суждений в принятии решений. Общепризнанная аксиома надлежащего принятия решений гласит, что не следует смешивать собственные жизненные установки и факты. В основе эффективного принятия решений должны быть объективные и точные прогнозные суждения, свободные от влияния надежд, страхов, предпочтений и ценностных ориентиров. Первым шагом компании, производящей лифты, должен стать нейтральный расчет максимальной грузоподъемности в условиях применения различных технических решений. Безопасность становится предметом пристального внимания только на втором этапе, когда оценочные суждения определяют выбор приемлемого запаса прочности при установлении максимальной вместимости лифта. (Несомненно, этот выбор также будет сильно зависеть от фактических суждений, например об издержках и выгодах такого запаса прочности.) Похожим образом, когда вы будете прикидывать, во сколько выезжать на вокзал, вашим первым шагом будет объективно определить, сколько времени понадобится на то, чтобы туда добраться. Сопутствующие издержки, которые вы понесете, опоздав на поезд или долго томясь в ожидании отправления на вокзале, имеют значение только при выборе того риска, на который вы готовы пойти.

Та же логика работает, когда принимаются гораздо более судьбоносные решения. Военачальник обязан учитывать множество факторов, делая выбор в пользу наступательных действий. Однако бо́льшая часть разведывательных данных, на которые он опирается в своем решении, – прогнозные суждения. При выборе реагирования на кризис в здравоохранении, например пандемию, правительство должно взвесить «за» и «против» возможных сценариев, но без точных прогнозов о последствиях каждого из них (включая решение полностью воздержаться от каких-либо действий) никакая оценка невозможна.

Во всех приведенных примерах для принятия окончательных решений требуются оценочные суждения. Для выбора самого оптимального решения необходимо рассмотреть множество вариантов и применить собственную систему ценностей. Но решения базируются на прогнозах, которые должны быть ценностно-нейтральными. Цель прогнозов – точность, способность оказаться как можно ближе к «яблочку» мишени, и адекватной мерой погрешности является среднеквадратическая ошибка. Качество прогнозных суждений можно улучшить при помощи процедур, снижающих уровень шума, при условии, что такие процедуры не приводят к увеличению смещения.

К разговору об уравнении расчета погрешности

«Как ни странно, если сократить либо шум, либо смещение на одну и ту же величину, это окажет равноценное влияние на точность суждения».

«Всегда полезно сокращать уровень шума в прогнозных суждениях, независимо от того, известен ли при этом уровень смещения».

«Когда 84 % оценок оказывается выше истинного значения, а 16 % – ниже, мы наблюдаем большое смещение. Именно в этом случае масштабы шума и смещения равны».

«Принятие любого решения включает в себя вынесение прогнозных суждений, единственной целью которых должна быть точность. Не смешивайте свои ценностные ориентиры с фактами».

Глава 6
Анализ шума

В предыдущей главе обсуждался разброс в результатах измерений или в суждениях по индивидуальным случаям. В подобных ситуациях разброс в суждениях – это погрешность с двумя составляющими: смещением и шумом. Безусловно, рассматриваемые нами системы вынесения суждений, такие как суды и страховые компании, работают с целым спектром дел и проводят между ними различия. Деятельность федеральных судей и оценщиков страховых убытков не имела бы смысла, если бы по всем рассматриваемым делам они выносили шаблонные суждения. Значительная часть вариативности в суждениях по отдельным делам является намеренной.

Однако разброс в суждениях по одному делу по-прежнему нежелателен, так как представляет собой системный шум. Как мы увидим далее, ревизия шума в ситуациях, когда одни и те же люди выносят решения по нескольким делам, позволяет провести более тщательный анализ системного шума.

Ревизия шумовых помех при назначении наказаний

Чтобы продемонстрировать анализ шума в ситуации с вынесением суждений по множеству дел, обратимся к исключительно подробной46 ревизии шума при назначении наказаний федеральными судьями. Этот анализ был опубликован в 1981 году в поддержку реформы системы вынесения приговоров, описанной в главе 1. Исследование имело узкую направленность и рассматривало именно приговоры, однако из него можно извлечь полезные уроки и для других областей, где выносятся профессиональные суждения. С помощью этой ревизии шума мы хотели более систематически подойти к «определению масштабов разброса при назначении наказаний», не ограничиваясь наглядными, но не подтвержденными официально примерами, упоминаемыми Франкелом и другими специалистами.

Авторы исследования подготовили 16 гипотетических дел, по которым правонарушители были признаны виновными и ожидали приговора. В кратких описаниях этих дел – случаев ограблений или мошенничества – давались различные сведения по шести категориям, например был ли подсудимый зачинщиком или соучастником преступления, имелось ли у него уголовное прошлое, использовалось ли при ограблении оружие и т. д.

Исследователи провели скрупулезно организованные собеседования с 208 действующими федеральными судьями со всей страны. В течение 90 минут судей знакомили со всеми 16 делами и предлагали вынести по ним приговоры47.

Нижеприведенное упражнение по визуализации информации поможет вам оценить, насколько полезны данные, полученные в ходе этого исследования. Представьте себе большую таблицу, состоящую из 16 столбцов, соответствующих преступлениям и помеченных латинскими буквами от А до P, и 208 рядов, по одному на судью, пронумерованных от 1 до 208. В каждой ячейке таблицы, от A1 до P208, указан срок тюремного заключения, назначенный по каждому делу определенным судьей. Эта таблица, состоящая из 3328 ячеек, схематично изображена на рисунке 9. Для изучения шума мы рассмотрим 16 столбцов, каждый из которых представляет собой отдельную ревизию шума.

Рис. 9. Представление результатов исследования о назначениях наказаний

Средний срок приговора

Не существует объективного способа установить «истинное значение» срока приговора в конкретном деле. Ниже мы будем рассматривать среднее значение сроков 208 приговоров по каждому делу (средний срок приговора) в качестве «справедливого». Как отмечалось в главе 1, Комиссия США по вопросам назначения наказаний исходила из такого же допущения, когда в качестве основы для рекомендаций по вынесению приговоров использовала средние значения сроков по прошлым делам. При этом «справедливое» среднее значение срока по каждому делу подразумевает, что смещение равно нулю.

Мы полностью отдаем себе отчет в том, что на практике такое допущение неверно: средний срок приговора по некоторым делам, скорее всего, предвзято смещен, например из-за расовой дискриминации, по сравнению со средним сроком других очень похожих дел. Вариативность предвзятого смещения в различных делах – а оно может быть как позитивным, так и негативным – это значимый источник ошибок и несправедливости. В заблуждение может вводить то, что саму эту вариативность часто48 называют «предвзятостью». Анализ, проводимый в этой главе – как и во всей книге, – посвящен в основном шуму, независимому источнику ошибок. Судья Франкел придавал особое значение несправедливости, вызываемой шумом, однако он также обращал внимание и на предвзятое смещение (в том числе расовую дискриминацию). Подобным же образом не следует считать, что наш упор на явление шума умаляет важность измерения и преодоления смещения вследствие предвзятости.

Для удобства в нижнем ряду таблицы указан средний срок приговора по каждому делу. Дела расставлены по возрастанию суровости приговора: средний срок приговора по делу А составляет 1 год, а по делу P – 15,3 года. Средний срок назначенного тюремного заключения49 по всем 16 делам – 7 лет.

Теперь давайте вообразим идеальный мир, в котором все судьи – безупречные измерительные инструменты правосудия и в приговорах напрочь отсутствует шум. Как бы в этом мире выглядел рисунок 9? Очевидно, что значения во всех ячейках по делу A были бы идентичными, ведь все судьи назначили бы обвиняемому ровно один год тюремного заключения. Та же картина наблюдалась бы во всех других столбцах. Конечно, значения в каждом ряду отличались бы, поскольку дела разные, однако сами ряды в точности повторяли бы друг друга. Единственным источником разброса в таблице были бы различия между делами.

К сожалению, мир федеральных судебных органов далек от идеального. Судьи непохожи друг на друга, и в столбцах таблицы наблюдается довольно большой разброс значений, что указывает на шум в суждениях по каждому делу. Мы видим гораздо больший разброс в сроках приговора, чем следовало бы, и наша цель – провести анализ этого разброса.

Лотерея при вынесении приговоров

Начните с уже знакомой нам идеальной картины мира, где сроки, назначенные по каждому делу различными судьями, будут одинаковыми. Каждый столбец таблицы окажется заполненным 208 идентичными цифрами. Теперь добавьте шума, пройдясь по столбцам и поменяв значения в каких-то ячейках, тем самым увеличивая или уменьшая средние сроки приговора. Поскольку вносимые вами изменения неодинаковы, они создают в столбцах таблицы разброс. Это и есть шум.

Основной результат этого исследования – обнаружение высокого уровня шума внутри набора суждений по каждому делу. Количественным показателем шума по каждому делу является стандартное отклонение в назначенных сроках заключения. Средний срок по делу составил 7,0 года, а стандартное отклонение от этого среднего срока – 3,4 года50.

Возможно, термин стандартное отклонение хорошо вам знаком, и все же более конкретный пример не будет лишним. Представьте, что вы случайным образом выбираете двух судей и вычисляете разницу между вынесенными ими приговорами по некоему делу. Теперь повторите это для всех пар судей и всех дел и усредните полученные результаты. Итоговая величина, средняя абсолютная разница, должна дать вам хорошее представление о том, лотерея каких масштабов определяет участь обвиняемого в зале суда. Если допустить, что значения сроков распределены нормально, средняя абсолютная разница в 1,128 раза больше стандартного отклонения, что указывает на то, что средняя разница между двумя случайно выбранными приговорами по одному делу составит 3,8 года. В главе 3 мы уже говорили о лотерее, с которой сталкивается клиент страховой компании, обращающийся за оценкой страховых рисков. Последствия лотереи в правовой системе, мягко выражаясь, более серьезны.

Средняя абсолютная разница в 3,8 года при среднем сроке приговора в 7,0 года вызывает озабоченность и, на наш взгляд, просто неприемлема. К сожалению, есть все основания полагать, что на практике уровень шума, возникающий в процессе отправления правосудия, еще выше. Во-первых, участники ревизии шума выносили приговоры по череде условных дел, которые было необычайно легко сравнивать между собой. В жизни нам не приходится рассчитывать на такое подспорье для соблюдения последовательности в решениях. Во-вторых, судьи в зале суда располагают гораздо бо́льшим объемом информации, чем во время эксперимента. Дополнительная информация, не имеющая решающего значения, увеличивает потенциал возможных расхождений во мнениях судей. Именно поэтому мы подозреваем, что на практике в залах суда обвиняемых ожидает еще большее количество шума, чем в нашем исследовании.

Некоторые судьи особенно суровы: межэкспертный шум

На следующем этапе анализа авторы разбили шум на отдельные составляющие. Впервые пытаясь объяснить для себя феномен шума, вы, как и судья Франкел, вероятно, подумали, что шум возникает из-за того, что некоторые судьи склонны выносить гораздо более суровые приговоры, чем остальные. Любой адвокат подтвердит, что у каждого судьи своя репутация: есть судьи «кровожадные», чьи приговоры всегда строже среднего, а есть «сердобольные», чьи приговоры, как правило, мягче. Мы будем называть подобные отклонения межэкспертными ошибками. (Повторим: мы называем ошибкой отклонение от среднего значения. На самом деле ошибка может устранить несправедливость в случае, если судьи в среднем выносят неправильные решения.)

Разброс в межэкспертных ошибках обнаруживается при решении любой задачи, требующей вынесения суждений. Вот несколько примеров: некоторые управляющие склонны завышать баллы, оценивая продуктивность работников, отдельные прогнозисты выказывают больше оптимизма, делая прогнозы о рыночной доле компании, какие-то ортопеды чаще настаивают на оперативном вмешательстве при проблемах с позвоночником.

В каждом ряду таблицы на рисунке 9 указаны сроки заключения, назначенные одним судьей. Средний срок приговора у одного судьи показан в крайнем правом столбце и отражает уровень строгости этого судьи. Как выяснилось, судьи существенно различаются по этому показателю. Стандартное отклонение значений в крайнем правом столбце – 2,4 года. Разброс таких масштабов не имеет ничего общего со справедливостью. Как вы уже догадались, разница в средних сроках приговоров отражает различия между судьями по другим параметрам, таким как происхождение, жизненный опыт, политические воззрения, предрассудки и так далее. Исследователи изучили отношение судей к назначению наказаний в целом. Например, им предлагалось ответить на вопрос, что является главной целью вынесения приговора: изолирование преступника от общества, его перевоспитание или предупреждение новых правонарушений. Оказалось, что судьи, выступающие за перевоспитание, как правило, назначают более короткие тюремные сроки и более длительные периоды административного надзора, чем судьи, сделавшие выбор в пользу изолирования и устрашения. Отдельно отметим, что судьи из южных штатов США выносили значительно более строгие приговоры, чем их коллеги из других регионов страны. Вполне закономерно, что консервативная идеология также имеет отношение к суровости приговоров.

В общем же можно сказать, что средний уровень назначаемых сроков можно уподобить личностным характеристикам. Воспользовавшись результатами этого исследования, мы могли бы расставить судей по порядку – от самого строгого до наиболее мягкого, точно так же, как личностный тест позволил бы определить уровень их экстраверсии или доброжелательности. Как и в случае с чертами характера, неудивительно, что строгость наказаний коррелирует с присутствием неких генетических факторов, жизненного опыта и других аспектов личности. Ничто из вышеперечисленного не имеет отношения к делу подсудимого. Для описания разброса в значениях средних сроков приговора, идентичных разбросу межэкспертных ошибок, мы используем термин межэкспертный шум.

Не все судьи одинаковы: внутриэкспертный шум

Как указывают черные стрелки на рисунке 9, значение межэкспертного шума составляет 2,4 года, а системного шума – 3,4 года. Разница между ними говорит о том, что строгость каждого судьи – не единственный фактор, играющий роль в возникновении системного шума. Этот дополнительный компонент мы назовем внутриэкспертным шумом.

Чтобы разобраться с понятием внутриэкспертного шума, давайте снова обратимся к рисунку 9, но на этот раз уделим внимание одной случайно выбранной ячейке, скажем С3. Средний срок приговора по делу С приведен внизу столбца – это 3,7 года. Теперь найдите значение среднего срока приговоров, которые Судья 3 вынес по всем рассмотренным делам, в крайнем правом столбце. Это 5 лет – всего на 2 года меньше, чем среднее значение по совокупности дел во всем исследовании. Если бы вариативность в судейской строгости была единственным источником шума в столбце 3, можно было бы предположить, что приговор в ячейке С3 составит 3,7–2 = 1,7 года. Но в ячейке С3 указано значение 4 года, а это означает, что, вынося этот приговор, Судья 3 проявил особую суровость.

С помощью подобной простой аддитивной[7] логики можно попытаться спрогнозировать сроки в каждом столбце таблицы, но на самом деле в большинстве ячеек вы обнаружите отклонения от этой простой модели. Просматривая ряды, вы увидите, что не во всех случаях судьи одинаково строги: они могут быть жестче среднего, рассматривая одни дела, и мягче среднего, вынося решения по другим. Мы называем такие остаточные отклонения внутриэкспертными ошибками. Если подсчитать значения внутриэкспертных ошибок по всем ячейкам таблицы, вы убедитесь, что их сумма будет равна нулю как для каждого судьи (каждого ряда), так и для каждого дела (каждого столбца). Однако при расчете уровня шума внутриэкспертные ошибки взаимно не уничтожаются, потому что при подобных вычислениях значения, указанные во всех ячейках, возводятся в квадрат.

Существует более легкий способ подтвердить тот факт, что простая аддитивная модель здесь не работает. Средний срок приговоров внизу каждого столбца таблицы постепенно увеличивается слева направо, однако в остальных рядах такого не наблюдается. К примеру, Судья 208 назначил гораздо более длительный срок подсудимому в Деле О, чем подсудимому в Деле P. Если бы каждый судья расставил дела в порядке возрастания целесообразного, по его мнению, срока тюремного заключения, итоговые рейтинги не совпали бы.

Мы назвали рассмотренный выше разброс внутриэкспертным шумом, потому что он отражает сложный внутренний характер отношения конкретного судьи к каждому делу. Один судья, например, может быть в среднем более строгим, но проявлять некоторую снисходительность к обвиняемым, совершившим ненасильственные преступления в экономической сфере. Другой, как правило, не отличается особенной суровостью, но менее терпим к рецидивистам. Строгость третьего судьи может быть ближе к средним значениям, при этом он выказывает больше сочувствия к соучастникам преступления, но выносит более жесткие приговоры, если жертва преступления – пожилой человек. (Мы используем термин внутриэкспертный шум с целью сделать текст более удобочитаемым. На самом деле в статистике это называется взаимодействием между переменной судьи и переменной дела. Мы просим прощения у читателей, подкованных в статистике, за то, что вынудили их заниматься подобными ментальными преобразованиями.)

В области уголовного правосудия идиосинкразические решения по некоторым делам, возможно, отражают личную философию вынесения приговоров отдельного судьи. Причиной других решений могут быть возникающие у судьи подсознательные ассоциации, например, если обвиняемая напоминает ему некую особенно гнусную преступницу или, напротив, внешне похожа на его дочь. Какова бы ни была причина их возникновения, такие внутриэкспертные ошибки не случайны: если бы судья повторно столкнулся с этим же делом, мы наблюдали бы их вновь. Но поскольку прогнозировать внутриэкспертный шум на практике сложно, в уже довольно непредсказуемую лотерею вынесения приговоров добавляется элемент неопределенности. Авторы исследования отметили: «То, как по-разному особенности преступления или преступника влияют на решение отдельных судей5152, является еще одной формой несоразмерности при назначении наказаний».

Возможно, вы успели заметить, что разложение системного шума на межэкспертный и внутриэкспертный компоненты следует логике уравнения расчета погрешности из предыдущей главы, где составляющими погрешности были смещение и шум. На этот раз уравнение можно записать так:

Системный шум2= Межэкспертный шум2+ Внутриэкспертный шум2

Наглядно это выражение можно представить таким же образом, как и первоначальное уравнение расчета погрешности (рисунок 10). Две стороны треугольника здесь равны по той причине, что, согласно исследованию о приговорах, внутриэкспертный и межэкспертный компоненты внесли примерно одинаковый вклад53 в системный шум.

Внутриэкспертный шум носит повсеместный характер. Врачи принимают решения о госпитализации, компании – о найме сотрудников, юристы – о представлении дел в суде, а голливудские продюсеры – о съемке сериалов. Внутриэкспертный шум наблюдается во всех этих ситуациях: лица, ответственные за принятие решений, классифицируют отдельные случаи совершенно по-разному.

Рис. 10. Разложение системного шума на составляющие

Составляющие шума

Разбирая явление внутриэкспертного шума, мы обошли молчанием довольно сложный момент: потенциальную роль случайной ошибки.

Вспомните ваши манипуляции с секундомером. Когда вы раз за разом пытались отмерить десять секунд, результаты были неодинаковыми: вы продемонстрировали внутриэкспертный разброс. Аналогичным образом судьи не назначили бы ровно такие же сроки наказания по 16 делам, если бы им пришлось сделать это в иной ситуации. В самом деле, как мы убедимся далее, если бы первоначальный эксперимент выпал на другой день той же недели, приговоры уже несколько отличались бы. Будь судья в приподнятом настроении из-за счастливого события в жизни дочери или из-за победы любимой спортивной команды накануне, а может, просто потому, что день выдался особенно погожим, приговоры могли бы получиться гораздо мягче. Такой внутриэкспертный разброс концептуально отличается от рассмотренного нами устойчивого межэкспертного разброса, однако отличить их друг от друга довольно сложно. Вариативность, вызванную непостоянными, мимолетными факторами, мы будем называть ситуативным шумом.

В этом исследовании мы практически пренебрегли ситуативным шумом и во время проведения ревизии шумовых помех истолковывали идиосинкразические модели вынесения приговоров выражением устойчивой жизненной позиции судей. Это, безусловно, весьма оптимистическое допущение, но существуют независимые причины полагать, что в данном исследовании ситуативный шум не играл значительной роли. Обладающие солидным опытом судьи, принимавшие участие в эксперименте, без сомнения, использовали свои личные установки о значимости всевозможных характеристик преступлений и подсудимых. В следующей главе мы обсудим ситуативный шум более подробно и покажем, как не спутать его с устойчивым внутриэкспертным шумом.

Итак, мы рассмотрели различные типы шума. Системный шум – нежелательный разброс в суждениях по одному делу, выносимых несколькими экспертами. Мы описали два значимых компонента системного шума, которые можно выделить, когда одни и те же люди дают оценку по нескольким делам:

Межэкспертный шум – разброс в средних значениях суждений, вынесенных различными экспертами.

Внутриэкспертный шум – разброс в отношении экспертов к отдельным делам.

В настоящем исследовании был примерно одинаковый уровень межэкспертного и внутриэкспертного шума. Однако внутриэкспертный шум, в свою очередь, несомненно, содержит некоторую долю ситуативного шума, который можно отнести к случайным ошибкам.

В иллюстративных целях мы рассказали о применении ревизии шума в судебной системе, но точно такой же анализ можно провести на основе ревизии шума в любой сфере – в бизнесе, здравоохранении, государственном управлении или где-то еще. Межэкспертный и внутриэкспертный (включающий ситуативный) виды шума вносят свой вклад в возникновение системного шума, и мы еще не раз к ним вернемся.

К разговору об анализе шума

«Межэкспертный шум возникает, когда разные судьи проявляют различную степень суровости при вынесении приговоров. А когда они не соглашаются друг с другом по поводу того, кто из обвиняемых заслуживает более строгого или мягкого отношения, – это пример внутриэкспертного шума. Его составная часть – ситуативный шум, или случаи, когда судьи противоречат сами себе».

«В идеальном мире обвиняемые представали бы перед справедливым судом, в реальности же они предстают перед системой, полной шума».

Глава 7
Ситуативный шум

Профессиональный баскетболист готовится к штрафному броску: он уже занял позицию на линии. Вот игрок настроился – и пробивает. Он отрабатывал эту последовательность действий бесчисленное количество раз. Окажется ли мяч в корзине?

Мы этого не знаем – как не знает и сам спортсмен. Примерно три четверти бросков в играх Национальной баскетбольной ассоциации обычно попадают в цель. Разумеется, одни игроки результативнее других, однако совсем без промахов не обходится никто. Лучшие в истории54 баскетболисты отправляют в корзину чуть больше 90 % штрафных мячей. (На момент написания этой книги к ним относятся Стефен «Стеф» Карри, Стив Нэш и Марк Прайс.) У игроков с худшими результатами штрафных бросков процент попадания равен примерно 50 %. (Великому Шакилу O’Нилу55 удавалось забрасывать лишь в 53 % случаев.) Хотя кольцо неизменно находится на высоте 10 футов и удалено от штрафной линии на 15 футов, а стандартный вес мяча – 22 унции, воспроизведение последовательности движений, необходимых для результативного броска, дается весьма непросто. В этой ситуации мы ожидаем вариативность – как среди результатов множества спортсменов, так и у одного игрока. Штрафной бросок – тоже своего рода лотерея. Конечно, шансы на успех будут выше, если пробивает Карри, и ниже, если О’Нил, но все равно это не что иное, как лотерея.

Откуда же берется эта вариативность? Нам известно, что на игрока, стоящего на штрафной линии, влияют бесчисленные факторы: усталость от долгой игры, напряжение из-за минимального разрыва в счете, шумная поддержка болельщиков или свист фанатов команды-соперника. Если промахивается игрок уровня Карри или Нэша, мы прибегаем к одному из вышеперечисленных объяснений. Но мы не можем знать наверняка, какую именно роль играют все эти факторы. Разброс в результатах бросков баскетболиста – тоже один из видов шума.

Вторая лотерея

Никого не удивляет разброс в результатах штрафных бросков или в показателях других физических процессов. Мы привыкли, что наше тело время от времени ведет себя по-разному: меняются пульс, давление, рефлекторные реакции, тембр голоса, твердость руки. И как бы мы ни старались точно воспроизвести свою подпись, каждый раз она выходит слегка иной.

Несколько сложнее наблюдать вариативность наших умственных процессов. Конечно, нам всем приходилось менять свое мнение, иногда даже просто так, без явной причины. Фильм, над которым мы до слез смеялись прошлым вечером, сегодня кажется весьма посредственным и проходным. Человек, которого мы вчера строго осуждали, теперь видится нам заслуживающим снисхождения. Довод, который мы находили неудачным и расплывчатым, вдруг становится ясным и принципиально важным. Однако, как подсказывают подобные примеры, обычно такие перемены происходят, когда дело касается незначительных и довольно субъективных вопросов.

На практике наше мнение действительно может поменяться без видимых причин – и это касается даже тщательно взвешенных и выверенных оценок экспертов. Например, нередки случаи, когда врачи, которых дважды знакомили с анамнезом одного пациента, давали два заключения, значительно отличавшихся друг от друга (см. главу 22). Когда на крупном конкурсе вин в США эксперты56 повторно дегустировали одно и то же вино и только в 18 % случаев давали ему одинаковые оценки (обычно это были вина не самого высокого качества). Эксперт-криминалист может прийти к разным выводам, изучив одни и те же отпечатки пальцев дважды с разницей в несколько недель (см. главу 20). Опытные консультанты по программному обеспечению57 могут предложить весьма отличные друг от друга оценки сроков выполнения одного и того же задания, если их спросить об этом дважды в разные дни. Проще говоря, подобно баскетболисту, не способному производить идентичные броски, мы не всегда выносим идентичные оценки, имея дело с одними и теми же фактами повторно.

Мы уже сравнивали процесс назначения андеррайтера, судьи или врача с лотереей, создающей системный шум. Ситуативный шум – продукт второй лотереи. Результаты этой лотереи зависят от конкретного момента вынесения суждения экспертом, от его расположения духа, от набора похожих случаев, которые еще свежи в его памяти, а также от бесчисленных других особенностей ситуации. Вторая лотерея, как правило, намного более абстрактна, чем первая. К примеру, мы можем вообразить, что во время первой лотереи назначается другой андеррайтер, однако возможные альтернативные суждения андеррайтера, назначенного на практике, все так же остаются умозрительными вероятностями. Нам известно лишь то, что окончательное суждение было выбрано из множества возможных. Ситуативный шум – это вариативность среди этих неявных возможностей.

Измерение уровня ситуативного шума

Измерить уровень ситуативного шума непросто во многом по той же причине, по которой новость о его существовании часто является для нас сюрпризом. Тщательно обдумывая свое профессиональное мнение, эксперты подбирают доводы, которые выступают в качестве подходящего обоснования их суждения. Если им приходится объяснять свое решение, они обычно прибегают к аргументам, которые находят убедительными. Когда же экспертам предлагают решить эту проблему повторно и при этом они ее узнаю`т, они воспроизводят ответ, данный ранее, с целью свести свои усилия к минимуму и обеспечить последовательность. Вот наглядный пример из сферы образования: если учитель ставит студенту за сочинение «отлично», а спустя неделю перечитывает работу и видит свою первоначальную оценку, маловероятно, что теперь он оценит это сочинение по-другому.

По этой причине, если задачи, которые решают эксперты, легко запомнить, измерить ситуативный шум напрямую довольно непросто. К примеру, если показать андеррайтеру или судье дело, по которому они уже вынесли решение, скорее всего, они смогут его узнать и просто повторить свое предыдущее заключение. Один обзор исследований вариативности в профессиональных суждениях (формально известный как «ретестовая надежность») включал множество экспериментов, в которых специалистам дважды предлагалось сделать заключение по одному и тому же вопросу в течение одной сессии. Нет ничего удивительного в том, что испытуемые не противоречили сами себе58.

В экспериментах, упомянутых нами ранее в этой главе, эту проблему удалось обойти, усложнив специалистам узнавание ранее виденных задач. Винные эксперты проводили дегустацию вслепую. Дактилоскопистам показывали уже проанализированные ими отпечатки пальцев, а экспертов по программному обеспечению спрашивали о задачах, над которыми они работали ранее, только делалось это несколько недель или месяцев спустя после первого предъявления, к тому же испытуемых не поставили в известность о том, что с этими данными они уже сталкивались.

Существует еще один, более косвенный, способ подтвердить присутствие ситуативного шума: можно воспользоваться большими данными и методами эконометрии. Если у нас имеется большой объем данных о решениях, принятых профессионалами, иногда аналитики могут проверить, подвергались ли они влиянию ситуативных, несущественных факторов, таких как время суток или температура воздуха. Статистически значимое влияние подобных факторов на вынесение решений – свидетельство ситуативного шума. Если оценивать обстановку реально, на то, что все источники ситуативного шума будут найдены, особенной надежды нет, однако те, что обнаружить все-таки можно, демонстрируют, насколько велико их разнообразие. Чтобы научиться контролировать ситуативный шум, нужно попытаться понять порождающие его механизмы.

Один в поле воин

Ответьте на такой вопрос: какой процент мировых аэропортов сосредоточен в США? Когда вы над этим задумались, вероятно, вам в голову пришел некий ответ. Но это нельзя сравнить с вызыванием в памяти вашего возраста или номера телефона. Вы знаете, что эта оценка приблизительна. И все же это число не случайно: вы понимаете, что, дав ответ 1 % или 99 %, вы явно ошибетесь. При этом ваша прикидка находится в целом ряду возможных альтернатив, которые вы не стали бы исключать. Если бы к вашему варианту ответа прибавили или отняли один процентный пункт, вероятно, вы не сочли бы результат намного более правдоподобным. (Если вам любопытно, правильный ответ59 32 %.)

Два исследователя, Эдвард Вул и Гарольд Пашлер60, решили попробовать задать этот вопрос (и множество ему подобных) не один раз, а дважды. В первый раз испытуемым не сообщали, что им придется отвечать на этот же вопрос снова. Вул и Пашлер предположили, что средняя величина значений двух ответов будет точнее, чем каждый ответ, взятый по отдельности.

Данные эксперимента подтвердили их гипотезу. В целом первый ответ был точнее61, чем второй, но самой точной оценкой оказалось их среднее арифметическое.

В своем исследовании Вул и Пашлер опирались на хорошо известное явление под названием «мудрость толпы»: усреднение значений независимых оценок разных экспертов обычно приводит к повышению точности. В 1907 году Фрэнсис Гальтон, знаменитый исследователь-эрудит, приходившийся родственником Дарвину, обратился к 787 деревенским жителям с предложением отгадать вес быка-рекордиста на сельской ярмарке. Точный вес быка (1198 фунтов) никто из крестьян назвать не смог, однако среднее арифметическое их ответов равнялось 1200, всего на 2 фунта больше верного ответа, а медиана – 1207, что тоже почти рядом. Эти крестьяне и были «мудрой толпой»: хотя их ответы по отдельности содержали много шума, смещения в них не было. Гальтон был удивлен таким результатом, ведь он был не слишком высокого мнения о способности простонародья к здравомыслию, однако ему поневоле пришлось заявить, что результаты эксперимента «оказались более достойным подтверждением надежности решения, принятого демократическим путем, чем того можно было ожидать».

В сотнях других ситуаций результаты суждений «толпы» оказываются похожими. Конечно, если задаваемые вопросы настолько сложны, что достоверный ответ могут дать только эксперты, коллективный разум будет прав далеко не всегда. Но если, к примеру, люди угадывают количество конфет в прозрачной банке, или пытаются предсказать погоду в их городе через неделю, или прикидывают расстояние между двумя городами в одном из штатов, среднее арифметическое ответов большого количества людей, скорее всего, будет близким к правде.

Это можно объяснить простой статистикой: когда мы усредняем несколько независимых суждений (или измерений), мы получаем новую, менее шумную62, хотя и не менее смещенную, чем отдельно взятые суждения, оценку.

Вул и Пашлер захотели выяснить, будет ли тот же эффект иметь место в случае с ситуативным шумом, а именно: можно ли подобраться к истинному значению ближе, усреднив значения двух ответов одного человека – точно так же, как при усреднении ответов разных людей? Обнаружилось, что это действительно так. Вул и Пашлер дали полученным результатам выразительное название внутренняя толпа.

Усреднение двух ответов одного человека не оказывает такого же положительного воздействия на точность, как использование независимого второго мнения. Вул и Пашлер писали об этом так: «Если вы зададите себе один и тот же вопрос дважды, польза от этого63 будет в десять раз меньше, чем если вы спросите мнение другого человека». Спрашивать себя повторно не слишком эффективно, но это можно исправить, если выждать какое-то время, прежде чем отвечать на вопрос второй раз. Вул и Пашлер задавали испытуемым один тот же вопрос по прошествии трех недель – результаты такой тактики были уже несколько точнее: лишь в три раза меньше, чем использование второго мнения. Не слишком плохой показатель для метода, не требующего дополнительных данных или сторонней помощи. И конечно, такой результат объясняет значение старой доброй рекомендации всем тем, кому предстоит принять решение: «Утро вечера мудренее».

Работая над проблемой практически одновременно, но независимо от Вула и Пашлера, два немецких исследователя, Стефан Херцог и Ральф Хертвиг64, предложили другое применение принципа «внутренней толпы». Они не только задавали испытуемым вопрос повторно, но вдобавок просили дать ответ, который будет максимально отличаться от первого, не теряя при этом правдоподобия. Такая постановка задачи заставила участников эксперимента задуматься о моментах, которым они не придали значения в первый раз. Инструкция по выполнению задания звучала следующим образом:

Шаг первый: представьте, что ваш первоначальный ответ ошибочен. Шаг второй: найдите несколько возможных объяснений этой ошибки. Какие из ваших предварительных допущений или рассуждений могли быть неверны? Шаг третий: подумайте, какой вывод можно сделать на этой основе? Была ли ваша первая оценка завышена или занижена? Шаг четвертый: посмотрев на проблему с новой точки зрения, дайте альтернативный ответ.

Подобно Вулу и Пашлеру, Херцог и Хертвиг усреднили значения двух полученных ответов. Исследователи назвали этот метод диалектическим бутстрэпингом[8]. Результаты его применения оказались гораздо точнее, чем результаты эксперимента, участники которого просто давали первый и второй ответы один за другим. Поскольку испытуемым пришлось посмотреть на задачу в новом свете, они как бы задали тот же вопрос другой версии себя – таким образом, над задачей думали два человека из «внутренней толпы», чьи мнения несколько отличались. В итоге среднее значение ответов оказалось ближе к истинному. При подходе с «диалектическими» оценками точность снижается только в два раза по сравнению с использованием мнения другого человека.

Подводя итог результатам исследования, Херцог и Хертвиг говорят о том, что, принимая решение, вы оказываетесь перед выбором между разными процедурами. Если есть возможность получить независимую оценку других экспертов, воспользуйтесь ею: настоящая «мудрость толпы» имеет высокие шансы улучшить результат. Если вы не можете этого сделать, подумайте над вторым ответом сами, создавая эффект «внутренней толпы». Вторую попытку можно осуществить по прошествии времени, тем самым несколько дистанцируясь от своего первого мнения, или же попытаться критически подойти к своей первой оценке, посмотрев на задачу под другим углом. И наконец, вне зависимости от того, помощью какой «толпы» вы воспользуетесь, если у вас нет веской причины выбрать один из вариантов, самы

Посвящается Саманте – КРС

Daniel Kahneman, Olivier Sibony and Cass R. Sunstein

NOISE:

A Flaw in Human Judgment

Перевод с английского

А. Котовой (I–II части),

С. Селифоновой (III–IV части),

В. Тулаева (V–VI части, приложения)

Печатается с разрешения авторов и литературного агентства Brockman, Inc.

Исключительные права на публикацию книги на русском языке принадлежат издательству AST Publishers.

© Daniel Kahneman Amended and Restated Family Trust, Olivier Sibony, and Cass R. Sunstein, 2021

Школа перевода В. Баканова, 2021

© Издание на русском языке AST Publishers, 2021

Введение

Два вида ошибок

Представьте, что в стрелковый тир пришли четыре компании друзей. В компаниях по пять человек; они получают по винтовке на команду, и каждый участник производит один выстрел. Результаты показаны на рисунке 1.

В идеале все выстрелы попали бы точно в «десятку».

Рис. 1. Четыре команды

У команды А почти так и вышло: все попадания сгруппировались возле цели.

Результаты команды B можно назвать смещенными, поскольку все промахи легли по одну сторону от «яблочка». Систематичность промахов, наглядно представленная на рисунке, позволяет предположить, что очередной выстрел пришелся бы недалеко от первых пяти, а также что у винтовки, возможно, попросту сбит прицел.

Результаты команды C мы назовем шумными: попадания разбросаны по всей мишени. Поскольку они все-таки сосредоточены преимущественно вокруг центра, очевидного смещения не наблюдается. Если участник команды выстрелит снова, мы едва ли сможем предугадать, куда он попадет. Более того, нам не удастся выдвинуть никакой содержательной гипотезы, чтобы объяснить подобный результат. Эта команда стреляет плохо. Почему в их результатах столько шума – неизвестно.

У команды D результаты смещенные и шумные одновременно: систематические промахи, как у команды B, и широкий разброс, как у команды C.

Впрочем, эта книга не про стрельбу по мишеням – она про человеческие ошибки. Смещение и шум, или, другими словами, систематические отклонения и случайный разброс, – это составляющие ошибок. Пример с мишенями наглядно показывает1, в чем между ними отличие.

Стрельба по мишени – образное представление сбоев в процессе вынесения людьми суждений, особенно когда принимаются всевозможные решения в интересах организаций. Тогда-то и происходят те самые ошибки с рисунка 1. Одни суждения содержат смещения и систематически не попадают в цель. Другие можно назвать шумными: вместо согласованных действий мы видим попадания, разбросанные по всей мишени. К несчастью, для многих организаций характерны оба типа ошибок.

На рисунке 2 показано важное отличие между смещением и шумом. Представьте, что вы заглядываете на оборотную сторону мишеней, по которым стреляли наши команды, где «яблочко» не обозначено.

С этой стороны вы не определите, кто оказался ближе к «десятке»: команда А или команда B. Зато сразу же понятно, что шумный результат именно у команд С и D, ведь разброс попаданий здесь так же очевиден, как и на рисунке 1. Шум можно обнаружить и измерить, даже ничего не зная ни о цели, ни о смещении, – это одно из его основных свойств.

Рис. 2. Оборотная сторона мишеней

Вышеупомянутое свойство шума весьма существенно для целей этой книги. Ко многим заключениям мы пришли, изучая суждения, о справедливости которых мы не имеем ни малейшего понятия. Если диагнозы разных врачей пациенту не совпадают, мы вполне можем исследовать расхождения в медицинских заключениях, не владея информацией о том, чем на самом деле болен этот человек. Разницу в оценках рыночной стоимости фильма кинопродюсерами можно изучить, не будучи в курсе, какую кассу в итоге сделал фильм или был ли он вообще снят. Нет нужды знать, кто прав, чтобы определить, насколько при этом разнятся оценки. Чтобы измерить уровень шума, нужно всего лишь заглянуть на оборотную сторону мишени.

Понять природу ошибочных суждений невозможно без понимания сущности смещения и шума. Как мы убедимся далее, порой основную проблему представляет собой именно шум. Однако в организациях по всему миру, а также при проведении общественных дискуссий ему редко уделяется должное внимание. Главную роль всегда отводят смещению, а шуму достается удел жалкого статиста. О смещении написаны тысячи научных работ и десятки бестселлеров, а шум при этом едва упоминается. С помощью этой книги мы попытаемся установить равновесие.

Зачастую, когда решения принимаются на практике, уровень шума просто зашкаливает. Вот несколько примеров пугающих масштабов шума в ситуациях, где суждения должны быть безошибочными:

• Шум в медицине. Врачи могут сильно расходиться во мнениях по поводу диагноза одному и тому же пациенту. Такие ситуации нередки с диагностированием рака кожи, груди, болезней сердца, туберкулеза, пневмонии, депрессии и целого ряда других заболеваний. Особенно высок уровень шума в психиатрии, где без субъективных суждений просто не обойтись. Вместе с тем на удивление заметный уровень шума наблюдается даже в таких областях медицины, как, например, чтение рентгеновских снимков.

• Шум при вынесении решений об опеке2. Специалисты органов по защите малолетних должны оценить, угрожает ли ребенку жестокое обращение, и если да, передать его приемным родителям. В системе опеки уровень шума весьма значителен: некоторые специалисты гораздо охотнее, чем коллеги, направляют детей в приемные семьи. Годы спустя несчастные дети, чью судьбу решили более жесткие сотрудники, поместив их под опеку, совершают больше правонарушений, чаще рожают в подростковом возрасте и имеют в дальнейшем более низкие доходы.

• Шум в прогнозировании. Мнения профессиональных прогнозистов не совпадают касательно ожидаемых объемов продаж нового продукта, предполагаемого роста безработицы, вероятности банкротства проблемных компаний – в общем, чего угодно. Прогнозисты противоречат не только друг другу, но даже сами себе. К примеру, когда одних и тех же разработчиков программного обеспечения3 дважды в разные дни попросили оценить сроки выполнения одного и того же задания, их оценки в среднем отличались на 71 %.

• Шум в решениях о предоставлении убежища4. Подача прошения об убежище в США чем-то сродни лотерее. При изучении дел, случайным образом распределенных между разными судьями, обнаружилось, что один судья предоставлял убежище 5 % просителей, тогда как другой – 88 %. Исследование носит красноречивое название: «Рулетка для беженцев». (О рулетке мы с вами еще поговорим, и не раз.)

• Шум в кадровых вопросах. Специалисты, проводящие собеседования, совершенно по-разному оценивают одних и тех же соискателей. Оценки производительности труда персонала тоже сильно различаются и в большей степени зависят от личности оценивающего, чем от продуктивности сотрудника.

• Шум в решениях об освобождении под залог. Выпустят ли обвиняемого под залог или оставят ожидать суда в тюрьме, отчасти зависит от судей, слушающих дело: некоторые из них проявляют заметно бо́льшую снисходительность. Судьи также весьма по-разному оценивают вероятность побега или повторного правонарушения подсудимых.

• Шум в криминалистике. Мы привыкли безоговорочно доверять идентификации по отпечаткам пальцев. Но специалисты в этой области иногда расходятся во мнениях о том, совпадают ли отпечатки с места преступления с отпечатками подозреваемого. Эксперты могут не только не соглашаться друг с другом, но даже делать непоследовательные выводы по поводу одних и тех же отпечатков. Документально подтверждены подобные расхождения и в других областях судебной медицины, в частности даже при анализе ДНК.

• Шум при выдаче патентов5. Авторы ведущего исследования о патентных заявках подчеркивают роль шума: «Результат подачи заявки на патент в значительной степени зависит от того, кому поручено ее рассмотрение». С точки зрения беспристрастности такая вариативность, конечно же, вызывает озабоченность.

Все эти ситуации – лишь верхушка огромного айсберга. Когда имеешь дело с человеческими суждениями, вероятность обнаружить шум весьма велика. Повысить качество суждений можно, только устранив как шум, так и смещение.

Эта книга состоит из шести частей. В части I мы исследуем разницу между шумом и смещением и демонстрируем присутствие шума в деятельности как государственных, так и частных организаций, причем порой его уровень может быть ошеломляюще высоким. Чтобы оценить проблему, мы начинаем с рассмотрения суждений в двух сферах. Первая – вынесение уголовных приговоров (государственный сектор), вторая – страхование (частный сектор). На первый взгляд области совсем разные, но, когда дело касается шума, у них оказывается много общего. Чтобы это подтвердить, мы предлагаем процедуру ревизии шумовых помех, которая позволяет измерить уровень разногласий среди профессионалов по определенным вопросам внутри одной организации.

В части II мы изучаем природу человеческих суждений и выясняем, как можно измерить их точность или ошибочность. Суждениям свойственны как смещение, так и шум – и мы демонстрируем, что влияние обоих типов ошибок может быть на удивление равноценным. Ситуативный шум – это разброс в суждениях одного человека или группы по одному и тому же вопросу в разное время. На удивление часто такой шум возникает в групповых обсуждениях под воздействием, казалось бы, незначительных факторов, например очередности выступлений.

Часть III – это более пристальный взгляд на уже хорошо изученный вид суждений: прогнозные оценки. Мы исследуем важнейшее преимущество правил, формул и алгоритмов перед человеком в деле составления прогнозов. Вопреки расхожему мнению, превосходство правил заключается не в том, что они лучше помогают вникнуть в суть вопроса, а в том, что они не производят шума. Мы обсуждаем абсолютный предел, который, как и шум, ограничивает качество прогнозных суждений: объективную неосведомленность о будущем. Напоследок мы отвечаем на вопрос, которым вы к тому моменту уже наверняка зададитесь: если шум настолько вездесущ, почему мы не замечали его раньше?

В части IV мы обращаемся к человеческой психологии и объясняем главные причины шума. К ним относятся межличностные различия, возникающие вследствие разнообразных факторов: качеств характера, когнитивного стиля, особенностей взвешивания «за» и «против» во время принятия решений, разницы в восприятии одинаковых шкал. Мы отвечаем на вопрос, почему люди не замечают шум и зачастую совсем не удивляются, когда происходят события или принимаются решения, предвидеть которые они никак не могли.

В части V исследуется практический вопрос: как улучшить суждения и предотвратить ошибки? (Читатели, которых интересует главным образом применение методов снижения шума на практике, могут пропустить обсуждение проблем прогнозирования и психологии суждений в частях III и IV и сразу перейти к этой.) Мы изучаем попытки справиться с шумом в медицине, бизнесе, образовании, управлении и других сферах и предлагаем несколько методов снижения уровня шума под общим названием гигиена принятия решений. Пять тематических исследований, проведенных в областях деятельности с высоким уровнем шума, продемонстрируют активные усилия, приложенные по его снижению – с различной степенью успеха, – что весьма поучительно. Сюда включены исследования недостоверных медицинских диагнозов, оценок показателей производительности, ошибок в криминалистике, в кадровых вопросах и в прогнозировании в целом. В завершение мы предлагаем систему, которую назвали протоколом промежуточных оценок. Это универсальный подход к оценке имеющихся вариантов, включающий в себя самые важные методы в процедуре гигиены принятия решений. Он ставит своей целью снижение уровня шума и повышение надежности суждений.

Каков оптимальный уровень шума? Об этом мы поговорим в части VI. Как ни парадоксально, полное отсутствие шума – это не лучший вариант. В одних областях просто невозможно избавиться от шума полностью, в других это слишком дорого. Есть сферы, в которых попытки снизить уровень шума поставят под угрозу другие важные ценности. К примеру, можно подорвать моральный дух и заставить людей чувствовать себя винтиками в большой машине. Когда частью решения проблемы становятся алгоритмы, возникают всевозможные возражения, и в этой главе мы попытаемся рассмотреть некоторые из них. И все же наблюдаемый сейчас уровень шума во многих областях деятельности просто недопустим. Мы призываем государственные и частные структуры провести ревизию шума и принять беспрецедентные усилия по его снижению. Если это удастся, можно будет частично устранить повсеместную несправедливость и сократить многие издержки.

Рассчитывая на осуществление такого сценария, мы заканчиваем каждую главу краткими предложениями в виде цитат. Можете использовать их без изменений или адаптировать для соответствующей области применения – будь то здравоохранение, безопасность, образование, финансы, сфера занятости, индустрия развлечений или любая другая. Коллективные усилия, направленные на изучение и решение проблемы шума, все еще продолжаются. У всех нас есть возможность внести в эту работу свой вклад, и эта книга написана в надежде, что мы ею воспользуемся.

Часть I

Как обнаружить шум

Совершенно недопустимо, чтобы правонарушители, осужденные за одинаковые преступления, получали несопоставимые приговоры, к примеру, один – пять лет тюрьмы, а другой – условный срок. Однако подобное происходит сплошь и рядом. Конечно, для системы уголовного правосудия характерно также и смещение, вызванное предвзятостью. Но в главе 1 речь пойдет о шуме и, в частности, о том, что произошло, когда известный судья привлек к этой проблеме внимание, назвал ситуацию возмутительной и положил начало кампании, в каком-то смысле изменившей мир (но не совсем). Наша история разыгралась в США, но, без сомнения, подобное может и будет случаться во многих других странах. В некоторых из них проблема шума, вероятно, еще серьезнее, чем в Соединенных Штатах. Мы использовали пример с вынесением приговоров отчасти для того, чтобы продемонстрировать, как шум способен стать причиной вопиющей несправедливости.

Сфера вынесения уголовных наказаний исполнена особого драматизма, однако и в частном секторе ставки могут быть весьма высоки. В качестве иллюстрации в главе 2 мы рассмотрим пример с большой страховой компанией. В таких организациях страховщики устанавливают для потенциальных клиентов размер взноса, а оценщики убытков подсчитывают причитающиеся страховые выплаты. Казалось бы, это простая механическая работа и разные специалисты приходят примерно к одним и тем же цифрам. Чтобы это проверить, мы провели тщательно подготовленный эксперимент – ревизию шума. Результаты удивили нас самих, но, что еще важнее, поразили и привели в ужас руководство компании. Высокий уровень шума в работе специалистов, как выяснилось, стоит компании огромных денег. Мы используем этот пример, чтобы показать, как шум способен приводить к крупным экономическим убыткам.

В вышеупомянутых примерах множество людей выносит множество суждений. Но многие важные суждения уникальны. Как не упустить редкую возможность для бизнеса, стоит ли запускать новый продукт, как справиться с пандемией, брать ли на работу нестандартного кандидата – могут ли быть шумными решения в подобных, особенных, ситуациях? Напрашивается предположение, что нет. Ведь шум – это нежелательный разброс, а разве в принятии уникальных решений может быть место разбросу? Мы попытаемся ответить на этот вопрос в главе 3. Решение, принимаемое даже в, казалось бы, уникальной ситуации, – лишь одно из ряда возможных. Здесь тоже есть место шуму.

Первые три главы можно подытожить фразой, которая красной нитью пройдет через всю книгу: там, где есть место суждению, найдется и шум – и его намного больше, чем вы думаете. Давайте же посмотрим, сколько именно.

Глава 1

Преступление и шумное наказание

Допустим, человека осудили за совершение преступления – кражу в магазине, хранение наркотиков, нанесение телесных повреждений или вооруженное ограбление. Каким будет приговор?

Ответ на этот вопрос не должен зависеть ни от настроения судьи, ни от погоды, ни от успехов местной спортивной команды накануне рассмотрения дела. Разве не чудовищно, когда три человека, осужденные за одинаковые преступления, получают совершенно разные наказания: первый отделывается условным сроком, второму дают два года тюрьмы, а третьего сажают на десять лет? И все же такая вопиющая несправедливость характерна для многих государств – и это не дела давно минувших дней, а сегодняшняя реальность.

Во всем мире судьи имеют возможность свободно решать, насколько суровым должен быть приговор. Эксперты многих стран приветствуют эту свободу действий как справедливую и гуманную. Считается, что при вынесении уголовных приговоров нужно учитывать множество факторов, среди которых не только само преступление, но и личность обвиняемого, а также сопутствующие обстоятельства. Индивидуальный подход долго был в порядке вещей: если связывать судей правилами, обращение с преступниками станет бесчеловечным, ведь подсудимые перестанут быть уникальными личностями, имеющими право на рассмотрение особых обстоятельств их ситуации. Многим казалось, что сама идея надлежащего судебного разбирательства требует неограниченной свободы усмотрения для судей.

В 1970-е годы всеобщий энтузиазм по поводу судебного усмотрения начал угасать по одной простой причине: стали очевидными пугающие проявления шума. В 1973 году внимание к проблеме привлек известный судья Марвин Франкел. Еще до того как стать судьей, Франкел защищал свободу слова, горячо выступал за права человека и помог основать международную правозащитную организацию Lawyers’ Committee for Human Rights, известную сейчас как Human Rights First.

Франкел умел быть беспощадным. Когда же дело касалось шума в системе уголовного правосудия, он приходил в полнейшее негодование. Вот как он объяснял свои мотивы6:

Максимальный тюремный срок за ограбление федерального банка равнялся 25 годам. На практике приговор мог быть любым, в диапазоне от 0 до 25 лет. Скоро я осознал, что это зависит не столько от обстоятельств дела конкретного обвиняемого, сколько от личности судьи, его взглядов, наклонностей и предубеждений. Приговор одному и тому же обвиняемому по одному и тому же делу мог кардинально отличаться в зависимости от того, какой судья рассматривал дело.

Для подтверждения своих доводов Франкел не предоставил никакой статистической информации, однако привел ряд весьма убедительных примеров того, как в схожих ситуациях с людьми обращались по-разному безо всяких на то оснований. Двоих мужчин без уголовного прошлого осудили за обналичивание поддельных чеков на 58,40 и 35,20 доллара соответственно. Первого приговорили к 15 годам, а второго – к 30 дням тюремного заключения. За тождественные деяния, повлекшие растрату имущества, один обвиняемый отделался 117 днями, тогда как другой получил 20 лет. Указывая на бесчисленные дела такого толка, Франкел сетовал на «практически неограниченные широкие полномочия»7 федеральных судей, приводящие к «ежедневному произволу жестокости»8, что считал недопустимым в «системе, где правят законы, а не люди»9.

Франкел призвал конгресс покончить с «дискриминацией» – так он называл подобный произвол жестокости. Под «дискриминацией» в основном имелся в виду шум – необъяснимые расхождения при вынесении приговоров. При этом Франкел также выразил обеспокоенность смещением в виде расового и социально-экономического неравенства. Он утверждал, что для победы над смещением и шумом все подсудимые по уголовным делам должны получать одинаковое обращение, если только различия не «обоснованы соответствующими критериями, которые можно сформулировать и применить с достаточной степенью объективности, для того чтобы результаты не превращались в идиосинкразические указы10 отдельных чиновников, судей и прочих». (Термин «идиосинкразические указы»[1] может быть не всем понятен: Франкел имел в виду произвольные постановления, продиктованные личными предпочтениями.) Более того, Франкел выступал за снижение уровня шума при помощи «подробного списка параметров или перечня факторов, по возможности включающего числовую или другую объективную градацию»11.

Поскольку дело было в начале 1970-х, он не стал заходить настолько далеко, чтобы выступать за «вытеснение человека машиной», хотя был поразительно к этому близок. Франкел полагал, что «верховенство права требует свода универсально применимых безличных правил, обязательных как для судей, так и для всех остальных». Он открыто призывал использовать «компьютеры для упорядочивания мыслительного процесса12 при назначении наказаний» и рекомендовал сформировать комиссию по приговорам13.

Книга Франкела стала одной из самых влиятельных в истории уголовного права не только в США, но и во всем мире, однако ее недостатком был несколько неформальный характер. Книга получилась разгромной, но субъективной. Чтобы подвергнуть идею шума испытанию, несколько исследователей сразу же бросились изучать уровень шума в сфере вынесения приговоров.

Одно из первых широкомасштабных исследований под руководством самого судьи Франкела провели в 1974 году. Пятидесяти судьям из разных округов предложили гипотетические дела, по которым требовалось назначить наказание. По всем делам были подготовлены идентичные характеристики подсудимых. Основным итогом стало «повсеместное отсутствие консенсуса»14 и «поразительный»15 разброс в выборе наказания. В зависимости от судьи наркодилер16 мог получить от года до десяти лет тюрьмы. Наказание за ограбление банка17 могло составить от пяти до восемнадцати лет лишения свободы. В деле о вымогательстве18 один судья назначил целых двадцать лет и 65 000 долларов штрафа, а другой – всего лишь три года безо всякого штрафа. Самое поразительное, что судьи так и не пришли к единому мнению по поводу необходимости лишения свободы в 16 делах из 20.

За этим изысканием последовала серия других – и все они выявили катастрофический уровень шума. В 1977 году Уильям Остен и Томас Уильямс опросили 47 судей19, предложив тем рассмотреть пять дел о мелких правонарушениях. Описания дел включали информацию, которую судьи обычно используют при вынесении настоящих приговоров: предъявленные обвинения, свидетельские показания, наличие судимости, социальное положение и личные характеристики подсудимых. Авторы пришли к выводу о «существенных расхождениях» в приговорах. К примеру, в деле о взломе приговоры варьировались от пяти лет заключения до каких-то тридцати дней (плюс штраф в 100 долларов). В деле о хранении марихуаны одни судьи предлагали тюремное заключение, другие выступали за условный срок.

В еще более крупном исследовании20 1981 года участвовали 208 федеральных судей, которым предлагалось рассмотреть одинаковый набор из 16 гипотетических дел. Выводы исследования потрясают:

Лишь в 3 из 16 дел судьи оказались единогласны в решении приговорить обвиняемых к тюремному заключению. Когда же большинство приходило к выводу о необходимости лишения свободы, в рекомендуемых сроках заключения наблюдался значительный разброс. В деле о мошенничестве средняя величина назначенного тюремного срока составила 8,5 года, при этом самым суровым приговором оказалось пожизненное заключение. В другом деле со средним сроком в 1,1 года самой суровой рекомендацией было лишение свободы на 15 лет.

Какими бы показательными ни были эти исследования, они представляют собой строго контролируемые эксперименты и почти наверняка не отражают истинных масштабов проблемы шума в уголовном правосудии. В реальном мире судьи располагают гораздо бо́льшими объемами информации, чем участники экспериментов, которых снабдили тщательно подготовленными краткими описаниями дел. Что-то из этого информационного потока может оказаться полезным, но многое свидетельствует о том, что несущественная информация – небольшие и, казалось бы, случайные факторы – способны значительно изменить результат рассмотрения дела. Например, как выяснилось, судьи с большей вероятностью предоставляют условно-досрочное освобождение с утра или после обеденного перерыва. Голодные судьи21 более суровы.

Исследование тысяч решений суда по делам несовершеннолетних22 выявило, что, когда в выходные местная футбольная команда проигрывает, в понедельник судьи выносят более строгие приговоры (а также, хотя и в меньшей степени, в течение всей недели). Это особенно сильно сказывается на чернокожих подсудимых. Другое исследование проанализировало 1,5 миллиона судебных решений за более чем тридцать лет и также обнаружило, что судьи менее снисходительны23 на следующий день после проигрыша, чем после победы местной футбольной команды.

Анализ шести миллионов приговоров, вынесенных во Франции за двенадцать лет, показал, что к подсудимым относятся более мягко в дни рождения24. (Имеются в виду дни рождения подсудимых. Мы подозреваем, что в свой день рождения судьи также проявляют больше снисхождения, но, насколько нам известно, эту гипотезу пока никто не проверял.) Даже такой на первый взгляд незначительный фактор, как погода25, может повлиять на решение судьи. В результате обзора 207 000 решений иммиграционного суда, вынесенных за четыре года, была замечена существенная роль колебаний дневной температуры: в жаркие дни вероятность получить политическое убежище снижалась. Если на родине вас преследуют по политическим мотивам и вы ищете убежище, надейтесь, а лучше молитесь, чтобы ваше слушание состоялось в прохладный день.

Снижение уровня шума при назначении наказаний

В 1970-е годы доводы Франкела и поддерживающие их эмпирические выводы привлекли внимание Эдварда Мура Кеннеди, брата убитого президента и одного из наиболее влиятельных членов американского сената. Кеннеди был потрясен. Уже в 1975 году он внес законопроект о реформе назначения наказаний, но тогда это ни к чему не привело. Однако Кеннеди не сдавался: указывая на все имевшиеся свидетельства, он упорно, год за годом пытался провести законопроект. Наконец в 1984 году это удалось. Приняв во внимание доказательства необоснованных расхождений при вынесении приговоров, конгресс принял Закон о реформе системы назначения наказаний.

Новый закон должен был снизить уровень шума в системе, сократив «неограниченные дискреционные полномочия26, которыми закон наделяет судей и органы по условно-досрочному освобождению, ответственных за вынесение и исполнение приговоров». В частности, члены конгресса ссылались на «неоправданно высокую» дифференциацию при определении меры наказания27, цитируя результаты исследования о том, что в Нью-Йорке наказания за идентичные преступления могут варьироваться в диапазоне от трех до двадцати лет лишения свободы. Как когда-то настаивал судья Франкел, была создана Комиссия США по вопросам назначения наказаний, перед которой стояла четкая задача: разработать обязательные рекомендации о порядке вынесения приговоров с целью ограничить диапазон уголовных наказаний.

В следующем году, после анализа 10 000 дел, комиссия разработала эти рекомендации, взяв за основу средние сроки тюремного заключения за схожие преступления. Судья Верховного суда Стивен Брайер, принимавший активное участие в этом процессе, выступил в защиту традиционной практики28, указывая на трудноразрешимые разногласия внутри самой комиссии: «Почему мы просто не сели и не попытались все упорядочить и изучить? Да потому что это невозможно. Невозможно, так как мы располагаем вескими, но разрозненными свидетельствами, которые доказывают противоположные вещи… Попробуйте-ка расставить друг за другом все преступления от незначительного до заслуживающего самого сурового наказания… Затем попросите друзей сделать то же самое и сравните результаты. Уверяю вас, они будут совсем не похожими».

Согласно рекомендациям, при назначении наказания судье следует учитывать два фактора: само преступление и уголовное прошлое подсудимого. В зависимости от серьезности преступлениям присваивается одна из 43 степеней тяжести. Под уголовным прошлым главным образом понимается количество и срок вынесенных ранее обвинительных приговоров. На основе сложения этих двух факторов рекомендации предлагают относительно узкий диапазон наказаний. Верхний предел этого диапазона может превышать нижний лишь на шесть месяцев или на 25 % – при этом выбирается наибольшее значение из двух. Отклониться от этого диапазона судьи могут при наличии отягчающих или смягчающих обстоятельств, обосновав свое решение29 в апелляционном суде.

Несмотря на обязательность, рекомендации нельзя назвать абсолютно жесткими. Они не настолько радикальны, как того желал Франкел, и у судей остается значительное пространство для маневра. Тем не менее несколько исследований, проведенных с применением различных методов и охватывавших различные исторические периоды, пришли к одному и тому же заключению: рекомендации снижают уровень шума. Выражаясь формально, «они сокращают чистую изменчивость30 в приговорах, случайно обусловленную личностью судьи, назначающего наказание».

Наиболее подробное исследование провела сама комиссия31. Изучив дела, связанные с ограблением банков, распространением кокаина и героина, а также с банковскими хищениями, комиссия сравнила приговоры, вынесенные по таким делам в 1985 году (до введения рекомендаций), с приговорами, вынесенными между 19 января 1989 года и 30 сентября 1990 года. Правонарушителей для исследования подбирали с учетом факторов, которые, согласно рекомендациям, имели отношение к вынесению приговора. После принятия Закона о реформе системы назначения наказаний расхождений в приговорах по каждому из рассмотренных типов преступлений оказалось гораздо меньше.

Согласно другому исследованию32, ожидаемая разница в сроках тюремного заключения, назначенных разными судьями, составляла 17 %, или 4,9 месяца, в 1986 и 1987 годах. Эта разница сократилась до 11 %, или 3,9 месяца, между 1988 и 1993 годами. Независимое исследование33, затронувшее различные временные периоды, также выявило положительные сдвиги. Сравнение разницы в длине тюремных сроков, назначенных судьями со сходной рабочей нагрузкой, подтвердило сокращение расхождений между приговорами.

Несмотря на такие результаты, на рекомендации обрушился целый поток критики. Одни, включая значительное число судей, посчитали, что отдельные приговоры были слишком суровыми – камень в огород смещения, а не шума. Для наших целей более интересное возражение, поступившее от многочисленных судей, состояло в том, что рекомендации приводили к огромной несправедливости, так как не давали судьям должным образом учитывать все обстоятельства дела. Уровень шума снижался ценой превращения судейских решений в механические, что было неприемлемо. Профессор права Йельского университета Кейт Стит и федеральный судья Хосе Кабранес писали, что «нужна не слепая беспристрастность34, а понимание и справедливость», которые возможны, «только когда при вынесении приговора учитываются все нюансы каждого конкретного случая».

Из-за подобных возражений рекомендации оказались под серьезной угрозой, отчасти вследствие законодательных проблем, отчасти политических. Тем не менее им удалось просуществовать до 2005 года, когда по чисто техническим причинам, никак не связанным с вышеописанной полемикой, их отменил Верховный суд35, оставив за ними лишь консультативную функцию. Что примечательно, большинство федеральных судей были очень довольны таким решением. Консультативный статус рекомендаций оказался предпочтительнее для 75 % судей36, тогда как только 3 % отдавали предпочтение прежнему, обязательному.

К чему же привела смена статуса рекомендаций с обязательного на консультативный? Ответ на этот вопрос изучила профессор права Гарвардского университета Кристал Янг. Она не стала прибегать к экспериментам и опросам, вместо этого проанализировав огромный массив данных о приговорах, вынесенных по делам более 400 000 правонарушителей. Ее главный вывод: после 2005 года расхождения в судейских решениях многократно увеличились по нескольким показателям. Когда рекомендации носили обязательный характер, правонарушители, которые попадали в руки достаточно жестких судей, получали на 2,8 месяца больше, чем если бы решения выносили их среднестатистические коллеги. Когда рекомендации приобрели статус консультативных, эти расхождения удвоились. Слова Кристал Янг вторят выдвинутым за сорок лет до этого аргументам судьи Франкела: «Эти выводы внушают37 большие опасения за справедливое отношение, поскольку личность судьи, рассматривающего дело, играет значительную роль в вынесении разных приговоров схожим правонарушителям, осужденным за схожие преступления».

После того как рекомендации стали консультативными, судьи все чаще выносят приговоры на основе своих личных ценностей. Обязательные рекомендации снижают не только шум, но и смещение, вызванное предвзятостью. После того как Верховный суд сделал рекомендации необязательными, значительно увеличились расхождения в приговорах афроамериканцам и белым правонарушителям, осужденным за схожие преступления. В то же время судьи-женщины стали чаще, чем судьи-мужчины, действовать на свое усмотрение и проявлять больше снисхождения. То же самое можно сказать и о судьях, назначенных президентами-демократами.

Спустя три года после смерти Франкела в 2002 году отмена обязательности рекомендаций о порядке вынесения приговоров вернула ситуацию, которой он опасался больше всего: к закону без порядка.

_____

История борьбы судьи Франкела за введение рекомендаций по вынесению приговоров дает представление о важнейших моментах, которые мы рассмотрим в этой книге. Во-первых, выносить суждения нелегко, потому что реальный мир сложен и непредсказуем. Это очевидно как в работе судебных органов, так и в большинстве других ситуаций, когда выносятся профессиональные оценки. В широком понимании это суждения врачей, медсестер, юристов, инженеров, преподавателей, архитекторов, голливудских продюсеров, специалистов, ответственных за набор персонала, книгоиздателей, руководителей компаний и менеджеров спортивных команд. Где бы ни выносились суждения, разногласия неизбежны.

Во-вторых, масштабы этих разногласий гораздо шире, чем мы ожидаем. Мало кто возражает против принципа судебного усмотрения, но при этом почти все порицают возникающие в ходе его применения огромные расхождения. Системный шум, или нежелательный разброс в выносимых судебных решениях, которые в идеале должны быть идентичными, способен приводить к вопиющей несправедливости, высоким экономическим издержкам и всевозможным ошибкам.

В-третьих, уровень шума можно снизить. Соблюдение правил и рекомендаций – подход, за который ратовал судья Франкел и который воплотила в жизнь Комиссия США по вопросам назначения наказаний, – это один из методов, успешно сокращающих шум. Другие приемы лучше приспособлены для иных видов суждений. При этом некоторые методы снижения уровня шума могут одновременно уменьшать и смещение.

В-четвертых, усилия, направленные на сокращение шума, часто встречают сопротивление и наталкиваются на серьезные препятствия. Из таких ситуаций также необходимо находить выход, иначе борьба рискует закончиться ничем.

К разговору о шуме при вынесении приговоров

«Эксперименты показывают большие расхождения в том, как судьи выносят решения по идентичным делам. Такая вариативность просто не может быть справедливой. Приговор не должен зависеть от личности судьи, который рассматривает дело».

«Уголовные приговоры не должны зависеть от настроения судьи или погоды в день слушаний».

«Рекомендации по вынесению приговоров – один из способов решения проблемы. Однако многим он не нравится из-за ограничения принципа судебного усмотрения, что зачастую необходимо для вынесения адекватного и справедливого приговора. В конце концов, каждое дело уникально, разве не так?»

Глава 2

Шумная система

Первая встреча с шумом, вызвавшая у нас интерес к этой теме, не была исполнена такого драматизма, как столкновение с системой уголовного права. Собственно говоря, это произошло случайно, когда одна страховая компания воспользовалась услугами консалтинговой фирмы, с которой двое из нас сотрудничали.

Безусловно, тема страхования способна увлечь далеко не каждого. Но результаты наших изысканий демонстрируют, насколько серьезна проблема шума в коммерческих организациях, где шумные решения могут привести к большим убыткам. Наш опыт исследований в страховой компании объясняет, почему проблема остается незамеченной и как ее можно решить.

Руководство этой страховой компании пыталось просчитать, какую пользу можно извлечь, если сделать суждения сотрудников, ответственных за важные финансовые решения от имени фирмы, более последовательными и менее шумными. По общему мнению, последовательность в суждениях была действительно необходима. Все также согласились с тем, что подобные суждения невозможно сделать абсолютно последовательными, так как они неформальны и отчасти субъективны, а значит, полностью избежать шума не получится.

Разногласия возникли при обсуждении масштабов проблемы. Руководству представлялось сомнительным, что шум может быть для компании существенной проблемой. Однако надо отдать им должное: они выразили готовность разрешить этот спор при помощи простого эксперимента, который мы назвали ревизией шумовых помех. Результат оказался для них весьма неожиданным. При этом он стал яркой иллюстрацией проблемы шума.

Лотерея, создающая шум

В крупных компаниях многие специалисты наделены правом выносить суждения, которые связывают эти компании обязательствами. Например, в страховых организациях работает множество андеррайтеров[2], назначающих размеры взносов за страхование финансовых рисков, например от потерь банка вследствие мошеннических операций. Там также задействовано много оценщиков страховых убытков, которые прогнозируют расходы в связи с будущими претензиями и ведут переговоры с заявителями в случае возникновения споров.

В каждом крупном филиале компании есть несколько квалифицированных андеррайтеров. Когда возникает необходимость в страховой котировке, или ставке премии, ее подготовка может быть поручена любому свободному специалисту. Фактически андеррайтер, который определит размер страховой котировки, назначается на основе лотереи.

Точный размер ставки премии имеет для организации большое значение. Компании выгодно, когда ставка высокая и клиент с ней соглашается, однако завышенная котировка увеличивает риск лишиться сделки. Если же ставка низкая, клиент принимает ее с большей готовностью, но тогда уже компания упускает выгоду. Для любого риска существует размер ставки, отражающий золотую середину, – не слишком высокий и не слишком низкий, – при этом высоки шансы, что в среднем оценки большой группы специалистов не будут сильно от нее отклоняться. Ставки выше или ниже этой величины окажутся убыточными – именно таким образом разброс шумных оценок способен отрицательно повлиять на финансовые показатели компании.

Деятельность оценщиков страховых убытков тоже сказывается на финансовых показателях. Предположим, что от имени рабочего (заявителя), навсегда утратившего работоспособность правой руки из-за несчастного случая на производстве, было подано требование о страховом возмещении. Для работы с заявкой назначается свободный на этот момент оценщик страховых убытков – точно так же, как и в случае с андеррайтером. Оценщик собирает необходимую информацию о деле и представляет оценку его окончательной стоимости для страховой организации. Затем тот же специалист ведет переговоры с агентом предъявителя претензии, стараясь сделать так, чтобы заявитель получил выплаты, обещанные страховым полисом, но без ущерба компании.

Важное значение имеет предварительная оценка, поскольку она устанавливает определенную планку для специалиста в будущих переговорах с заявителем. Кроме того, страховая компания по закону обязана зарезервировать прогнозируемую сумму каждого требования о возмещении (другими словами, иметь достаточно свободных денег на выплаты). С позиции компании, в этом случае тоже возникает некое значение, отражающее золотую середину. Гарантировать урегулирование претензии невозможно, поскольку юрист заявителя может обратиться в суд, если посчитает предложение страховой компании мизерным. С другой стороны, если зарезервировать слишком большую сумму, есть риск, что оценщик уступит и согласится на необоснованно завышенные требования. Суждение оценщика имеет серьезные последствия для компании и еще более серьезные – для заявителя.

Мы используем термин лотерея, чтобы подчеркнуть роль случайности в выборе андеррайтера или оценщика убытков. В обычных условиях на каждое дело назначается один специалист, и никто не задается вопросом, что бы произошло, если бы вместо него назначили кого-то другого.

Лотереи бывают полезны, и в них необязательно видеть что-то плохое. Полезные лотереи используют как для распределения «благ», например при розыгрыше допуска к определенным университетским курсам, так и для раздачи «повинностей», например во время призыва в армию. Такие лотереи успешно выполняют свою функцию. Но в процессе вынесения суждений лотереи ничего не распределяют и не раздают – они лишь порождают неопределенность. Представьте, что андеррайтеры в страховой компании не выносят шумных оценок и всегда назначают оптимальные ставки премий. Однако затем некий механизм случайным образом изменяет эти ставки, и клиентам предлагается конечный результат. Очевидно, что для подобной лотереи нет никаких оснований. Как нет никаких оснований для существования системы, в которой конечный результат зависит от личности специалиста, случайно назначенного для вынесения профессионального суждения.

Ревизия шумовых помех выявляет системный шум

Если судья, выносящий приговор, или единственный стрелок, представляющий свою команду, назначаются при помощи лотереи, это приводит к разбросу результатов, однако остается незамеченным. Ревизия шума, аналогичная той, что была проведена на материале приговоров, выносимых федеральными судьями, помогает решить эту проблему. В процессе ревизии одно и то же дело оценивается большим количеством специалистов, и разброс в их заключениях становится очевидным.

Это особенно хорошо работает в случае с андеррайтерами и страховыми оценщиками, чьи решения основываются на информации, представленной в письменном виде. Для проведения ревизии шума руководство компании подготовило детальные описания пяти типичных кейсов для каждой из групп специалистов (андеррайтеров и оценщиков). Каждый специалист должен был самостоятельно оценить два-три кейса; при этом испытуемые не знали, что целью исследования была оценка разброса в их суждениях.

Прежде чем продолжить чтение, попробуйте сами ответить на следующие вопросы. Насколько сильно будут отличаться оценки двух случайным образом назначенных квалифицированных андеррайтеров или оценщиков в преуспевающей страховой компании? В частности, какова будет разница между двумя оценками в процентах от их среднего показателя?

Мы задали этот вопрос большому количеству руководителей компании, а в последующие годы получили подобные оценки от широкого круга специалистов в различных областях. К нашему удивлению, один ответ встречался намного чаще остальных. Большинство топ-менеджеров в страховой компании предположили, что эта разница составит 10 или менее процентов. Затем мы опросили 828 генеральных директоров и руководителей из различных отраслей, предложив им оценить ожидаемые различия в экспертных суждениях, подобных вышеописанным. Медианной, и наиболее популярной, снова стала оценка в 10 %. (Второй по популярности была оценка в 15 %.) Разница в 10 % означала бы, к слову, что один из андеррайтеров назначил ставку премии в 9500 долларов, тогда как второй – в 10 500. Разница не выглядит такой уж ничтожной, но она вполне допустима для подобной организации.

Расхождения, выявленные нами во время ревизии шума, оказались куда более серьезными. По нашим оценкам, медианная разница у андеррайтеров составила 55 % – в пять раз выше, чем того ожидали большинство опрошенных, включая руководителей. Это означает, что, если один андеррайтер назначает премию в 9500 долларов, оценка второго будет вовсе не 10 500, а 16 700 долларов. Для оценщиков страховых убытков медианное соотношение составило 43 %. Подчеркнем, что эти результаты медианные: в половине пар кейсов разница между двумя оценками оказалась еще выше.

Получив отчет о результатах ревизии шумовых помех, руководители компании очень быстро сообразили, что такой существенный уровень шума – проблема весьма дорогостоящая. Один топ-менеджер подсчитал, что шум в андеррайтинге, включая как потери клиентов от завышенных ставок премий, так и убытки от заниженной цены контрактов, обходится компании в сотни миллионов долларов.

Никто не мог сказать наверняка, сколько при этом было ошибок и каким было смещение, поскольку значение золотой середины для каждого кейса не было известно. Но необязательно знать, где находится «яблочко» мишени, чтобы оценить широту разброса попаданий на ее оборотной стороне и понять, что вариативность представляет собой проблему. Данные показали, что сумма, которую клиент заплатит за страховку, довольно сильно зависит от результатов лотереи выбора специалиста, отвечающего за сделку. Мягко выражаясь, клиенты не слишком бы обрадовались новостям о том, что они невольно поучаствовали в такой лотерее. Как правило, имея дело с организациями, люди ожидают от системы последовательных суждений, но никак не системного шума.

Нежелательный разброс против желаемого разнообразия

Одна из определяющих черт системного шума – его нежелательность, и здесь нужно подчеркнуть, что разброс в суждениях нежелателен отнюдь не всегда.

Возьмем, к примеру, предпочтения или вкусы. Когда десяток кинокритиков посмотрят один и тот же фильм, десяток дегустаторов оценят одно и то же вино, а десяток читателей прочтут одну и ту же книгу, никто не ожидает, что их мнения окажутся одинаковыми. Разнообразие вкусов здесь приветствуется и вполне предсказуемо. Никому (ну или почти никому) не хочется жить в мире, где всем поголовно нравится и не нравится одно и то же. Однако в том случае, когда выражение личных предпочтений принимается за профессиональное суждение, разнообразием вкусов могут оправдывать ошибки. Если кинопродюсер решится на необычный проект (скажем, фильм о расцвете и упадке дисковых телефонных аппаратов) только потому, что ему пришелся по душе сценарий, такой выбор будет грубым просчетом, окажись он в этом мнении совершенно одинок.

Вариативность мнений также ожидаема и желательна в условиях конкуренции – когда поощряются наилучшие решения. Если несколько компаний (или отделов в организации), конкурируя, пытаются найти новые подходы к одной и той же проблеме заказчика, не нужно, чтобы они были одинаковыми. Так же и в науке: когда несколько групп ученых решают исследовательскую задачу, например разрабатывают вакцину, весьма желательно, чтобы проблема рассматривалась с различных углов зрения. Даже прогнозисты порой конкурируют между собой. Аналитик, точно предсказавший рецессию, когда ее никто не ждал, наверняка получит широкую известность, в отличие от прогнозиста, который всегда придерживается общепринятых мнений и потому остается в тени. В таких условиях вариативность идей и суждений снова приветствуется, поскольку здесь разброс – только первый этап процесса. На следующем этапе результаты, к которым приведут эти суждения, уже померяются силами друг с другом: победит сильнейший. Как и в мире природы, в рыночных условиях отбор требует изменчивости.

Личные предпочтения и условия конкуренции – занятные проблемы, связанные с вынесением суждений. Но нас интересуют суждения, в которых разброс нежелателен. Системный шум – проблема систем, а к ним относятся не рынки, а организации. Когда трейдеры по-разному оценивают стоимость акций, одни на этом заработают, а другие нет. Рынок строится на разности мнений. Однако если случайно выбранному трейдеру поручат подобную оценку от имени целой компании и мы обнаружим, что оценки его коллег из той же компании будут кардинально отличаться, тогда налицо проблема системного шума.

Мы получили изящную иллюстрацию вышесказанного, когда представили наши выводы руководителям фирмы по управлению активами, предложив им провести собственную ознакомительную ревизию шума. Они поручили 42 опытным инвесторам компании оценить справедливую стоимость акции (стоимость, при которой инвесторы были бы не заинтересованы в ее покупке или продаже). Инвесторы провели анализ на основе одностраничного описания компании, включающего упрощенные данные о прибыли и убытках, баланс, отчеты о движении денежных средств за последние три года, а также финансовый прогноз на последующие два. Проделав такие же измерения, как ранее в страховой компании, мы обнаружили, что медианный шум в фирме по управлению активами составил 41 %. Такая огромная разница суждений среди инвесторов одной компании, пользующихся одинаковыми методами оценки, – неутешительные новости.

Когда специалиста, выносящего суждение, произвольно отбирают из числа других таких же квалифицированных специалистов, как мы уже наблюдали в фирме по управлению активами, в системе уголовного правосудия и в страховой компании, шум становится проблемой. Системный шум – проклятие многих организаций. Фактически случайным образом будет назначен врач, который окажет вам помощь в больнице, судья, который будет слушать ваше дело, патентный эксперт, который рассмотрит вашу заявку, представитель отдела обслуживания клиентов, который ответит на вашу жалобу, и т. д. Нежелательный разброс в таких решениях может стать причиной серьезных проблем, в числе которых финансовые потери и повсеместная несправедливость.

Нежелательному разбросу часто не придают значения, полагая, что случайные ошибки взаимно уничтожаются. Разумеется, положительные и отрицательные ошибки в суждении по одному вопросу имеют тенденцию друг друга компенсировать, и мы подробно рассмотрим, как эту особенность можно использовать для снижения уровня шума. Однако в шумных системах не принимается множество решений по одному и тому же вопросу – в них принимаются шумные решения по разным вопросам. Если цена одного страхового полиса оказывается завышена, а другого – занижена, усредненное значение может казаться справедливым, но при этом страховая компания допускает две дорогостоящие ошибки. Если двух преступников, которым полагается по пять лет тюрьмы, приговаривают к трем и семи годам соответственно, справедливость в целом не торжествует. В шумных системах ошибки не компенсируют друг друга – они накапливаются.

Иллюзия согласия

В последние десятилетия шуму в профессиональных суждениях было посвящено большое количество публикаций. Будучи знакомыми с их содержанием, мы не слишком удивились результатам ревизии шума в страховой компании. Настоящим же сюрпризом для нас стала реакция руководства компании на эти данные: они не ожидали, что шума будет так много. Никто не усомнился в результатах, никто не посчитал такой уровень шума допустимым, однако проблема шума – и возникающие из-за нее огромные издержки – стала для компании новостью. Словно протечку в подвале дома, шум не пытались устранить – не потому что он всех устраивал, а потому что его попросту никто не замечал.

Как такое могло случиться? Как мнения специалистов, выполняющих одинаковые функции в компании, могли так сильно отличаться и как это могло остаться незамеченным? Почему руководители ничего не видели, ведь, как они признали, такая ситуация представляла серьезную угрозу деятельности компании и ее репутации? Стало понятно, что зачастую организации не способны распознать проблему системного шума, и такое невнимание не менее интересно, чем сам масштаб проблемы. Ревизия позволила предположить, что авторитетные специалисты и их компании-работодатели поддерживали лишь иллюзию согласия и при этом фактически изо дня в день расходились в профессиональных суждениях.

Чтобы понять, откуда возникает иллюзия согласия, представьте себя на месте андеррайтера в ничем не примечательный рабочий день. У вас больше пяти лет опыта, и вы знаете, что коллеги вас ценят, а вы уважаете и любите своих коллег. Вы не сомневаетесь в своей компетенции. Тщательно проанализировав потенциальные риски финансовой организации, вы приходите к заключению, что ставка страховой премии в 200 000 долларов будет оправданной. Задание довольно сложное, но не труднее того, с чем вам приходится иметь дело ежедневно.

Теперь вообразите, что ваши коллеги получили те же данные и оценили риск той же финансовой организации. Поверите ли вы, что по меньшей мере половина специалистов назначили ставку выше 225 000 или ниже 145 000 долларов? Мысль не из приятных. Мы подозреваем, что андеррайтеры, узнав о проведенной нами ревизии шума и согласившись с ее результатами, все же так и не смирились с мыслью, что выводы исследования относились лично к ним.

Большинство из нас почти всегда уверено, что мир именно такой, каким мы его себе представляем. Отсюда недалеко до следующего убеждения: «Другие видят мир таким, каким его вижу я». Подобные представления, называемые наивным реализмом3839, необходимы для понимания реальности, общей для всех людей, и редко ставятся под сомнение. В любой момент у нас есть единая интерпретация окружающего мира, и, как правило, мы практически не утруждаем себя мыслями о правдоподобных альтернативах. Нам достаточно одной, в нашем понимании верной интерпретации. Мы не идем по жизни, воображая иные способы восприятия действительности.

В случае профессиональных суждений вера в то, что другие видят мир теми же глазами, ежедневно подкрепляется различными способами. Так, коллеги используют общий жаргон и набор правил, которые помогают сформулировать соображения, важные для принятия решений. Нас обнадеживает, когда коллеги соглашаются, что суждения, нарушающие эти правила, абсурдны. Если время от времени у нас все же возникают разногласия с коллегами, мы интерпретируем это как ошибку с их стороны. Мы редко замечаем, что согласованные нами правила довольно расплывчаты: с их помощью можно отбросить какие-то варианты решений, но нельзя прийти к общему положительному ответу в каждом конкретном случае. Мы можем работать с коллегами в мире и согласии и при этом совершенно не замечать, что они видят мир совсем иначе.

Вот как специалист по андеррайтингу описывала нам историю своего профессионального роста в отделе: «Когда я только пришла, я советовалась со своим начальником по поводу 75 % кейсов. Спустя пару лет необходимость в этом отпала – теперь экспертом стала я сама. Со временем я принимала решения гораздо увереннее». Как это случается со многими из нас, ее уверенность росла по мере накопления опыта вынесения суждений.

Психология этого процесса хорошо изучена. Уверенность подпитывается субъективным опытом все возрастающей легкости и свободы принятия решений, отчасти из-за их сходства с решениями, уже принимавшимися в похожих обстоятельствах. По мере того как эта сотрудница страховой компании все чаще соглашалась с собственными суждениями из прошлого опыта, ее уверенность росла. Нет никаких свидетельств того, что после начального периода обучения она научилась советоваться с коллегами, уточняя степень своего с ними согласия, или хотя бы попыталась сделать так, чтобы методы ее работы не слишком отличались от методов других специалистов.

В этой страховой компании было достаточно одной ревизии шума, чтобы иллюзия согласия полностью растаяла. Почему руководство даже не догадывалось о проблеме? На этот вопрос существует несколько вероятных ответов, но во многих ситуациях важную роль играет не что иное, как неловкость, возникающая при разногласиях. Большинство организаций предпочитают единодушие и гармонию, а не раскол и конфликты. Часто компании специально разрабатывают процедуры, призванные свести к минимуму внешние проявления фактических разногласий и сгладить споры в случае их возникновения.

Профессор психологии Университета Миннесоты и ведущий исследователь по вопросам прогнозирования эффективности Нэйтан Кансел поделился с нами наглядным примером этой проблемы. Он помогал приемной комиссии университета оптимизировать процесс принятия решений. Обычно член приемной комиссии изучал заявление абитуриента, оценивал его и направлял следующему члену комиссии, который, в свою очередь, тоже давал ему оценку. По причинам, которые станут очевидными по мере чтения этой книги, Кансел предложил скрывать первую оценку, чтобы она не повлияла на последующую. Вот что ответил университет: «Раньше мы прибегали к подобной практике, но это привело к такому количеству разногласий, что мы вернулись к прежнему формату рассмотрения заявлений». Это учебное заведение – в числе множества организаций, где избегание конфликтов считают едва ли не таким же важным аспектом работы, как и принятие верных решений.

Давайте рассмотрим еще один механизм, популярный во многих компаниях, а именно «разбор полетов» после неудачных решений. Такие разборы могут быть полезным инструментом обучения, но если допущена настоящая ошибка и выбранное решение далеко отклонилось от общепринятых профессиональных норм, обсуждение будет слишком легким. Эксперты без труда придут к заключению, что решение пошло вразрез с традиционными мнениями, и даже могут назвать его редким исключением из правил. Распознать плохие суждения гораздо легче, чем хорошие. Подобное разоблачение вопиющих ошибок и маргинализация коллег, которые их совершают, никак не помогут профессионалам осознать, насколько сильно их мнения отличаются от мнений других специалистов при вынесении в целом приемлемых суждений. Как раз наоборот: легкость в достижении консенсуса по поводу плохих решений может даже укрепить иллюзию согласия; при этом настоящий урок – о повсеместности системного шума – усвоен не будет.

Хочется надеяться, что вы уже начинаете разделять наш взгляд на шум как на серьезную проблему. Его присутствие совсем не удивительно, ведь шум – следствие неформальной природы суждений. Однако, как мы увидим далее, когда организация начинает присматриваться к проблеме, обнаруживаемый уровень шума всегда становится потрясением. Вывод прост: там, где есть место суждению, найдется и шум – и его намного больше, чем вы думаете.

К разговору о системном шуме в страховой компании

«Мы зависим от качества профессиональных суждений – решений андеррайтеров, оценщиков страховых убытков и так далее. На рассмотрение каждого страхового случая назначается один специалист вследствие ошибочного допущения, что решение любого другого специалиста окажется схожим».

«Уровень системного шума в пять раз выше, чем мы предполагали и чем мы можем допустить. Мы никогда бы не пришли к такому выводу без ревизии шума, позволившей развеять иллюзию согласия».

«Системный шум – серьезная проблема, приносящая убытки в сотни миллионов долларов».

«Там, где есть место суждению, найдется и шум – и его намного больше, чем вы думаете».

Глава 3

Уникальные решения

До сих пор мы обсуждали исследования решений, принимаемых многократно. Какой приговор вынести за кражу? Какую страховую ставку назначить при определенных рисках? Хотя каждый случай по-своему уникален, подобные суждения – это типовые решения. Врачи ставят диагнозы пациентам, судьи заслушивают дела об условно-досрочном освобождении, члены приемной комиссии рассматривают заявления абитуриентов, бухгалтеры готовят налоговую отчетность – все это примеры типовых решений.

Шум при вынесении типовых решений можно обнаружить при помощи ревизии шумовых помех, о которой мы говорили в предыдущей главе. Когда взаимозаменяемые специалисты принимают решения по схожим делам, охарактеризовать и измерить нежелательный разброс нетрудно. Однако создается впечатление, что гораздо сложнее – и даже, пожалуй, невозможно – применить понятие шума к категории суждений, которые мы называем уникальными решениями.

Вспомним, например, кризис, с которым мир столкнулся в 2014 году. В Западной Африке тысячи людей стали жертвами вируса Эбола. Все в мире взаимосвязано, и прогнозы показывали, что инфекция способна быстро распространиться и особенно ощутимо ударить по Европе и Северной Америке. В США зазвучали настойчивые призывы прекратить авиасообщение с пострадавшими регионами и срочно закрыть границы. Шаги в этом направлении поддерживались авторитетными и хорошо информированными лицами, а политическое давление было огромным.

Президенту США Бараку Обаме пришлось принять одно из самых непростых решений за все время работы на этом посту – с подобным он не сталкивался ни до, ни после. Он не стал закрывать границы и отправил в Западную Африку 3000 медиков и военных. Обама возглавил многонациональную коалицию стран, которые не могли похвастаться успехами на поприще совместной работы, и направил их ресурсы и опыт на решение проблемы у ее истоков.

Уникальные или типовые

Решения, принимаемые лишь единожды, как в случае с реакцией президента Обамы на вспышку вируса Эбола, уникальны. Они не принимаются периодически одним и тем же специалистом или группой экспертов, для них не существует заранее подготовленных шаблонных ответов, и у них есть характерные, присущие только им особенности. Когда разразилась эпидемия, у Обамы и его администрации не было предыдущего опыта, на который они смогли бы опереться. Значимые политические решения, судьбоносный выбор военачальников – как правило, наглядные примеры уникальных решений.

Такими же характеристиками обладают и решения, принимаемые в личной жизни: выбор профессии, покупка дома, вступление в брак. Даже если это не первая ваша работа, дом или брак, и несмотря на то, что до вас с такими же решениями сталкивалось огромное количество людей, для вас они уникальны. В бизнесе директора компаний тоже нередко вынуждены принимать уникальные для себя решения: стоит ли вводить новшества, способные изменить правила игры, сокращать ли бизнес во время пандемии, открывать ли филиал за рубежом, уступить ли под натиском государственного регулирования?

Вероятно, уникальные и типовые решения не следует относить к отдельным категориям: они, скорее, располагаются в разных частях одного спектра. Андеррайтеры вполне могут столкнуться в работе с уникальными случаями. В то же время, если вы покупаете дом уже в четвертый раз, возможно, вы начнете воспринимать решения о подобных приобретениях как типовые. И все же яркие примеры дают основание полагать, что разница значительна. Объявление войны – отнюдь не то же самое, что объявление о проведении ежегодного пересмотра бюджета.

Шум в уникальных решениях

Долгое время уникальные решения рассматривались отдельно от типовых – тех, что принимаются взаимозаменяемыми специалистами в крупных организациях. Типовые решения – предмет изучения социологов, тогда как ответственные уникальные решения остаются в ведении историков и гуру менеджмента. Подходы, применяемые к исследованию обоих типов решений, довольно сильно отличаются. Типовые решения рассматриваются в статистическом ключе: социологи оценивают большое количество похожих решений, чтобы разглядеть сходные черты, обнаружить закономерности и измерить правильность и точность. В противоположность этому подход к уникальным решениям обычно носит причинно-следственный характер: они обсуждаются в ретроспективе, и основной объект внимания – это причины произошедшего. С помощью исторического анализа, например изучения успехов или ошибок в управлении, исследователи пытаются понять, как были приняты принципиально уникальные решения.

Сама природа уникальных решений поднимает важный вопрос при изучении шума. Мы назвали шумом нежелательный разброс в суждениях, выносимых по одному и тому же вопросу. К уникальным решениям такое определение неприменимо – ведь они не повторяются. В конце концов, история вершится лишь однажды. У вас не получится сравнить принятое Обамой решение направить медиков и военных в Западную Африку в 2014 году с решениями других американских президентов, принятых по поводу других проблем, возникших в другое время (хотя вы вправе выдвигать гипотезы). Можно сравнить ваше решение связать себя узами брака с подобными решениями других подобных вам людей, но такое сравнение не будет для вас так же значимо, как сравнение размера страховых ставок, назначенных двумя андеррайтерами по одному делу. Вы и ваш избранник неповторимы. Прямого способа обнаружить шум в уникальных решениях не существует.

И все же нельзя утверждать, что уникальные решения не подвержены влиянию тех же факторов, что создают шум во время принятия типовых решений. Вспомним стрелков в тире: возможно, участники команды С (с шумными результатами) по-разному настроили прицел на винтовках, а может, у них дрожали руки. Увидев, как стреляет первый участник, мы бы не составили представления о том, насколько шумными будут результаты всей команды, однако источники шума никуда бы не делись. Аналогичным образом, принимая уникальное решение, вы должны понимать, что, даже если другой человек, размышляя над таким же решением, будет обладать схожей компетенцией и разделять ваши цели и установки, он не придет к такому же заключению на основе тех же фактов. К тому же следует понимать, что в случае каких-то незначительных изменений в ситуации или обстановке во время принятия решения ваш вывод мог бы стать совсем иным.

Другими словами, мы не можем измерить уровень шума в уникальных решениях, но, мысля контрфактуально[3], мы наверняка знаем о его присутствии. Так же как дрогнувшая рука стреляющего в тире дает основания предположить, что тот единственный выстрел мог попасть в другую точку мишени, шум при принятии решений дает основание считать, что уникальное решение могло быть совсем другим.

Задумаемся о том, какие факторы влияют на принятие уникального решения. Насколько отличались бы рекомендации президенту Обаме, если бы во время эпидемии лихорадки Эбола за анализ угрозы и подготовку мер реагирования отвечали совсем другие эксперты – с иным жизненным опытом и предысторией? Как повернулось бы обсуждение, если бы те же самые факты были представлены несколько иначе? Каким бы стало финальное решение, если бы настроение главных действующих лиц было другим, а встреча происходила во время снежной бури? С этой точки зрения уникальные решения перестают казаться такими уж предопределенными. В зависимости от множества факторов, о существовании которых мы даже и не подозреваем, решения вполне могут получиться совсем другими.

Давайте снова поупражняемся в контрфактуальном мышлении. Вспомним, как разные страны отреагировали на пандемию COVID‑19. Хотя она началась для всех примерно в одно и то же время и развивалась похожим образом, ответные меры существенно отличались от региона к региону. Такая вариативность четко свидетельствует о шуме в решениях, принимаемых разными государствами. Но что если бы эпидемия затронула только одну страну? Тогда бы мы просто не смогли заметить никакого разброса. Однако от того, что разброс незаметен, принятое решение не становится менее шумным.

Как контролировать шум в уникальных решениях

Такая теоретическая дискуссия небесполезна. Если в уникальных решениях столько же шума, сколько в типовых, тогда стратегии сокращения уровня шума в последних должны помочь улучшить и качество первых.

Эта рекомендация еще более парадоксальна, чем кажется. Когда вам предстоит принять единственное в своем роде решение, вы инстинктивно так к нему и отнесетесь: как к единственному в своем роде. Некоторые даже утверждают, что к уникальным решениям, принимаемым в условиях неопределенности, вообще неприменимы законы вероятностного мышления и что к подобным решениям нужно подходить совершенно иначе.

Наши наблюдения подсказывают, что следует действовать ровно наоборот. Руководствуясь соображениями уменьшения шума, мы должны относиться к уникальным решениям как к типовым решениям, принимаемым лишь единожды. Выносите ли вы суждение один или сотню раз, ваша цель – снизить при этом как масштаб смещения, так и уровень шума. При этом приемы, которые помогут этого добиться, должны оказаться настолько же эффективными для уникальных решений, как и для типовых.

К разговору об уникальных решениях

«Ваши решения в этой необычной ситуации рискуют подвергнуться действию шумовых помех».

«Не забывайте: уникальное решение – это типовое решение, принимаемое лишь однажды».

«Жизненный опыт, сформировавший вас как личность, не имеет отношения к вынесению данного суждения».

Часть II

Ваш разум – измерительный прибор

Чтобы что-то измерить как в повседневной жизни, так и проводя научные исследования, мы пользуемся специальными приборами, присваивая объекту или явлению некое значение по определенной шкале. Длину ковра в сантиметрах мы измерим рулеткой. Температуру в градусах по шкале Фаренгейта или Цельсия – термометром.

Нечто похожее происходит, когда мы выносим суждения. Назначая срок лишения свободы, судьи выбирают на шкале некую отметку. Так же поступают андеррайтеры, присваивая риску, который нужно застраховать, определенный эквивалент в долларах, или врачи, ставя диагноз пациенту. (Шкала необязательно должна быть числовой. «Виновен вне всяких сомнений», «меланома в поздней стадии», «рекомендовано хирургическое вмешательство» – все это тоже суждения.)

Таким образом, суждения можно охарактеризовать как измерения, инструментом для которых выступает человеческий разум. В само понятие измерения заложена идея достижения точного результата с целью приблизиться к истине и минимизировать ошибки. Мы выносим суждения не для того, чтобы произвести впечатление, отстоять точку зрения или в чем-то убедить. Важно заметить, что мы заимствовали понятие «суждение» из специальной литературы по психологии, и оно гораздо ýже, чем то, что используется в быту. «Суждение» не синоним «размышления», а «вынести точное суждение» не значит «проявить здравомыслие».

Мы определяем суждение как заключение, которое можно сформулировать при помощи одного слова или фразы. Когда аналитик разведывательной службы готовит длинный отчет c заключением, что режим в стране нестабилен, суждением здесь будет только само заключение. Термин «суждение», подобно «измерению», относится и к процессу вынесения суждения, и к его результату. Время от времени мы будем использовать слово «судить» в качестве специального термина для описания людей, выносящих суждения, даже если они не имеют никакого отношения к системе правосудия.

Хотя нашей целью и является точность, добиться ее полностью невозможно, даже проводя научные измерения, не говоря уже о вынесении суждений. Всегда будет некая погрешность в виде смещения или шума.

Чтобы убедиться, что шум и смещение вносят в суждения погрешность, попробуйте сыграть в игру, которая займет у вас не более минуты. Если ваш смартфон оснащен секундомером, наверняка там есть функция, которая позволяет отмерять последовательные временные интервалы, не останавливая секундомер и даже не глядя на экран. Ваша цель – не подсматривая в телефон, отсчитать пять последовательных интервалов ровно по 10 секунд. Перед началом эксперимента вы можете потренироваться, понаблюдав за прохождением десятисекундного интервала. Время пошло!

А теперь взгляните на экран и проверьте, сколько секунд пришлось на каждый засеченный вами отрезок времени. (Работа самого телефона тоже не лишена шума, но его уровень крайне низок.) Вы убедитесь, что время, отведенное вами на каждый интервал, вовсе не равняется десяти секундам и что между полученными значениями есть существенная разница. Вы пытались точно засечь одинаковое количество секунд, но потерпели неудачу. Разброс, неподвластный вашему контролю, – это пример шума.

Такой вывод совсем не удивителен, ведь шум – универсальное явление в физиологии и психологии. Вариативность среди индивидуумов заложена природой, и какие-то различия есть даже у близнецов. Процессы внутри одного человека тоже вариативны. Бывает, сердце сбивается с четкого ритма. Нельзя воспроизвести какой-то жест с идеальной точностью. При проверке слуха у отоларинголога одни звуки будут для вас всегда слишком тихими, а другие – всегда слышимыми. А некоторые вы будете различать лишь от случая к случаю.

Взгляните еще раз на пять значений, зафиксированных вашим секундомером. Прослеживается ли какая-нибудь закономерность? К примеру, если все временные отрезки оказались короче десяти секунд, возможно, ваши внутренние часы спешат. В этом простом задании смещение – положительная или отрицательная разница между десятью секундами и средним арифметическим отмеренных вами интервалов. Разброс же в ваших результатах – это шум, аналогичный увиденному нами разбросу попаданий по мишени. В статистике основной единицей измерения разброса40 является стандартное отклонение; его-то мы и будем использовать для оценки уровня шума в суждениях.

Мы можем уподобить большинство суждений, особенно прогнозных суждений, вашим манипуляциям с секундомером. Прогнозируя, мы стараемся приблизиться к истинному значению. Экономический прогнозист пытается как можно точнее предсказать рост ВВП в следующем году, врач преследует цель поставить верный диагноз. (Отметим, что «прогноз» в этой книге используется как специальный термин и не подразумевает предсказание будущего. В этом смысле «прогнозом» может считаться поставленный пациенту диагноз.)

Мы будем часто прибегать к аналогии между суждениями и измерениями, так как она помогает наглядно объяснить роль шума в возникновении погрешностей. Прогнозист сродни стрелку, который целится в «яблочко», или физику, который пытается измерить точный вес частицы. Шум в суждениях подразумевает погрешность. Проще говоря, если целью суждения является истина, два отличных друг от друга суждения просто не могут быть верны одновременно. Так же как у измерительных приборов, погрешность у некоторых людей при выполнении определенных задач будет выше – возможно, из-за нехватки навыков или опыта. Так же как измерительные приборы, люди никогда не выносят идеальных суждений. Наша задача – понять и измерить возникающую при этом погрешность.

Безусловно, вынесение большинства профессиональных суждений гораздо сложнее фиксирования временных интервалов секундомером. В главе 4 мы рассмотрим различные виды профессиональных суждений и проанализируем, каковы их цели. В главе 5 мы обсудим, как измерить погрешность и количественно оценить роль системного шума. Глава 6 посвящена более глубокому изучению системного шума и его различных составляющих. В главе 7 мы подробнее исследуем одну из таких составляющих, а именно ситуативный шум. Наконец, в главе 8 мы продемонстрируем, как группы способны усиливать шум в суждениях.

Главы этой части книги подводят нас к простому заключению: как и любой измерительный прибор, человеческий разум несовершенен и его выводы подвержены воздействию смещения и шума. Почему и в какой мере? Давайте разберемся.

Глава 4

Субъективные суждения

Эта книга посвящена профессиональным суждениям в широком смысле. Предполагается, что те, кто выносит такие суждения, компетентны и стремятся к точным результатам. Однако само понятие суждения поневоле подразумевает, что в его точности никогда нельзя быть уверенным до конца.

Задумайтесь о значении выражений «субъективная оценка» или «субъективное решение». Никто не назовет субъективными утверждения о том, что завтра снова взойдет солнце или что формула хлорида натрия – NaCl. Ожидается, что каждый разумный человек безусловно с этим согласится. В субъективные оценки заложена доля неопределенности, и мы допускаем, что здравомыслящие и компетентные люди могут иметь разные мнения.

Существует, однако, некий предел тому, насколько сильно мнения могут не совпадать. Действительно, слово «суждение» в основном используют, когда предполагается некое согласие. Субъективные суждения не то же самое, что личные мнения или вкусы, где непреодолимые разногласия вполне допустимы. Руководители страховой компании, которых поразили результаты ревизии шума, едва ли удивились бы тому, что оценщики убытков имеют полярно противоположные взгляды на достоинства «Битлз» и «Роллинг Стоунз» или, к примеру, тунца и горбуши.

Субъективные суждения, в том числе профессиональные, находятся где-то между фактами и вычислениями, с одной стороны, и личными мнениями или вкусами – с другой. Для них характерно ожидание ограниченных разногласий.

Ответ на вопрос о допустимом масштабе разногласий в суждениях сам по себе является субъективной оценкой, зависящей от сложности проблемы. Особенно нетрудно достичь согласия по поводу суждений, лишенных здравого смысла. Судьи, чьи приговоры по типичному делу о мошенничестве могут сильно различаться, сойдутся в том, что штраф в размере одного доллара или пожизненный срок здесь совершенно неуместны. Члены жюри на конкурсе вин41 могут спорить по поводу победителей, но единогласно забракуют неудачные вина.

Процесс вынесения суждения: пример

Прежде чем говорить о процессе вынесения суждений, мы предлагаем вам попробовать вынести свое собственное. Глава принесет больше пользы, если вы выполните нижеследующее упражнение до конца.

Представьте, что вы входите в комиссию, задача которой оценить кандидатов на должность генерального директора в довольно благополучной финансовой компании, столкнувшейся с ростом конкуренции. Вам нужно оценить вероятность успеха потенциального кандидата спустя два года после начала работы. Под успехом понимается способность кандидата удержаться на месте генерального директора по истечении двухлетнего срока. Оценку вероятности требуется выразить по шкале от 0 (невозможно) до 100 (определенно).

Майклу Гамбарди тридцать семь лет. Двенадцать лет назад он окончил Гарвардскую школу бизнеса и с тех пор успел поработать на разных должностях. В начале карьеры он стал основателем и инвестором двух стартапов, которые потерпели неудачу, не найдя необходимой финансовой поддержки. Затем Майкла наняла крупная страховая компания, где он быстро вырос до главного исполнительного директора в Европейском регионе. На этой должности он предложил и затем курировал изменения, позволившие оптимизировать урегулирование страховых исков. Коллеги и подчиненные находили Гамбарди эффективным, однако излишне властным и жестким: за время его пребывания в должности управленческий персонал менялся довольно часто. Сослуживцы также указывают на его честность и готовность взять на себя ответственность за неудачи. Последние два года Майкл является генеральным директором финансовой компании среднего размера, которая изначально находилась под угрозой банкротства. Ему удалось стабилизировать положение компании; коллеги считают его успешным, хотя подтверждают, что работать с ним нелегко. Гамбарди выразил заинтересованность в карьерном росте. По результатам собеседования, проведенного с ним несколько лет назад, специалисты по кадрам охарактеризовали его как в высшей степени находчивого и энергичного специалиста, отметив при этом, что он высокомерен и порой деспотичен.

Итак, Майкл претендует на должность генерального директора в относительно успешной региональной компании, столкнувшейся с растущей конкуренцией. Какова вероятность того, что, если Майкла пригласят на эту должность, он все еще будет генеральным директором два года спустя? Прежде чем продолжать читать, пожалуйста, оцените эту вероятность по шкале от 0 до 100. При необходимости перечитайте данную вам информацию.

Если вы отнеслись к этому упражнению серьезно, вероятно, оно показалось вам непростым. Информации довольно много, при этом она кажется довольно противоречивой. Вам пришлось потрудиться, чтобы составить для себя некий связный портрет специалиста, необходимый для вынесения суждения. При этом вы сосредоточили внимание на деталях, которые представлялись вам важными, и, скорее всего, не придали значения остальным. Если вас попросят объяснить свой выбор, вы назовете несколько характерных фактов, но их будет недостаточно для полноценного отчета о вашем решении.

Ваш мыслительный процесс при выполнении этого задания демонстрирует несколько особенностей умственных операций, называемых суждениями:

• Во всем наборе данных (которые могут быть лишь частью необходимой информации) вы посчитали некоторые детали более существенными, не осознавая своего выбора в полной мере. Вы заметили, что Гамбарди – это итальянская фамилия? Вы помните, где он учился? Задание намеренно перегружено информацией для того, чтобы вам непросто было вспомнить все детали. Вероятнее всего, ваше описание информации в задаче будет отличаться от того, что запомнили другие читатели. Избирательное внимание и избирательное припоминание – источники разброса в суждениях.

• Вы также неформально использовали выбранные вами детали в общем прогнозе успеха Гамбарди. «Неформально» – это ключевое слово. Для ответа вам не понадобилось составлять план. Практически незаметно для вас ваш разум составил цельный образ Майкла: его сильные и слабые стороны, трудности, с которыми он сталкивается в работе. Неформальность позволила справиться с задачей быстрее. В то же время она породила разброс. Формальный процесс, например суммирование цифровых показателей, гарантирует идентичные результаты, но при неформальных операциях определенная доля шума неизбежна.

• Наконец, вы преобразовали ваше общее впечатление в цифровой показатель на вероятностной шкале успеха. Сопоставление числа от 0 до 100 с неким впечатлением – это весьма примечательный процесс, к обсуждению которого мы еще вернемся в главе 14. И тут вы снова не можете сказать точно, почему ответили именно так. Скажем, почему вы выбрали 65, а не 61 или 69? Скорее всего, в какой-то момент вам в голову пришло некое число. Вы засомневались в его справедливости и в результате подумали о другом. Эта часть процесса тоже является источником разброса.

Поскольку каждый из этих трех шагов в сложном процессе вынесения суждения влечет за собой возникновение разброса, не следует удивляться, когда ответы на задачу про Майкла Гамбарди окажутся очень шумными. Если вы предложите это упражнение своим друзьям, скорее всего, вы обнаружите огромный разброс в оценках будущего успеха кандидата на должность. Когда мы дали это задание 115 студентам MBA, их оценки вероятности успеха Гамбарди варьировались от 10 до 95. Это очень шумный результат.

Между прочим, возможно, вы заметили, что задачка о Гамбарди и упражнение с секундомером служат примерами двух разных видов шума. Разброс во время нескольких попыток отмерить интервалы с секундомером – это шум в суждениях одного человека (вас). Разброс в задаче о Гамбарди – шум в суждениях разных людей. С точки зрения измерений первая проблема демонстрирует внутриэкспертную надежность, а вторая – межэкспертную.

Цель суждения: внутренний сигнал

Ответ, данный вами на задачу о Гамбарди, – прогнозное суждение в нашем определении этого термина. Однако оно существенно отличается от других суждений, которые мы также называем прогнозными. До какого значения завтра поднимется температура воздуха в Бангкоке? Кто победит сегодня вечером в футбольном матче? Кто станет следующим президентом? Если вы с приятелем расходитесь во мнениях на этот счет, когда-нибудь вы все равно узнаете, кто прав. Но если вы по-разному оцениваете шансы Гамбарди, точного ответа вы не узнаете даже со временем. Причина проста: никакого Гамбарди не существует.

Даже если бы в задаче говорилось о реальном человеке и мы знали ответ, невозможно подтвердить или опровергнуть одно-единственное вероятностное суждение (отличное от 0 или 100 %). Ответ не раскрывает, какой вероятность была изначально. Если событие, вероятность которого оценили в 90 %, не происходит, само суждение о вероятности необязательно считать неудачным. В конце концов, результаты, вероятность которых оценивается в 10 %, в итоге достигаются в 10 % случаев. Задача о Гамбарди – пример вынесения непроверяемого прогнозного суждения. Его нельзя проверить по двум причинам: кандидатура Гамбарди – вымышленная, а ответ на задачу – вероятностный.

Многие профессиональные суждения непроверяемы. За исключением ситуаций с вопиющими ошибками, андеррайтеры, например, так никогда и не узнают, была ли стоимость полиса завышена или, наоборот, занижена. Прогнозы бывают непроверяемыми из-за своей условности. Каким бы важным ни казалось пророчество «если мы ввяжемся в войну, нас просто раздавят», скорее всего, оно (надеемся) так и останется непроверенным. Прогнозы также могут охватывать слишком длительный период, и тогда профессионалов, которые их составили, уже нельзя будет призвать к ответу – к таким прогнозам можно, например, отнести предположения о средних температурах на планете к концу XXI века.

Повлияла ли непроверяемость ответа в задаче о Гамбарди на ваш подход к ее решению? Задались ли вы вопросом о том, существовал ли Гамбарди на самом деле? А о том, будет ли в конце главы информация о его дальнейшей судьбе? Может, вы подумали, что, даже если вы о ней узнаете, это все равно не поможет ответить на вопрос задачи? Вероятно, нет, потому что в процессе выполнения задания все эти соображения казались несущественными.

Проверяемость суждения никак не влияет на сам процесс его вынесения. Возможно, вы чуть серьезнее подойдете к обдумыванию задачи, решение которой вскоре будет дано, поскольку ваш мозг сосредотачивается больше, когда есть риск быть уличенным в неправоте. С другой стороны, вы не станете задумываться над задачей, которая абстрактна до нелепости. («Стал бы Гамбарди хорошим директором, если бы у него было три ноги и способность летать?») В общем же и целом, если гипотетическая задача правдоподобна, вы отнесетесь к ней точно так же, как и к реальной. Это немаловажно для исследований в психологии, где нередко используются вымышленные задания.

Поскольку у задачи нет решения, а вы, вероятно, даже не задумывались, будет ли оно вообще дано, вы не пытались минимизировать погрешность. Вы постарались вынести верное суждение и остановились на значении, которое не побоялись предложить в качестве ответа. Конечно, оно не вселяло в вас столько же уверенности, как утверждение о том, что дважды два четыре. Вы допускали некоторую неопределенность (и, как мы увидим, на самом деле ее больше, чем вы думали). Однако в какой-то момент вы осознали, что дальше двигаться некуда, и сделали свой выбор.

Как вы поняли, что приняли верное или хотя бы вполне допустимое решение? Мы полагаем, вы почувствовали внутренний сигнал о том, что суждение вынесено, никак не связанный c информацией извне. Найденный ответ вполне соответствовал условиям задачи. Ощущения соответствия не возникло бы, будь ваш ответ 0 или 100: такие выводы предполагают уверенность, несовместимую с настолько беспорядочными, неоднозначными и противоречивыми условиями задачи. Однако ваш ответ, каким бы он ни был, показался вам вполне правомерным. Когда вы выносили суждение, вашей целью было найти именно правомерное решение.

Основное свойство такого внутреннего сигнала – то, что ощущение правомерности является неотъемлемой частью процесса вынесения суждения, не зависящей от реального результата. Поэтому внутренний сигнал возникает при вынесении как непроверяемых, так и проверяемых суждений. Вот почему решение задачи о вымышленном человеке вроде Гамбарди ничем не отличается от решения задач с реальными данными.

Как оценивается суждение: результат и процесс

Проверяемость не влияет на процесс вынесения суждения, однако от нее зависит то, как это суждение будет оцениваться впоследствии.

Объективный наблюдатель просто оценит точность проверяемых суждений, сравнив выводы с реальным результатом. Если синоптик дал прогноз, что воздух сегодня прогреется до 70 градусов Фаренгейта, а реальная температура достигла лишь 65, значит, он ошибся на пять градусов. Очевидно, что такой подход не сработает, когда суждения проверить нельзя, как в задаче о Гамбарди, где искомого ответа просто нет. Как же тогда оценить их качество?

Существует еще один способ оценивать как проверяемые, так и непроверяемые суждения. Он заключается в оценивании процесса их вынесения. Называя одни суждения удачными, а другие неудачными, мы подразумеваем либо итоговый ответ (к примеру, число, данное вами при решении задачи о Гамбарди), либо процесс решения – то, как вы к этому ответу пришли.

Чтобы оценить процесс решения, можно понаблюдать, насколько успешно его можно применить к большому количеству задач. Представьте, что политический прогнозист оценил шансы множества кандидатов на победу в местных выборах. Вероятность победы ста из этих кандидатов он оценил в 70 %. Если семьдесят человек из них в итоге будут избраны, у нас появится повод считать, что этот прогнозист действительно неплохо разбирается в деле. Проверяемой является вся совокупность этих суждений, тогда как признать единственное вероятностное суждение верным или неверным просто невозможно. Подобным образом установить наличие предвзятости по отношению к определенной группе людей достовернее всего можно с помощью статистики по значительному количеству случаев.

Процесс вынесения суждения можно также оценить, ответив на вопрос о его соответствии принципам логики или теории вероятностей. Многие исследования когнитивных искажений посвящены именно этому.

Если сосредоточить внимание не на результате, а именно на процессе вынесения суждения, можно оценить непроверяемые выводы, такие как гипотетические задачи или долгосрочные прогнозы. Даже не сравнивая эти выводы с реальным результатом, мы все-таки способны определить, была ли в них допущена ошибка. Когда мы перейдем к вопросу улучшения качества суждений, а не просто их оценки, мы также уделим основное внимание именно процессу. Все процедуры, рекомендованные в этой книге для снижения уровня смещения и шума, нацелены на внедрение процессов вынесения суждений, минимизирующих ошибки в совокупности похожих ситуаций.

Мы противопоставили друг другу два способа оценки суждений: сравнение вывода с реальным результатом и оценку качества процесса, который позволил к этому выводу прийти. Заметьте, что, оценивая проверяемое суждение обоими способами, мы можем прийти к разным заключениям. Квалифицированный и осторожный прогнозист, вооруженный лучшими инструментами и методиками, время от времени ошибается, предсказывая уровень квартальной инфляции. С другой стороны, иногда даже шимпанзе, метающая дротики в дартс[4], может попасть в точку.

Чтобы разрешить это противоречие, специалисты, изучающие принятие решений, дают четкие рекомендации: сосредоточьте внимание не на результате, полученном в индивидуальном случае, а на процессе принятия решения. Однако мы понимаем, что на практике так обычно не происходит. Профессионалов, как правило, оценивают по тому, насколько близкими их оценки оказываются к проверяемым результатам. При этом и сами они уверены, что стремятся к наиболее точному совпадению.

Итак, обычно люди убеждены, что при вынесении проверяемых суждений стремятся к совпадению прогноза с реальным результатом. На деле же, вне зависимости от степени проверяемости прогноза, они ждут внутреннего сигнала о готовности суждения, а он, в свою очередь, возникает, когда между условиями задачи и сделанным выводом не остается противоречий. Однако гораздо правильнее стремиться к тому, чтобы в процессе вынесения суждений было найдено оптимальное решение для целой совокупности похожих случаев.

Оценочные суждения

До сих пор в этой главе мы подробно рассматривали прогнозные суждения, и большинство примеров, разбираемых в этой книге, относятся именно к этому типу. Однако глава 1, где речь шла о судье Франкеле и шуме в системе вынесения уголовных приговоров, исследует иной тип суждений. Вынесение приговора – это не прогноз, а оценочное суждение, призванное подобрать наказание, соответствующее тяжести преступления. Жюри винных конкурсов и ресторанные критики выносят оценочные суждения. Профессора, читающие сочинения студентов, судьи на соревнованиях по фигурному катанию и комитеты, распределяющие исследовательские гранты, также выносят оценочные суждения.

Несколько другой тип оценочных суждений выносится в ситуациях, где для принятия решения нужно рассмотреть и взвесить множество альтернатив: руководители выбирают самого подходящего кандидата на некую должность, управленцы ищут оптимальную стратегию, президенты решают, как реагировать на эпидемию в Африке. Несомненно, для решения всех этих задач нужно сначала вынести прогнозные суждения, которые послужат исходными данными. Насколько продуктивным окажется выбранный кандидат в первый год работы? Как фондовый рынок отреагирует на новый стратегический ход? Как быстро распространится эпидемия в отсутствие сдерживающих мер? Однако для окончательного решения потребуется взвесить преимущества и недостатки имеющихся вариантов, и вот здесь понадобятся оценочные суждения.

1 Франкел использовал в своей книге слово «ukases», взятое из русского языка. – Здесь и далее примеч. пер.
2 Андеррайтер – специалист, проводящий оценку рисков и формирующий профессиональное суждение о рисках и способах их минимизации.
3 Контрфактуальное мышление – понятие в психологии, означающее конструирование возможных альтернативных вариантов уже произошедших событий, анализ возможного развития событий при ином наборе условий.
4 Имеется в виду эксперимент, поставленный в 1999 году. Шимпанзе метала дротики по мишени, на которой в случайном порядке были нанесены названия 133 компаний США. По результатам попаданий был составлен инвестиционный портфель, доходность которого составила 213 %, что превзошло результаты работы 6000 брокеров с Уолл-стрит.
Продолжение книги