Поддержка Путина в России составляет не более 48% — заявили в Фонде борьбы с коррупцией. Сторонники Навального провели соцопрос по «новой методике», реализовав известный в социологии «списочный эксперимент». Что это такое? Можно ли верить его результатам? И насколько вообще научны данные ФБК? Докторант мюнхенского Института экономических исследований Лаша Чаргазия обнаружил в социологии Леонида Волкова и его товарищей много уязвимостей. По просьбе «Холода» он объясняет, в чем они заключаются.
Людям нравятся простые новости с цифрами. «Доллар подешевел на 10 рублей» — значит, мы стали богаче; «Число оправдательных приговоров в России упало до 0,33%» — суды нас не защищают; «рейтинг Путина — 48%» — действующего президента поддерживает меньшинство.
Далеко не всегда люди задумываются о том, как и откуда эти числа возникают. Например, о том, что растущий рубль может свидетельствовать о растущем дефиците (и подорожании) импортных товаров. Или о том, что доля оправдательных приговоров высчитывается от доли дел, дошедших до суда, а шанс до него не дойти составляет около 20%. Или о том, что «рейтинг Путина», опубликованный ФБК, — это не что-то наблюдаемое напрямую, а продукт «хитрого» и крайне требовательного исследовательского дизайна — списочного эксперимента. И если в описании того, в чем состоит «хитрость», Леонид Волков однозначно преуспел, то в описании потенциальных проблем и ограничений метода — к сожалению, нет. Сейчас объясню почему.
Измерение поддержки политических лидеров в авторитарных режимах — это нетривиальная задача. Люди боятся озвучивать свое настоящее мнение — даже в анонимных опросах. Точно так же, как респонденты в демократических странах опасаются отвечать «социально неодобряемо» на вопросы, связанные с правами меньшинств. Именно для того, чтобы преодолеть эту проблему, ученые применяют списочные эксперименты. С их помощью, например, измеряются распространенность расизма и домашнего насилия, использования секс-услуг и употребления наркотиков.
Дизайн списочных экспериментов не имеет четких правил и скорее интуитивен. Выборка респондентов (скажем, 1000 человек) случайным образом разбивается на две равные подвыборки (по 500 человек в каждой). Одной из них («контрольной группе») предлагается список из небольшого числа нейтральных («нечувствительных») пунктов:
Я читал «Преступление и наказание»
Я стараюсь ходить в театр как минимум раз в месяц
Я посещал футбольные матчи во время чемпионата мира в России
В этом месяце я жертвовал деньги благотворительным организациям
Для второй же подвыборки («экспериментальной группы») к этому списку добавляется еще один пункт, содержащий информацию о том, что мы хотим измерить:
Я читал «Преступление и наказание»
Я стараюсь ходить в театр как минимум раз в месяц
Я посещал футбольные матчи во время чемпионата мира в России
В этом месяце я жертвовал деньги благотворительным организациям
Я поддерживаю политику нашего президента
В обоих случаях респондентов не просят сказать, с какими именно пунктами они согласны — только назвать количество таких пунктов в представленном списке.
Далее из среднего значения в экспериментальной группе вычитается среднее значение в контрольной группе, и в результате мы получаем красивую и несмещенную оценку «поддержки политики президента».
Неслучайно, однако, было упомянуто, что списочный эксперимент — это крайне требовательный исследовательский дизайн, в основе которого лежат несколько важных предположений как о качествах выборки, так и о поведении респондентов в ходе опроса. Вот что получилось и не получилось у ФБК.
Выборка: все-таки взвешенная или стратифицированная? И в чем разница?
К тому, как социологи ФБК отбирают респондентов для своих опросов, всегда было много претензий. И претензий зачастую справедливых. Еще в августе команде Навального приходилось отбиваться от комментаторов после публикации откровенно неудачного исследования европейского общественного мнения: его результаты шли вразрез со всеми уважаемыми социологическими службами региона.
Нынешнее исследование, к большому сожалению, исключением не стало. Леонид Волков, рассказавший об итогах опроса в видеоролике, очевидно, не является социологом и не всегда понимает значение слов, которые произносит. Поэтому когда Волков говорит о случайной выборке в 1000 человек, взвешенной по определенным характеристикам и опрошенной в соответствии с распространением этих характеристик в населении России, — у любого профессионального социолога непроизвольно возникает когнитивный диссонанс.
И вот почему.
Случайность выборки в рамках телефонного опроса — практически невероятное явление. В первую очередь из-за смещения вследствие отказа. То есть случайность нарушается из-за того, что люди, которые отказались от участия в исследовании, могут систематически отличаться в своих взглядах и характеристиках от тех, кто на прохождение опроса согласился. Чтобы показать, насколько выборка случайна, социальные ученые нередко публикуют статистику о числе отказов от прохождения опроса: чем выше это число, тем более вероятно, что выборка смещена.
Выборка, которая строится на основании заранее известных характеристик, называется «стратифицированной», а не «взвешенной» — и именно ее, скорее всего, имел в виду Леонид Волков. Стратифицированная выборка — это отличное начало для того, чтобы достигнуть репрезентативности, однако одной стратификации для этой задачи недостаточно. На репрезентативность также могут влиять образование респондентов, доходы их домохозяйств и прочие характеристики, которые зачастую невозможно узнать до того, как люди сами расскажут о них в ходе опроса.
Взвешивание выборки проводится именно для того, чтобы учесть распределение таких характеристик — и только после сбора данных. С помощью незамысловатых математических техник каждому наблюдению в выборке (то есть каждому человеку) присваивается свой «вес», который отражает то, насколько этот человек «репрезентативен» для населения. С помощью «весов» все результаты анализа, включая средние значения, поправляются, и мы получаем более репрезентативные выводы (подробнее можно почитать здесь).
Наконец, финальная проблема — это масштаб выборки. Конечно, он не должен выбираться «с потолка» или «потому что 1000 — это круглое и красивое число». Для определения размера выборки ученые проводят анализ статистической мощности и выясняют, сколько респондентов им необходимо опросить для проверки своих гипотез. Публикация результатов этого анализа является обязательной для подобных социологических исследований.
Суммируя претензии к выборке: Леонид Волков (специально или нет) не показывает зрителями социально-демографические характеристики респондентов, не показывает результаты взвешивания (если оно вообще применялось) и не приводит анализ статистической мощности. Я вовсе не заявляю, что это обязательно нужно делать в формате ознакомительного видеоролика, но сопроводительный документ исследования — абсолютно необходим для сколько-нибудь экспертного обсуждения результатов. Верить на слово тому, что все «хорошо и честно, и репрезентативно» — это плохая практика даже в научном мире, а в политическом — тем более.
А как вообще проводился этот списочный эксперимент?
Я убежден, что даже самый плохо организованный списочный эксперимент дает более правдивую оценку, чем прямой вопрос о поддержке Владимира Путина. В этом смысле то, что ФБК начинают использовать «продвинутые» научные методы в своей работе — это уже огромный шаг вперед. Тем не менее, даже если мы делаем предположение о репрезентативности выборки, утверждать, что результат ФБК надежен, при всем желании не приходится.
В первую очередь это связано с тем, что мы ничего не знаем о том, какие именно «нечувствительные» пункты были использованы в эксперименте, однако те примеры, что были перечислены Леонидом Волковым — например, «Я считаю, что судебная система защищает интересы простого человека» или «Я считаю, что имидж России на международной арене за последний год улучшился», — далеко не нейтральны. Во время широких репрессий критика в отношении решений или действий власти может ничем не отличаться от критики самой власти — и каждый пункт может восприниматься респондентами как «чувствительный».
Еще одна проблема — это формулировка «чувствительного» пункта, который используется в списке для экспериментальной группы: «Я хотел бы, чтобы Путин оставался президентом после марта 2024 года». Используя такую формулировку, ФБК совершает небольшую манипуляцию. Говоря о поддержке Путина в 48%, нам оставляют додумать, что оставшиеся 52% — против. Однако в этих же 52% и Z-патриоты, мечтающие о президенте Стрелкове, и живущие прошлым коммунисты, и даже те, кто поддерживают «Единую Россию» — просто хотят президента помоложе; то есть все те, для кого Путин — это «нормально», но просто не «первый выбор».
Проще говоря, хотеть не-Путина и не хотеть Путина — это фундаментально разные позиции. Как упомянул Волков, ФБК провели два списочных эксперимента, используя разные «нечувствительные» пункты. Хорошей практикой было бы также изменить «чувствительный» пункт в одном из опросов на «Я не хотел бы, чтобы Путин оставался президентом после 2024 года» и посмотреть, сложилась ли бы сумма в 100%.
Кроме того, остается вопрос о том, как был озвучен порядок пунктов и был ли он рандомизирован на уровне респондентов. Одно из важнейших предположений списочного эксперимента: на ответы не должен влиять порядок озвучивания пунктов. Иными словами, в подгруппе респондентов, которая услышала «Я хотел бы, чтобы Путин оставался президентом после марта 2024 года» первым пунктом в списке, среднее значение должно быть таким же, как и в подгруппе, которая услышала его последним (или вторым, третьим и так далее).
Наконец, вероятно, самый важный недочет в проведенном исследовании: ФБК разделили выборку всего на две подвыборки — контрольную и экспериментальную. Таким образом, никому из респондентов не задавался прямой вопрос о поддержке Путина, с которым можно было бы сравнить результаты списочного эксперимента, и который, в свою очередь, можно было бы сравнить с результатами других опросов (в том числе проведенных «провластным» ВЦИОМом). Может быть, респондент сторонников Навального действительно против Путина и даже этого не скрывает. ФБК предоставили крайне мало информации о том, как проводился опрос, и без этой информации делать какие-либо выводы о качествах результата — попросту невозможно.
Верно ли все посчитали?
Последний, но, возможно, самый важный блок вопросов к ФБК касается диагностики результатов. Под диагностикой ученые понимают все, что делается после получения выводов с целью убедиться в их надежности. Основной угрозой для списочных экспериментов считаются floor и ceiling effects, которые можно грубо перевести на русский язык как «эффекты нижней и верхней границы». Описать эти эффекты проще, используя наглядные примеры. Представьте себе два списка, предоставленных контрольной группе:
Проблемы обоих списков достаточно легко обнаружить. В первом случае значимая доля респондентов выберет все четыре пункта, в то время как во втором — ноль. В обоих случаях, однако, респонденты лишаются чувства «защищенности», на котором строится списочный эксперимент. Если они выбрали все четыре пункта, то мы доподлинно знаем, какие именно пункты они выбрали; если они не выбрали ни один, то мы доподлинно знаем, какие — нет.
Таким образом, когда мы добавляем к этим спискам «чувствительный» пункт, респонденты из экспериментальной группы не будут чувствовать себя защищенно и могут солгать. А респонденты из контрольной группы в случае нейтральных пунктов не чувствуют, что им необходимо лгать. Эта асимметрия приводит к искажению в результатах. Именно поэтому статистические тесты на отсутствие данных эффектов — важнейшая часть хорошего списочного эксперимента, их надо проводить регулярно. А в ролике Волкова эта необходимость полностью игнорируется.
Второй большой вопрос, касающийся диагностики результатов, — это отсутствие плацебо-эксперимента, состоящего целиком из нейтральных пунктов, касающихся известных характеристик респондентов. В случае если результаты плацебо-эксперимента не соответствуют объективной реальности — в дизайне эксперимента или процессе формирования выборки есть серьезные изъяны, на которые нужно обратить внимание. Хороший пример плацебо-эксперимента можно посмотреть тут.
Наконец, неизвестно, какие вопросы задавались респондентам до списочного эксперимента. Определенные вопросы, особенно связанные с политическим предпочтениями, могут создавать эффект «прайминга» (предвзятости), и в подобных случаях важно проводить специальные тесты, чтобы утверждать о его отсутствии.
К сожалению, диагностика результатов не упоминается ни в видео Леонида Волкова, ни в его же «душном и длинном социологическим треде». И я более чем допускаю, что она попросту не проводилась, потому что fun fact, но ученые ненавидят возиться с диагностикой.
Подведем итог. ФБК использовали хорошо известный и распространенный в науке метод, приправив его некорректной презентацией результатов и крайне спорной политической интерпретацией. Это важно не только для нас — аудитории, — но и для самого ФБК, потому что, если верить Леониду Волкову, их политическая стратегия базируется на внутренней социологии. Главная проблема заключается в том, что у «внутренней социологии» есть один большой и часто замалчиваемый минус, о котором знают все, кто читал о том, как спецслужбы готовят Путину «папочки»: за ширмой чисел — все очень и очень плохо.
Рассказывать о своей деятельности широкой аудитории простым языком — это здорово и важно. Но куда важнее сохранять прозрачность, открыто говорить о своих ограничениях и позволять людям воспроизводить вашу работу. Это то, как работает и развивается наука: то, как другие люди помогают вашему исследованию, и то, как вы помогаете другим людям. В противном случае 48% ФБК ничем не отличаются от 75% ЦИК.
Мнение автора может не совпадать с мнением редакции.