Публикация поста в блоге, посвящённого выборам, оказалась для меня поучительной – он вызвал неожиданно широкую и эмоциональную реакцию. Я и начинал-то его с утверждения, что для разных людей убедительными оказываются разные вещи. Собственно, поскольку для меня оказались очень убедительными статические распределения, я и написал тот пост.
А следующим этапом стало его обсуждение, и в комментариях, и на моём сайте.
Картина обсуждения заставила меня помечтать ещё об одном способе обработки данных. Представьте себе: берём достаточно богатый спор на какой-то интернет-площадке и сравниваем сторонников двух точек зрения по грамотности, логичности, формальной вежливости их текстов. Конечно, нужны способы непредвзятой оценки необходимых параметров текстов… Впрочем, безо всякого статистического аппарата такой анализ проводит любой внимательный читатель, пропускающий через себя сетевые дискуссии.
Закончилось вот чем. Я ответил на те возражения, которые мне казались существенными. Множество комментариев остались без ответа. «По очкам» (количеству выступлений) я проиграл. По сути – убедился в своей правоте и, надеюсь, смог убедить многих разумных читателей.
Увы, как мне показалось, многим из нас просто не хватает понимания основ статистики. Попробую рассказать чуть понятнее. И начну с банкноты в 10 марок, выпущенной в те времена, когда Германия ещё не перешла на евро.
На купюре – портрет Карла Гаусса, уравнение и график гауссианы. Деньги – это всего лишь деньги, некий экономический символ. Чтобы этим бумажкам верили, в них зашивают отсылки к какому-то фундаменту – и к нацбанку, и к науке, и культуре. Это не авторитет денег поддерживает математику; это классик математики поддерживает авторитет денег!
Чем же столь необычно нормальное, гауссовское распределение? Тем, что величина, на которую влияет множество независимых факторов, имеет распределение, стремящееся к нормальному. Вот, смотрите. Делаю массив из 10 случайных величин, распределения которых показаны на рисунке, вычисляю по 500 значений.
Теперь суммируем эти величины. Распределение суммы близко к нормальному. Среднее значение – 5, но ни в одном случае сумма не оказалась равной, например, ни 1, ни 9. Эти значения возможны, но очень маловероятны.
На самом деле, мы просто проиллюстрировали центральную предельную теорему. Мы увидели, что в данном случае распределение сумм случайных независимых величин оказалось близким к нормальному, а теорема эта доказывает это обстоятельство!
А что будет, если какой-то из факторов окажется очевидно сильнее остальных? Добавим к сумме одиннадцатый фактор: в одной трети случаев он окажется равен 3, в 2/3 – 0.
Кстати, что было бы, если бы мы добавили 3 ко всем случаям? Кривая просто сместилась бы на три единицы вправо, средний результат был бы равен 8.
Итак, «хвост» распределения говорит о наличии мощного фактора, который действует не во всех случаях.
Мы убедились в некоторых свойствах нормального распределения. Теперь промоделируем условные выборы. Используем (на данном этапе) такие упрощения:
- к каждому участку приписано 3000 избирателей;
- 49% избирателей голосуют за партию № 1, 19% — за партию № 2, 13% — № 3, 12% — № 4, 3% — № 5, 0,3% — за партию № 6 и 5,7% — за остальные партии;
- для каждого избирателя вероятность дойти до избирательного участка одинакова (60%);
- то, за какую партию проголосует избиратель, не зависит от того, придёт он или нет на участок, на какой участок он придёт, сколько людей на этом участке проголосовало вообще и как распределены их голоса.
Понятно, что такая модель значительно упрощена по сравнению в действительностью. Реализована она так. В программе Statistica-7 задано 150 000 «избирателей» (500 участков ? 3 000 голосов за партию). Каждый из них с вероятностью 0,49 голосует за партию № 1 и с соответствующими вероятностями – за остальные партии; каждый из них с вероятностью 0,6 доходит до участка.
Явка на участках несколько колебалась. Вас удивляет, что эта величина распределена колоколообразно?
А как же распределились голоса за партии? Смотрим, что получилось.
Видимо, нужно посмотреть на распределение голосов наименьшей партии подробнее.
Это пуассоново распределение – распределение числа совпадений независимых редких событий. Как вы видите, на большинстве участков за эту партию не проголосовал никто.
А что будет, если вероятность голосов, отданных за какую-то партию, будет расти? По мере увеличения вероятности голосов, отданных за какую-то партию, максимум распределения оторвется от ноля, будет отползать от ноля, а пуассоново распределение будет переходить в распределение, близкое к нормальному (колоколообразное). И по мере роста популярности партии это распределение будет сохранять колоколообразный характер до тех пор, пока вероятность не проголосовать за неё будет оставаться достаточно существенной.
А как же те читатели, которые утверждали, что близкими к нормальному должны быть все распределения, кроме распределения голосов за партию, набравшую максимум голосов? Ерунду писали.
А почему «близкое к нормальному» распределение, а не «нормальное»? Потому что каждый лишний голос за данную партию не только увеличивает процент отданных за нее голосов, но и увеличивает явку, снижая «вес» всех предыдущих голосов. Не буду сейчас зарываться в статистические тонкости; отвечая тем критикам, которые считают это распределение логнормальным (логарифмом нормального), скажу, что в подобных случаях разница между этими распределениями несущественна.
При какой явке отклонения от нормальности будут более серьёзными: при постоянной или при изменчивой? Многие читатели моего предыдущего поста утверждали, что именно изменчивая явка является причиной статистических эффектов, зарегистрированных при анализе результатов российских выборов. Хорошо, проверим, как на распределения голосов повлияет переменная явка.
Ну и что изменилось?
Давайте посмотрим на партию-лидера внимательнее…
Всё то же самое. И, наконец, последнее. В числе возражений против использованных методов статистического анализа результатов высказывалась мысль, что по мере роста явки рост процент голосов, отданных за самую многочисленную партию, должен расти. Смотрим.
До сих пор мы говорили не о российских выборах декабря этого года, а об их простой модели. Мы убедились в том, что если на результат выборов на каждом участке влияет множество независимых событий (волеизъявление множества независимых граждан), то получаются колоколообразные, близкие к нормальному, распределения.
Эта модель серьёзно отличается от действительности, поскольку в ней используются именно независимые голоса. Каждый избиратель голосует не случайно; у него, возможно, есть закономерные причины для определённых предпочтений. Но если принимаемые избирателями решения независимы от решений иных избирателей и от явки на участке, получаются вполне гауссовские распределения.
Иногда «хвосты» и двугорбости распределений оказываются связаны со смешением двух (или большего количества) разнородных выборок (например, участки в городе и в селе или в разных по социальной обстановке регионах). Это – данность, которая не зависит ни от чьего решения. Но гипотезу о таком характере распределения можно проверить, рассмотрев статистику для групп разнородных участков по отдельности.
Как влияет на результат партии, например, удачная агитация? Она повышает вероятность того, что этой партии отдадут свой голос. Распределение голосов по участкам останется колоколообразным, но сдвинется в сторону более высоких значений.
Как влияет на результат партии, например, вброс бюллетеней в её пользу? Примерно как на рис. 4: приводит к формированию красноречивого «хвоста».
Отведённое мне место давно исчерпано. Сформулирую гипотезу. Все легальные методы политической борьбы не приводят к существенному отклонению рассмотренных распределений от нормальности. Значительная часть мер, используемых при фальсификации выборов или административном влиянии на их ход, приводит к отклонению от колоколообразных распределений и формированию у выборок «хвостов».
Захотите – продолжу.