Дмитрий Шабанов: Гауссу – верю!

Публикация поста в блоге, посвящённого выборам, оказалась для меня поучительной – он вызвал неожиданно широкую и эмоциональную реакцию. Я и начинал-то его с утверждения, что для разных людей убедительными оказываются разные вещи. Собственно, поскольку для меня оказались очень убедительными статические распределения, я и написал тот пост.

А следующим этапом стало его обсуждение, и в комментариях, и на моём сайте.

Картина обсуждения заставила меня помечтать ещё об одном способе обработки данных. Представьте себе: берём достаточно богатый спор на какой-то интернет-площадке и сравниваем сторонников двух точек зрения по грамотности, логичности, формальной вежливости их текстов. Конечно, нужны способы непредвзятой оценки необходимых параметров текстов… Впрочем, безо всякого статистического аппарата такой анализ проводит любой внимательный читатель, пропускающий через себя сетевые дискуссии.

Закончилось вот чем. Я ответил на те возражения, которые мне казались существенными. Множество комментариев остались без ответа. «По очкам» (количеству выступлений) я проиграл. По сути – убедился в своей правоте и, надеюсь, смог убедить многих разумных читателей.

Увы, как мне показалось, многим из нас просто не хватает понимания основ статистики. Попробую рассказать чуть понятнее. И начну с банкноты в 10 марок, выпущенной в те времена, когда Германия ещё не перешла на евро.

Рис. 1. Кто-то увидит здесь в первую очередь денежный знак иной страны с чуждой для многих россиян культурой. Это за такие (или более новые) бумажки продаются-де либералы, чуждые русскому духу!

На купюре – портрет Карла Гаусса, уравнение и график гауссианы. Деньги – это всего лишь деньги, некий экономический символ. Чтобы этим бумажкам верили, в них зашивают отсылки к какому-то фундаменту – и к нацбанку, и к науке, и культуре. Это не авторитет денег поддерживает математику; это классик математики поддерживает авторитет денег!

Чем же столь необычно нормальное, гауссовское распределение? Тем, что величина, на которую влияет множество независимых факторов, имеет распределение, стремящееся к нормальному. Вот, смотрите. Делаю массив из 10 случайных величин, распределения которых показаны на рисунке, вычисляю по 500 значений.

Рис. 2. По диагонали – распределения 10 случайных величин, варьирующих от 0 до 1 (по 500 значений). На пересечениях горизонтальных и вертикальных рядов, идущих от диагонали – двумерные распределения точек, показывающие отсутствие связи между величинами

Теперь суммируем эти величины. Распределение суммы близко к нормальному. Среднее значение – 5, но ни в одном случае сумма не оказалась равной, например, ни 1, ни 9. Эти значения возможны, но очень маловероятны.

Рис. 3. Почти чудо. Сумма 10 случайных равномерно распределённых величин приобрела нормальное распределение. Самое вероятное значение – 5

На самом деле, мы просто проиллюстрировали центральную предельную теорему. Мы увидели, что в данном случае распределение сумм случайных независимых величин оказалось близким к нормальному, а теорема эта доказывает это обстоятельство!

А что будет, если какой-то из факторов окажется очевидно сильнее остальных? Добавим к сумме одиннадцатый фактор: в одной трети случаев он окажется равен 3, в 2/3 – 0.

Рис. 4. К сумме, распределение которой показано на предыдущем графике, добавлено ещё одно слагаемое. В двух третях случаев мы не добавили ничего, а в одной трети – 3. У распределения появился вытянутый вправо «хвост»

Кстати, что было бы, если бы мы добавили 3 ко всем случаям? Кривая просто сместилась бы на три единицы вправо, средний результат был бы равен 8.

Итак, «хвост» распределения говорит о наличии мощного фактора, который действует не во всех случаях.

Мы убедились в некоторых свойствах нормального распределения. Теперь промоделируем условные выборы. Используем (на данном этапе) такие упрощения:

к каждому участку приписано 3000 избирателей;
49% избирателей голосуют за партию № 1, 19% — за партию № 2, 13% — № 3, 12% — № 4, 3% — № 5, 0,3% — за партию № 6 и 5,7% — за остальные партии;
для каждого избирателя вероятность дойти до избирательного участка одинакова (60%);
то, за какую партию проголосует избиратель, не зависит от того, придёт он или нет на участок, на какой участок он придёт, сколько людей на этом участке проголосовало вообще и как распределены их голоса.

Понятно, что такая модель значительно упрощена по сравнению в действительностью. Реализована она так. В программе Statistica-7 задано 150 000 «избирателей» (500 участков ? 3 000 голосов за партию). Каждый из них с вероятностью 0,49 голосует за партию № 1 и с соответствующими вероятностями – за остальные партии; каждый из них с вероятностью 0,6 доходит до участка.

Явка на участках несколько колебалась. Вас удивляет, что эта величина распределена колоколообразно?

Рис. 5. Распределение участков на модельных «выборах» по количеству проголосовавших (каждый избиратель приходил на участок с вероятностью 0,6)

А как же распределились голоса за партии? Смотрим, что получилось.

Рис. 6. Распределение голосов за шесть партий на модельных «выборах». Все распределения колоколообразны, за исключением соответствующего наименее популярной партии (0,3%)

Видимо, нужно посмотреть на распределение голосов наименьшей партии подробнее.

Рис. 7. Партия № 6 получила 0,3% голосов. Для нее характерно пуассоново распределение

Это пуассоново распределение – распределение числа совпадений независимых редких событий. Как вы видите, на большинстве участков за эту партию не проголосовал никто.

А что будет, если вероятность голосов, отданных за какую-то партию, будет расти? По мере увеличения вероятности голосов, отданных за какую-то партию, максимум распределения оторвется от ноля, будет отползать от ноля, а пуассоново распределение будет переходить в распределение, близкое к нормальному (колоколообразное). И по мере роста популярности партии это распределение будет сохранять колоколообразный характер до тех пор, пока вероятность не проголосовать за неё будет оставаться достаточно существенной.

А как же те читатели, которые утверждали, что близкими к нормальному должны быть все распределения, кроме распределения голосов за партию, набравшую максимум голосов? Ерунду писали.

А почему «близкое к нормальному» распределение, а не «нормальное»? Потому что каждый лишний голос за данную партию не только увеличивает процент отданных за нее голосов, но и увеличивает явку, снижая «вес» всех предыдущих голосов. Не буду сейчас зарываться в статистические тонкости; отвечая тем критикам, которые считают это распределение логнормальным (логарифмом нормального), скажу, что в подобных случаях разница между этими распределениями несущественна.

Рис. 8. Это распределение голосов за партию-лидера в более крупном масштабе. В обсуждении прошлого поста о выборах много копий сломано по тому поводу, с нормальным или с логнормальным распределением надо связывать распределение голосов, отданных за какую-то партию. Так вот: практически - без разницы!

При какой явке отклонения от нормальности будут более серьёзными: при постоянной или при изменчивой? Многие читатели моего предыдущего поста утверждали, что именно изменчивая явка является причиной статистических эффектов, зарегистрированных при анализе результатов российских выборов. Хорошо, проверим, как на распределения голосов повлияет переменная явка.

Рис. 9. Распределение 500 участков по явке. Максимум – явка 100%, 3000 голосов (сравните с рис. 5)

Ну и что изменилось?

Рис. 10. Распределение голосов за шесть партий при изменчивой явке. Сравните с рис. 6: не изменилось практически ничего

Давайте посмотрим на партию-лидера внимательнее…

Рис. 11. Распределение голосов за партию-лидера при изменчивой явке (сравните с рис. 8)

Всё то же самое. И, наконец, последнее. В числе возражений против использованных методов статистического анализа результатов высказывалась мысль, что по мере роста явки рост процент голосов, отданных за самую многочисленную партию, должен расти. Смотрим.

Рис. 12. Зависимость результатов для шести партий от общей явки на участках. Доля голосов остается постоянной (при условии, что предпочтения каждого избирателя формировались вне зависимости от явки на его участке)

До сих пор мы говорили не о российских выборах декабря этого года, а об их простой модели. Мы убедились в том, что если на результат выборов на каждом участке влияет множество независимых событий (волеизъявление множества независимых граждан), то получаются колоколообразные, близкие к нормальному, распределения.

Эта модель серьёзно отличается от действительности, поскольку в ней используются именно независимые голоса. Каждый избиратель голосует не случайно; у него, возможно, есть закономерные причины для определённых предпочтений. Но если принимаемые избирателями решения независимы от решений иных избирателей и от явки на участке, получаются вполне гауссовские распределения.

Иногда «хвосты» и двугорбости распределений оказываются связаны со смешением двух (или большего количества) разнородных выборок (например, участки в городе и в селе или в разных по социальной обстановке регионах). Это – данность, которая не зависит ни от чьего решения. Но гипотезу о таком характере распределения можно проверить, рассмотрев статистику для групп разнородных участков по отдельности.

Как влияет на результат партии, например, удачная агитация? Она повышает вероятность того, что этой партии отдадут свой голос. Распределение голосов по участкам останется колоколообразным, но сдвинется в сторону более высоких значений.

Как влияет на результат партии, например, вброс бюллетеней в её пользу? Примерно как на рис. 4: приводит к формированию красноречивого «хвоста».

Отведённое мне место давно исчерпано. Сформулирую гипотезу. Все легальные методы политической борьбы не приводят к существенному отклонению рассмотренных распределений от нормальности. Значительная часть мер, используемых при фальсификации выборов или административном влиянии на их ход, приводит к отклонению от колоколообразных распределений и формированию у выборок «хвостов».

Захотите – продолжу.