tov_y: (Winking)
[personal profile] tov_y
В основе методов реконструкции Собянина–Суховольского и Шпилькина лежит эмпирическое установление некоторой статистической закономерность, которой подчиняются результаты всех партий, кроме партии власти. Это позволяет высказать разумное предположение о фальсификации выборов в её пользу и в его рамках реконструируется истинный результат путём устранения отклонения от установленной закономерности.
Беда этих методов состоит в недоказуемости исходного предположения. Теоретического обоснования оно заведомо не имеет, поскольку гипотетически возможны ситуации, когда оно нарушается (хотя их применимость к российским выборам сомнительна). Практическое его обоснование также проблематично, поскольку все используемые данные «расходуются» на расчёт размеров фальсификации. И мы уже не имеем возможности выяснить, до какой же степени всё-таки верно наше предположение, если оно, вдруг, верно не вполне.
Таким образом, необходимо привлечение дополнительных данных, не связанных непосредственно с результатами голосования.В качестве таких данных предлагается использовать динамику явки избирателей.
Для почти всех избирательных участков имеются данные о доле избирателей, проголосовавших к 10, 12, 15 и 18 часам местного времени. Отнормируем её на итоговую явку и рассмотрим распределение полученных величин (участки берутся с весами, равными числу зарегистрированных на них избирателей). Среднеквадратичное отклонение квантильных уровней отнормированной явки от медианного значения (далее – отклонение) выберем в качестве характеристики избирательного участка.
Update (06/02/12): Расчёты делаются отдельно для городских и сельских населённых пунктов. Судовые ТИК из рассмотрения исключены.
Никакого прямой связи между величиной отклонения и активностью избирателей или их политическими симпатиями, по идее, быть не должно. Однако, как видно из рисунка, она есть и весьма существенная.

Наиболее активный народ почему-то приходит на участки наименее типичным образом. Считать свободным от искажений можно только горизонтальный участок графика, соответствующий низким отклонениям. Таким образом, истинная явка составляет примерно 52÷53% (против официальных 60%). Примечательно, что эта величина совпадает для всех участков и для участков, оборудованных сканерами – комплексами обработки избирательных бюллетеней или комплексами электронного голосования. Использование этих устройств не препятствует фальсификации процедуры выборов, но осложняет фальсификацию их результатов.
На врезке даны результаты по всем участкам, на которых отклонение не превышает абсциссы. Интегральное представление позволяет иметь дело с более гладкими графиками, для которых легче визуально оценить то максимальное отклонение (примерно 15÷20%), при котором уже несущественны флуктуации, но ещё несущественны фальсификации. Именно в таком виде будет представлены все дальнейшие графики.

Сравним зависимости от максимального отклонения результатов партии власти и суммарного результата 6 оппозиционных партий. Здесь уже графики для участков со сканерами и без них не совпадают, поскольку если явка фальсифицируется только реальным или виртуальным вбросом бюллетеней, то результат – ещё и кражей голосов. Расстояние между графиками позволяет очень приблизительно (не будем забывать, что одинаковые абсциссы у графиков соответствуют разным наборам избирательных участков) оценить масштабы кражи в 3÷5% от числа избирателей.
Истинные результаты партии власти и оппозиционных партий составляют, соответственно, примерно 17% и 35% от числа избирателей (и ещё чуть менее 1% досталось поросёнку Нах-Нах). В пересчёте к доле избирателей, принявших участие в голосовании, эти цифры превратятся в 32% и 66%. Таким образом, уровень поддержки власти на выборов не достигает и 1/3, что даже меньше результатов социологических опросов.

Сравнение истинных результатов партий с официальными позволяет отдельно оценить масштабы фальсификации процедуры выборов и масштабы фальсификации их результатов. Горизонтальные участки графика дают 8 млн голосов, полученных партией власти в результате вброса бюллетеней, несвободного голосования и приписок, и еще 6 млн – как результат передачи ей голосов, реально отданных за оппозиционные партии. В сумме – 14 млн голосов, или примерно 80% от истинного результата.

Очень любопытным образом распределились кражи голосов по партиям. Больше всего обидели бабл-боя этих выборов – «Яблоко». У него в процентом отношении спёрли в 2÷3 раза больше, чем у партий прошедших в Думу, и даже больше, чем у аутсайдеров. Честный подсчёт голосов всё равно не позволил бы «Яблоку» преодолеть 7%-барьер (хотя избавил бы Явлинского от необходимости собирать подписи), но психологически феномен очень показательный.


UPD-1: Теперь посмотрим, что происходит с распределениями вероятности.
Приведённые ниже гистограммы построены с бинами 0,25% для всех участков и 1% для участков, оборудованных КОИБ/КЭГ. Все участки учитывались с весом, равным числу зарегистрированных избирателей. Чтобы устранить артефакты, возникающие из-за рассмотрения отношения целых чисел, неабсолютные результаты подвергались дизерингу посредством добавления к числителю случайной величины, равномерно распределённой на промежутке (–½;+½). Данная процедура повторялась 100 раз и результаты усреднялись.
Отдельно приведены результаты для участков с высоким (>25% – High) и низким (≤25% – Low) значением отклонения.

Видно, что по мере устранения из выборки сомнительных участков распределение по явке становится всё более узким и островерхим. Однако, как можно видеть из динамики коэффициентов асимметрии и эксцесса, то, что получается после реконструкции, – это не только не гауссово распределение, но и дальше от него, чем было исходное распределение (хотя визуально и может показаться, что получилась гауссиана). Дело в том, что очистка от «мусора» не устраняет из выборки всех участков с высокой явкой. Соответственно, центральные моменты уменьшаются не очень сильно (тем более, что смещение математического ожидания влево дополнительно препятствует их уменьшению). А вот среднеквадратичное отклонение уменьшается сильно. В результате коэффициенты асимметрии и эксцесса возрастают. Таким образом, чем дальше, тем сильнее график плотности скашивается влево и становится избыточно островерхим. Это дополнительный довод не требовать от «честных» распределений гауссова вида.

Аналогичная ситуация, только ещё в большем масштабе, имеет место для доли голосов, набранных партией власти. Следует отметить, что для участков с низким отклонением сохраняются пики на красивых процентах. Впрочем, это неудивительно, поскольку такие цифры, творимые на этапе заполнения протоколов, никак не связаны с динамикой явки.


UPD-2:
Теперь посмотрим на зависимость доли голосов набранных партиями, от явки. Как и в предыдущем фрагменте отдельно рассмотрены участки с высоким (>25% – High) и низким (≤25% – Low) значением отклонения, а все участки учитываются с весом, равным числу зарегистрированных на них избирателей.

В отличие от распределений по явке и результату, эта зависимость почти не чувствительна к динамике активности.

Аналогичным образом, наличие или отсутствие сканеров почти не сказывается на зависимости результата партии от явки. Хотя происходит некоторое уширение горизонтальных областей в левых частях зависимостей.
Эти результаты могут показаться противоречащими выводам о масштабах фальсификации. Однако противоречие это кажущееся. По мере очистки выборки от фальшивых замеров правые части зависимостей, соответствующие большой явке, теряют свою значимость. Вместе с тем, поскольку все фальшивые замеры вычистить всё равно не удаётся, отклонение графиков от горизонтального вида в этих частях сохраняется.


UPD-3:
По просьбам трудящихся выкладываю распределение участков по среднеквадратичному отклонению квантильных уровней отнормированной явки от медианного значения.

Красная линия соответствует участкам, взятым с единичным весом, синяя – с весом, равным числу зарегистрированных избирателей.
Из того, что пик красной кривой не воспроизводится на синей, можно заключить, что он соответствует очень маленьким участкам, на которых возможны чудовищные флуктуации в динамике явки.


UPD-4: [livejournal.com profile] oude_rus обнаружил ещё один признак липовых результатов ЕР – нулевое количество недействительных бюллетеней. Посмотрим на то, как данный критерий сказывается на распределении участков по отклонению явки.

Т.е. нулевой уровень недействительных бюллетеней добавляет 6 процентных пунктов к отклонению.


UPD-5: Истинный результат ЕР, или усреднённым экспертам посвящается
Поскольку, как я узнал у экспертов имеется консенсус относительно истинного результата ЕР на уровне 38-41%, выкладываю график зависимости её результата от максимального отклонения:

Как можно видеть, нижняя граница экспертных оценок чуть выше той цифры, которая получается, если вообще не исключать участки с сильно нетипичной динамикой явки. Видимо, я не вполне эксперт, но лично я ориентируюсь на полочку графика при абсцессе 15-20%.



Date: 2012-02-06 07:32 pm (UTC)
From: [identity profile] tov-y.livejournal.com
[livejournal.com profile] tsirel в привате уже высказал предположение, что может быть существенным, имеем ли мы дело с городом или деревней. Я всё переделал с разбивкой, т.е. мы смотрим отклонение от медианы распределения, соответствующего типу ТИК – городская или сельская. Кроме того, полностью исключены из рассмотрения все судовые ТИК, где данные о динамике явки – заведомая туфта (не потому что специально врут, а потому что то ли не собирают данных, то ли не имеют списков избирателей). Все рисунки обновлены. Что-то, конечно, поменялось, но, имхо, не принципиально.
P.S. О крупных городах – подумаю, но я не умею вычленять спецучастки.

Date: 2012-02-06 08:29 pm (UTC)
From: [identity profile] barouh.livejournal.com
Про спецучастки: для некоторых городов они вычленяются легко (для Москвы, например, все участки с номерами больше 3200; для некоторых других городов отличительным признаком также является отдельная от обычных УИКов нумерация и, соответственно, разрывы в нумерации внутри ТИКа). Но есть и города, где подобные спецучастки имеют общую нумерацию с обычными - и даже, кажется, не всегда помещаются в конец списка участков ТИКа

Так что выделять все спецучастки - дело муторное. И я этим не заморачивался. Я для городов использовал более просто решение - просто игнорировал все участки менее чем с 1000 избирателей. Бывают спецучастки более чем с 1000 голосующих, но это редкость. А меньше тысячи - это или спецучастки, или отдельные поселки и деревни, административно приписанные к городу, но такие поселения тоже имеет смысл исключать из анализа для большего единообразия

Date: 2012-02-07 03:15 am (UTC)
From: [identity profile] tov-y.livejournal.com
Исключение малых участков не имеет смысла, т.к. все расчёты делаются с весом, равным числу зарегистрированных избирателей. Малые участки, чтобы там на них ни происходило, не повлияют ощутимо на результаты.
Кроме того, я не хочу делать частичный анализ. Хочется работать сразу со всей страной.

Date: 2012-02-07 06:47 am (UTC)
From: [identity profile] barouh.livejournal.com
Да, сорри, я не обратил внимание, что все Ваши расчеты с весами по размеру участков

Что касается частичного или общенационального анализа, то у меня другое мнение - я считаю, что эффективнее начинать с частностей, про которые понятно, какими должны быть "органические" результаты. А уже потом проверять полученные результаты и выводы на всем массиве
Россия в целом - слишком сложный и неоднородный массив, при анализе которого надо держать в голове и учитывать слишком большое количество факторов и нюансов

Но это мои вкусовые предпочтения, на которых ни в коем случае не настаиваю. Чем больше разных путей анализа будет опробовано, тем лучше

Date: 2012-02-06 08:50 pm (UTC)
From: [identity profile] barouh.livejournal.com
Про город и деревню: сравнение с раздельными медианами для города и села, а не со средним по России, это конечно более аккуратный подход. Но я то говорил даже не столько о том, что в городе и на селе могут быть разные модели распределения явки по часам, сколько о том, что на селе (в силу меньшего среднего размера участка и, главное, более низкой компетенции УИКов) средней уровень отклонений может быть выше, чем в городах

Сравнение с раздельными городской и сельской медианами это предположение не проверяет, не подтверждает и не опровергает. Насколько я понимаю, для его проверки надо было бы сравнить средние отклонения в зависимости от процент за ЕР (или в зависимости от явки) - раздельно для города и села

Date: 2012-02-07 03:13 am (UTC)
From: [identity profile] tov-y.livejournal.com
1) А я не использую нигде средний уровень отклонения. Я использую квантильные уровни. Больше там сами цифры или меньше – не важно. Обогнал по величине, скажем 80% из своей группы (село или город), имеешь отклонение от медианы в 30%.
2) Простите, я не понял, что именно Вы предлагаете мне ещё сравнить. Напишите, пожалуйста, подробнее.

Date: 2012-02-07 06:53 am (UTC)
From: [identity profile] barouh.livejournal.com
Про квантильные уровни понял. Это частично снимает мой скепсис (и делает видимо бессмысленным то сравнение, которое я предлагал)

Можно было бы конечно еще вспомнить о том, что "сельские" ТИКи - это на самом деле очень неоднородная группа, включающая около 600 городов (в т.ч. такие крупные, как Люберцы или Энгельс) и множество поселков и крупных сельских райцентров, с одной стороны, и удаленные деревни и поселки, с другой стороны
Но наверное это уже нюансы, которые не должны сильно влиять на общую картину

Date: 2012-02-07 07:33 am (UTC)
From: [identity profile] tov-y.livejournal.com
У меня была другая мысль – распилить город на две части: большие города и не очень большие. Ну, просто потому, что на городские ТИК приходится вдвое больше народу, чем на сельские. Но мне лень – уж больно много времени съедает рисование картинок...

Date: 2012-02-07 07:52 am (UTC)
From: [identity profile] barouh.livejournal.com
Соглашусь, что делить на крупногородские и прочие городские ТИКи особого смысла нет

Во-первых, между ними не такая уж большая разница по электоральным предпочтениям - по моим оценкам, в среднем разница в % голосов за ЕР между областным центром и остальными городами составляет (по тем регионам, где не было значимых фальсификаций) около 5 процентных пунктов - типа 29% против 34-35%

Во-вторых, доля фальсификаций в крупных городах и в прочих городах примерно одинаковая. Например, в Москве и Самаре "рисовали" больше, чем в соответствующих областях. А обратных примеров - чтобы в областном центре все чисто, а во всех остальных городах везде фальсификации - я не припоминаю

Вот внутри сельских ТИКов разница между райцентрами и периферией и по электоральным предпочтениям, и предположительно по доле фальсификаций существенно выше - но ее куда труднее анализировать

April 2018

S M T W T F S
1234567
891011121314
15161718192021
222324 2526 2728
2930     

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 14th, 2025 11:07 pm
Powered by Dreamwidth Studios