tov_y: (Winking)
tov_y ([personal profile] tov_y) wrote2012-02-03 05:25 pm
Entry tags:

Реконструкция результатов выборов

В основе методов реконструкции Собянина–Суховольского и Шпилькина лежит эмпирическое установление некоторой статистической закономерность, которой подчиняются результаты всех партий, кроме партии власти. Это позволяет высказать разумное предположение о фальсификации выборов в её пользу и в его рамках реконструируется истинный результат путём устранения отклонения от установленной закономерности.
Беда этих методов состоит в недоказуемости исходного предположения. Теоретического обоснования оно заведомо не имеет, поскольку гипотетически возможны ситуации, когда оно нарушается (хотя их применимость к российским выборам сомнительна). Практическое его обоснование также проблематично, поскольку все используемые данные «расходуются» на расчёт размеров фальсификации. И мы уже не имеем возможности выяснить, до какой же степени всё-таки верно наше предположение, если оно, вдруг, верно не вполне.
Таким образом, необходимо привлечение дополнительных данных, не связанных непосредственно с результатами голосования.В качестве таких данных предлагается использовать динамику явки избирателей.
Для почти всех избирательных участков имеются данные о доле избирателей, проголосовавших к 10, 12, 15 и 18 часам местного времени. Отнормируем её на итоговую явку и рассмотрим распределение полученных величин (участки берутся с весами, равными числу зарегистрированных на них избирателей). Среднеквадратичное отклонение квантильных уровней отнормированной явки от медианного значения (далее – отклонение) выберем в качестве характеристики избирательного участка.
Update (06/02/12): Расчёты делаются отдельно для городских и сельских населённых пунктов. Судовые ТИК из рассмотрения исключены.
Никакого прямой связи между величиной отклонения и активностью избирателей или их политическими симпатиями, по идее, быть не должно. Однако, как видно из рисунка, она есть и весьма существенная.

Наиболее активный народ почему-то приходит на участки наименее типичным образом. Считать свободным от искажений можно только горизонтальный участок графика, соответствующий низким отклонениям. Таким образом, истинная явка составляет примерно 52÷53% (против официальных 60%). Примечательно, что эта величина совпадает для всех участков и для участков, оборудованных сканерами – комплексами обработки избирательных бюллетеней или комплексами электронного голосования. Использование этих устройств не препятствует фальсификации процедуры выборов, но осложняет фальсификацию их результатов.
На врезке даны результаты по всем участкам, на которых отклонение не превышает абсциссы. Интегральное представление позволяет иметь дело с более гладкими графиками, для которых легче визуально оценить то максимальное отклонение (примерно 15÷20%), при котором уже несущественны флуктуации, но ещё несущественны фальсификации. Именно в таком виде будет представлены все дальнейшие графики.

Сравним зависимости от максимального отклонения результатов партии власти и суммарного результата 6 оппозиционных партий. Здесь уже графики для участков со сканерами и без них не совпадают, поскольку если явка фальсифицируется только реальным или виртуальным вбросом бюллетеней, то результат – ещё и кражей голосов. Расстояние между графиками позволяет очень приблизительно (не будем забывать, что одинаковые абсциссы у графиков соответствуют разным наборам избирательных участков) оценить масштабы кражи в 3÷5% от числа избирателей.
Истинные результаты партии власти и оппозиционных партий составляют, соответственно, примерно 17% и 35% от числа избирателей (и ещё чуть менее 1% досталось поросёнку Нах-Нах). В пересчёте к доле избирателей, принявших участие в голосовании, эти цифры превратятся в 32% и 66%. Таким образом, уровень поддержки власти на выборов не достигает и 1/3, что даже меньше результатов социологических опросов.

Сравнение истинных результатов партий с официальными позволяет отдельно оценить масштабы фальсификации процедуры выборов и масштабы фальсификации их результатов. Горизонтальные участки графика дают 8 млн голосов, полученных партией власти в результате вброса бюллетеней, несвободного голосования и приписок, и еще 6 млн – как результат передачи ей голосов, реально отданных за оппозиционные партии. В сумме – 14 млн голосов, или примерно 80% от истинного результата.

Очень любопытным образом распределились кражи голосов по партиям. Больше всего обидели бабл-боя этих выборов – «Яблоко». У него в процентом отношении спёрли в 2÷3 раза больше, чем у партий прошедших в Думу, и даже больше, чем у аутсайдеров. Честный подсчёт голосов всё равно не позволил бы «Яблоку» преодолеть 7%-барьер (хотя избавил бы Явлинского от необходимости собирать подписи), но психологически феномен очень показательный.


UPD-1: Теперь посмотрим, что происходит с распределениями вероятности.
Приведённые ниже гистограммы построены с бинами 0,25% для всех участков и 1% для участков, оборудованных КОИБ/КЭГ. Все участки учитывались с весом, равным числу зарегистрированных избирателей. Чтобы устранить артефакты, возникающие из-за рассмотрения отношения целых чисел, неабсолютные результаты подвергались дизерингу посредством добавления к числителю случайной величины, равномерно распределённой на промежутке (–½;+½). Данная процедура повторялась 100 раз и результаты усреднялись.
Отдельно приведены результаты для участков с высоким (>25% – High) и низким (≤25% – Low) значением отклонения.

Видно, что по мере устранения из выборки сомнительных участков распределение по явке становится всё более узким и островерхим. Однако, как можно видеть из динамики коэффициентов асимметрии и эксцесса, то, что получается после реконструкции, – это не только не гауссово распределение, но и дальше от него, чем было исходное распределение (хотя визуально и может показаться, что получилась гауссиана). Дело в том, что очистка от «мусора» не устраняет из выборки всех участков с высокой явкой. Соответственно, центральные моменты уменьшаются не очень сильно (тем более, что смещение математического ожидания влево дополнительно препятствует их уменьшению). А вот среднеквадратичное отклонение уменьшается сильно. В результате коэффициенты асимметрии и эксцесса возрастают. Таким образом, чем дальше, тем сильнее график плотности скашивается влево и становится избыточно островерхим. Это дополнительный довод не требовать от «честных» распределений гауссова вида.

Аналогичная ситуация, только ещё в большем масштабе, имеет место для доли голосов, набранных партией власти. Следует отметить, что для участков с низким отклонением сохраняются пики на красивых процентах. Впрочем, это неудивительно, поскольку такие цифры, творимые на этапе заполнения протоколов, никак не связаны с динамикой явки.


UPD-2:
Теперь посмотрим на зависимость доли голосов набранных партиями, от явки. Как и в предыдущем фрагменте отдельно рассмотрены участки с высоким (>25% – High) и низким (≤25% – Low) значением отклонения, а все участки учитываются с весом, равным числу зарегистрированных на них избирателей.

В отличие от распределений по явке и результату, эта зависимость почти не чувствительна к динамике активности.

Аналогичным образом, наличие или отсутствие сканеров почти не сказывается на зависимости результата партии от явки. Хотя происходит некоторое уширение горизонтальных областей в левых частях зависимостей.
Эти результаты могут показаться противоречащими выводам о масштабах фальсификации. Однако противоречие это кажущееся. По мере очистки выборки от фальшивых замеров правые части зависимостей, соответствующие большой явке, теряют свою значимость. Вместе с тем, поскольку все фальшивые замеры вычистить всё равно не удаётся, отклонение графиков от горизонтального вида в этих частях сохраняется.


UPD-3:
По просьбам трудящихся выкладываю распределение участков по среднеквадратичному отклонению квантильных уровней отнормированной явки от медианного значения.

Красная линия соответствует участкам, взятым с единичным весом, синяя – с весом, равным числу зарегистрированных избирателей.
Из того, что пик красной кривой не воспроизводится на синей, можно заключить, что он соответствует очень маленьким участкам, на которых возможны чудовищные флуктуации в динамике явки.


UPD-4: [livejournal.com profile] oude_rus обнаружил ещё один признак липовых результатов ЕР – нулевое количество недействительных бюллетеней. Посмотрим на то, как данный критерий сказывается на распределении участков по отклонению явки.

Т.е. нулевой уровень недействительных бюллетеней добавляет 6 процентных пунктов к отклонению.


UPD-5: Истинный результат ЕР, или усреднённым экспертам посвящается
Поскольку, как я узнал у экспертов имеется консенсус относительно истинного результата ЕР на уровне 38-41%, выкладываю график зависимости её результата от максимального отклонения:

Как можно видеть, нижняя граница экспертных оценок чуть выше той цифры, которая получается, если вообще не исключать участки с сильно нетипичной динамикой явки. Видимо, я не вполне эксперт, но лично я ориентируюсь на полочку графика при абсцессе 15-20%.



[identity profile] winpooh.livejournal.com 2012-02-03 01:34 pm (UTC)(link)
> Никакого прямой связи между величиной отклонения и активностью избирателей или их политическими симпатиями, по идее, быть не должно.

Неочевидно. Идею - в студию.

[identity profile] winpooh.livejournal.com 2012-02-03 01:36 pm (UTC)(link)
Да, и где на графике голоса, украденные у Единой России?

[identity profile] tov-y.livejournal.com 2012-02-03 01:41 pm (UTC)(link)
Если кто-то сумеет предложить сценарий систематического изменения явки/результата с ростом отклонения, тогда можно будет что-то обсуждать. Но думаю, что предложить такой сценарий не удастся, что и обозначено оборотом «по идее».

[identity profile] tov-y.livejournal.com 2012-02-03 01:43 pm (UTC)(link)
Нигде. Если её истинный результат меньше официального, значит у неё ничего не украдено (разумеется, речь идёт об интегральных показателях), а ей добавлено.

[identity profile] winpooh.livejournal.com 2012-02-03 01:47 pm (UTC)(link)
Так "её истинный результат меньше официального" - это исходное предположение исследования, или гипотеза, которую оно призвано подтвердить? Если первое, то исследование предвзято. Если второе - график на бочку :))

[identity profile] winpooh.livejournal.com 2012-02-03 01:51 pm (UTC)(link)
Представим себе, например, предприятие непрерывного цикла, рабочие которого работают посменно. Допустим, они в своей массе голосуют за партию А. Смена закончилась в пять вечера, все рабочие твёрдым шагом двинулись на избирательный участок. Вот и систематическое отклонение нарисовалось.

[identity profile] tov-y.livejournal.com 2012-02-03 01:57 pm (UTC)(link)
Нет, это не предположение и не гипотеза. Это результат расчёта по описанной методике. Ставить соответствующий график в основной текст я не хочу (там и так много картинок). Так что можешь довольствоваться синей линией на третьем графике для абсолютных размеров покражи в пользу ЕР. Либо давай я тебе график вышлю на почту (как постить картинки в каменты, я не знаю).

[identity profile] tov-y.livejournal.com 2012-02-03 02:15 pm (UTC)(link)
А те рабочие, которые заступили на вахту вместо освободившейся смены, голосовали в другое время. А ещё жёны ждут дома с обедом своих мужиков, а не бегут с ними синхронно к урнам. А большинство жителей города вообще не работало, ибо воскресенье. А кто-то просто не любит толкотни и зная, что со смены повалит народ, специально выбирает другое время. А ещё есть другие города/регионы, где предприятия непрерывного цикла имеют другой график смен либо их сотрудники имеют другие политические симпатии или другой уровень политической активности. Etc, etc, etc...
На каждую причину отклонения от нормы найдётся ворох других причин, действующих по отношению к ней с произвольным сдвигом по фазе. В результате не должно оставаться никаких систематически действующих факторов – только флуктуации.

[identity profile] kobak.livejournal.com 2012-02-03 02:29 pm (UTC)(link)
1. Интересно!

2. Несколько раз перечитал вводный абзац

"Для почти всех избирательных участков имеются данные о доле избирателей, проголосовавших к 10, 12, 15 и 18 часам местного времени. Отнормируем её на итоговую явку и рассмотрим распределение полученных величин (участки берутся с весами, равными числу зарегистрированных на них избирателей). Среднеквадратичное отклонение квантильных уровней отнормированной явки от медианного значения (далее – отклонение) выберем в качестве характеристики избирательного участка"

-- но всё равно не уверен, что правильно понял, как Вы считаете отклонение. Напишите поподробнее, пожалуйста. Но если я правильно, понял общую идею, то "отклонение" характеризует величину максимального скачка между двумя отметками явки.

3. На втором графике у Вас в легенде синяя и красная кривые не перепутаны? Если нет, то ничего не понятно.

4. Общий разультат (32%) кажется преуменьшенным. Возможно, это потому, что Вы все калибруете по коибам, а они стояли по большей части в городах и тд.

5. Любопытно было бы еще посмотреть на диаграммы рассеяния (а не только средние линии): отклонение-явка и отклонение-результат ЕР...

[identity profile] kobak.livejournal.com 2012-02-03 02:30 pm (UTC)(link)
По поводу (3): либо я ошибся, либо Вы уже исправили. В любом случае, теперь всё в порядке.

[identity profile] kireev.livejournal.com 2012-02-03 03:04 pm (UTC)(link)
Спасибо за исследование. Помимо уже сказанного, что КОИБы стояли преимущественно в городах, я бы еще добавил, что фальсифицировали чаще там, где у ЕР был и честно бы выше результат, и это искажает оценку фальсификаций.

[identity profile] tov-y.livejournal.com 2012-02-03 03:30 pm (UTC)(link)
2. Для каждого момента ti времени имеется официальная цифра явки pi. И имеется финальная явка p. Берутся отнормированные отношения pi/p. Строится их распределение по всем участкам, для которых есть данные о динамике явки. Участки берутся с весом, равным числу избирателей. Соответственно, для каждого участка возникает набор квантильных уровней qi, определяемых как процент участков, для которых отношение pi/p меньше, чем у данного. Дальше вычисляется среднеквадратичное отклонение qi от 50%. С ним и работаем.
В целом, таки да, отклонение более-менее «характеризует величину максимального скачка между двумя отметками явки». Но только и явка нормированная, и отклонение может не сводиться к одному скачку…

4. Общий результат (32%), скорее всего, является преуменьшенным. Но не из-за расположения КОИБ/КЭГ (я, скорее, поверю, что они завышают результат ЕР, т.к. были умышленно расположены в местах с её высоким рейтингом, дабы мухлёж был менее заметен). Дело тут вот в чём. Есть у нас зоны «особой электоральной культуры», где поддержка ЕР действительно выше, чем в целом по стране. Но поскольку это ещё и зоны тотальной фальсификации, то избирательные участки из этих зон имеют очень высокие шансы быть исключенными из анализа, что сместит его результаты в строну неособых зон. Однако я не считаю это дефектом метода. Он даёт реконструкцию по тем участкам, для которых она в принципе возможна, а остальные просто приравнивает к ним, ибо нефиг мухлевать.

5. Диаграммы – в планах. Но сначала хочется плотности вероятности. И, видимо, уже завтра.

[identity profile] tov-y.livejournal.com 2012-02-03 03:30 pm (UTC)(link)
Легенда таки была попутана, но была поправлена в 17:50 по Москве после любезного замечания [livejournal.com profile] podmoskovnik в приват.

[identity profile] tov-y.livejournal.com 2012-02-03 03:32 pm (UTC)(link)
Угу: http://tov-y.livejournal.com/4396.html?thread=16172#t16172
Пункт 4 и мой ответ.

[identity profile] kobak.livejournal.com 2012-02-03 05:45 pm (UTC)(link)
Но не из-за расположения КОИБ/КЭГ (я, скорее, поверю, что они завышают результат ЕР, т.к. были умышленно расположены в местах с её высоким рейтингом, дабы мухлёж был менее заметен).

Это не так: коибы стоят преимущественно в городах, а результат ЕР на селе по моим впечатлениям процентов на 10% выше, чем в крупных городах (я имею в виду несфальсифицированный, а настоящий результат).

В остальном -- понятно, буду ждать продолжения. Данные по промежуточной явке появились, когда я уже перестал активно заниматься выборными расчетами, так что я их никак не обрабатывал. Oude-rus делал интересные расчеты по Нижнему Новгороду и Москве (в Москве довольно непонятная ситуация, кстати, -- хорошо бы на нее взглянуть Вашим методом), Вы, наверное, видели. Но анализ всех данных промежуточной явки по стране я пока еще ни у кого не видел.

[identity profile] kobak.livejournal.com 2012-02-03 05:56 pm (UTC)(link)
Я неправ: Ваш результат в 32% от коибов никак не зависит. Пардон. Но хотелось бы как-то пощупать участки с высоким "отклонением". Где они расположены? Сколько их? Как будет выглядеть диаграмма рассениям явка-ЕР, если разделить участки на две группы: с низким и высоким отклонением? И отдельно в хорошо изученных случаях: Нижний Новгород, Москва, Петербург?

[identity profile] tov-y.livejournal.com 2012-02-03 07:45 pm (UTC)(link)
С диаграммами рассеяния – облом. Если брать по УИК, получаются абсолютно бесструктурные пятна точек. Если брать ТИК, то тоже не фонтан. Лишь на уровне регионов (субъекты с разбивкой село/город что-то видно).

[identity profile] kobak.livejournal.com 2012-02-04 05:52 pm (UTC)(link)
А нарисуйте гистограмму кол-ва участков по отклонению, а то непонятно, где сколько. Лучше даже не участков, в суммы голосов по участкам с данным отклонением.

[identity profile] tov-y.livejournal.com 2012-02-04 06:54 pm (UTC)(link)
Я не вполне понимаю, что Вы там ожидаете увидеть. Но пусть будет – см. Update-3.
P.S. Разумеется, я не рисовал гистограмму для суммы голосов (что толку анализировать распределение, построенное со случайными весами точек?), а рисовал для суммы числа избирателей (впрочем, они очень близки).

[identity profile] kobak.livejournal.com 2012-02-04 07:15 pm (UTC)(link)
Спасибо! Интересно было понять, как распределены участки по отклонению и сколько участков попадает в Ваши два класса (с границей по 25%). Теперь видно, что эта граница делит кол-во поданных бюллетеней примерно пополам.

[identity profile] tov-y.livejournal.com 2012-02-05 01:49 pm (UTC)(link)

[identity profile] barouh.livejournal.com 2012-02-06 01:05 pm (UTC)(link)
Спасибо. Очень интересно

Но с базовым предположением - что отклонения в почасовой динамике явки от среднего никак не связаны с активностью и политическими предпочтениями - не соглашусь

Поддержка ЕР выше на селе (насколько выше - открытый вопрос), там же меньше средний размер участков (что повышает вероятность естественных отклонений распределения явки от "нормы", в т.ч. в сторону активного утреннего голосования) и ниже уровень квалификации членов избиркомов - соответственно, выше вероятность небрежности и ошибок при подсчете и сообщении наверх цифр по промежуточной явке

Даже в Москве наблюдаются очень большие различия между участками (в т.ч. с 25%-ным результатом ЕР) по почасовой явке - обусловленные, видимо, не различиями в поведении избирателей, а ошибками УИКов. Что уж говорить про малые города и село

Я согласен, что отклонения по почасовой явке связаны с фальсификациями, но эта связь не жесткая и не линейная. И через сопоставление одного и другого оценивать реальные результаты выборов ИМХО нельзя

Было бы интересно применить Ваш метод к большим относительно однородным массивам участков - например, московские участки (за вычетом спецучастков), или аналогично по Питеру, Екатеринбургу, Нижнему
Edited 2012-02-06 13:16 (UTC)

[identity profile] barouh.livejournal.com 2012-02-06 01:49 pm (UTC)(link)
Больше скажу. Если вдуматься в Ваш график про зависимость результата ЕР от явки для двух групп участков (повторяю его ниже для наглядности), то получается, что "дихотомия" участков с большим и маленьким разбросом почасового распределения явки является по большей части следствием базовой "дихотомии" на участки с нормальной и аномально высокой явкой

И какая-то небольшая самостоятельная объясняющая (результаты выборов) сила у такого параметра, как отклонение почасового распределения по явке, появляется только в той зоне, где смешиваются участки с высокой естественной явкой и слегка завышенный явкой (50-65%)



Я примерно такой же вывод получил по Москве. Сначала вдохновился, что мол отклонения по почасовой явке все наглядно показывают - а потом оказалось, что почти столь же четкий "прогноз" результата ЕР можно получить из общей за весь день явки на участке

[identity profile] tov-y.livejournal.com 2012-02-06 07:32 pm (UTC)(link)
[livejournal.com profile] tsirel в привате уже высказал предположение, что может быть существенным, имеем ли мы дело с городом или деревней. Я всё переделал с разбивкой, т.е. мы смотрим отклонение от медианы распределения, соответствующего типу ТИК – городская или сельская. Кроме того, полностью исключены из рассмотрения все судовые ТИК, где данные о динамике явки – заведомая туфта (не потому что специально врут, а потому что то ли не собирают данных, то ли не имеют списков избирателей). Все рисунки обновлены. Что-то, конечно, поменялось, но, имхо, не принципиально.
P.S. О крупных городах – подумаю, но я не умею вычленять спецучастки.

[identity profile] tov-y.livejournal.com 2012-02-06 07:53 pm (UTC)(link)
Этот график специально нарисован, чтобы продемонстрировать тот факт, что типичная у нас динамика явки или атипичная, но зависимость явка–результат для партий будет одной и той же. В отличие от плотностей она не меняется. А вот по плотности изменения существенные – мы съезжаем в область умеренных явок.
Разумеется, можно просто сказать, что мы не доверяем высоким явкам и потому их отбрасываем. Можно, но это нехорошо, т.к. получается, что мы сначала предполагаем фальсификацию по определённому типу, а потом лишь убеждаемся, что наше предположение не приводит к противоречию. Да, численный результат при этом получается более-менее разумным (см. мой декабрьский пост (http://tov-y.livejournal.com/4006.html)), но сам метод доказательной силой не обладает, поскольку гипотеза Собянина–Суховольского в общем случае неверна…
И кстати, я общую за весь день явку использую для нормировки, т.е. работаю с относительными величинами. А то, если брать явку как таковую, то, конечно, у нас участки с большой явкой сразу окажутся атипичными. Но это – получение запрограммированного ответа. Тогда уж проще их сразу отбросить, сказав, что, вот, не верим мы им и всё тут.

Page 1 of 3