tov_y | Реконструкция результатов выборов

В основе методов реконструкции Собянина–Суховольского и Шпилькина лежит эмпирическое установление некоторой статистической закономерность, которой подчиняются результаты всех партий, кроме партии власти. Это позволяет высказать разумное предположение о фальсификации выборов в её пользу и в его рамках реконструируется истинный результат путём устранения отклонения от установленной закономерности.
Беда этих методов состоит в недоказуемости исходного предположения. Теоретического обоснования оно заведомо не имеет, поскольку гипотетически возможны ситуации, когда оно нарушается (хотя их применимость к российским выборам сомнительна). Практическое его обоснование также проблематично, поскольку все используемые данные «расходуются» на расчёт размеров фальсификации. И мы уже не имеем возможности выяснить, до какой же степени всё-таки верно наше предположение, если оно, вдруг, верно не вполне.
Таким образом, необходимо привлечение дополнительных данных, не связанных непосредственно с результатами голосования.В качестве таких данных предлагается использовать динамику явки избирателей.
Для почти всех избирательных участков имеются данные о доле избирателей, проголосовавших к 10, 12, 15 и 18 часам местного времени. Отнормируем её на итоговую явку и рассмотрим распределение полученных величин (участки берутся с весами, равными числу зарегистрированных на них избирателей). Среднеквадратичное отклонение квантильных уровней отнормированной явки от медианного значения (далее – отклонение) выберем в качестве характеристики избирательного участка.
Update (06/02/12): Расчёты делаются отдельно для городских и сельских населённых пунктов. Судовые ТИК из рассмотрения исключены.
Никакого прямой связи между величиной отклонения и активностью избирателей или их политическими симпатиями, по идее, быть не должно. Однако, как видно из рисунка, она есть и весьма существенная.

Наиболее активный народ почему-то приходит на участки наименее типичным образом. Считать свободным от искажений можно только горизонтальный участок графика, соответствующий низким отклонениям. Таким образом, истинная явка составляет примерно 52÷53% (против официальных 60%). Примечательно, что эта величина совпадает для всех участков и для участков, оборудованных сканерами – комплексами обработки избирательных бюллетеней или комплексами электронного голосования. Использование этих устройств не препятствует фальсификации процедуры выборов, но осложняет фальсификацию их результатов.
На врезке даны результаты по всем участкам, на которых отклонение не превышает абсциссы. Интегральное представление позволяет иметь дело с более гладкими графиками, для которых легче визуально оценить то максимальное отклонение (примерно 15÷20%), при котором уже несущественны флуктуации, но ещё несущественны фальсификации. Именно в таком виде будет представлены все дальнейшие графики.

Сравним зависимости от максимального отклонения результатов партии власти и суммарного результата 6 оппозиционных партий. Здесь уже графики для участков со сканерами и без них не совпадают, поскольку если явка фальсифицируется только реальным или виртуальным вбросом бюллетеней, то результат – ещё и кражей голосов. Расстояние между графиками позволяет очень приблизительно (не будем забывать, что одинаковые абсциссы у графиков соответствуют разным наборам избирательных участков) оценить масштабы кражи в 3÷5% от числа избирателей.
Истинные результаты партии власти и оппозиционных партий составляют, соответственно, примерно 17% и 35% от числа избирателей (и ещё чуть менее 1% досталось поросёнку Нах-Нах). В пересчёте к доле избирателей, принявших участие в голосовании, эти цифры превратятся в 32% и 66%. Таким образом, уровень поддержки власти на выборов не достигает и 1/3, что даже меньше результатов социологических опросов.

Сравнение истинных результатов партий с официальными позволяет отдельно оценить масштабы фальсификации процедуры выборов и масштабы фальсификации их результатов. Горизонтальные участки графика дают 8 млн голосов, полученных партией власти в результате вброса бюллетеней, несвободного голосования и приписок, и еще 6 млн – как результат передачи ей голосов, реально отданных за оппозиционные партии. В сумме – 14 млн голосов, или примерно 80% от истинного результата.

Очень любопытным образом распределились кражи голосов по партиям. Больше всего обидели бабл-боя этих выборов – «Яблоко». У него в процентом отношении спёрли в 2÷3 раза больше, чем у партий прошедших в Думу, и даже больше, чем у аутсайдеров. Честный подсчёт голосов всё равно не позволил бы «Яблоку» преодолеть 7%-барьер (хотя избавил бы Явлинского от необходимости собирать подписи), но психологически феномен очень показательный.

UPD-1: Теперь посмотрим, что происходит с распределениями вероятности.
Приведённые ниже гистограммы построены с бинами 0,25% для всех участков и 1% для участков, оборудованных КОИБ/КЭГ. Все участки учитывались с весом, равным числу зарегистрированных избирателей. Чтобы устранить артефакты, возникающие из-за рассмотрения отношения целых чисел, неабсолютные результаты подвергались дизерингу посредством добавления к числителю случайной величины, равномерно распределённой на промежутке (–½;+½). Данная процедура повторялась 100 раз и результаты усреднялись.
Отдельно приведены результаты для участков с высоким (>25% – High) и низким (≤25% – Low) значением отклонения.

Видно, что по мере устранения из выборки сомнительных участков распределение по явке становится всё более узким и островерхим. Однако, как можно видеть из динамики коэффициентов асимметрии и эксцесса, то, что получается после реконструкции, – это не только не гауссово распределение, но и дальше от него, чем было исходное распределение (хотя визуально и может показаться, что получилась гауссиана). Дело в том, что очистка от «мусора» не устраняет из выборки всех участков с высокой явкой. Соответственно, центральные моменты уменьшаются не очень сильно (тем более, что смещение математического ожидания влево дополнительно препятствует их уменьшению). А вот среднеквадратичное отклонение уменьшается сильно. В результате коэффициенты асимметрии и эксцесса возрастают. Таким образом, чем дальше, тем сильнее график плотности скашивается влево и становится избыточно островерхим. Это дополнительный довод не требовать от «честных» распределений гауссова вида.

Аналогичная ситуация, только ещё в большем масштабе, имеет место для доли голосов, набранных партией власти. Следует отметить, что для участков с низким отклонением сохраняются пики на красивых процентах. Впрочем, это неудивительно, поскольку такие цифры, творимые на этапе заполнения протоколов, никак не связаны с динамикой явки.

UPD-2:
Теперь посмотрим на зависимость доли голосов набранных партиями, от явки. Как и в предыдущем фрагменте отдельно рассмотрены участки с высоким (>25% – High) и низким (≤25% – Low) значением отклонения, а все участки учитываются с весом, равным числу зарегистрированных на них избирателей.

В отличие от распределений по явке и результату, эта зависимость почти не чувствительна к динамике активности.

Аналогичным образом, наличие или отсутствие сканеров почти не сказывается на зависимости результата партии от явки. Хотя происходит некоторое уширение горизонтальных областей в левых частях зависимостей.
Эти результаты могут показаться противоречащими выводам о масштабах фальсификации. Однако противоречие это кажущееся. По мере очистки выборки от фальшивых замеров правые части зависимостей, соответствующие большой явке, теряют свою значимость. Вместе с тем, поскольку все фальшивые замеры вычистить всё равно не удаётся, отклонение графиков от горизонтального вида в этих частях сохраняется.

UPD-3:
По просьбам трудящихся выкладываю распределение участков по среднеквадратичному отклонению квантильных уровней отнормированной явки от медианного значения.

Красная линия соответствует участкам, взятым с единичным весом, синяя – с весом, равным числу зарегистрированных избирателей.
Из того, что пик красной кривой не воспроизводится на синей, можно заключить, что он соответствует очень маленьким участкам, на которых возможны чудовищные флуктуации в динамике явки.

UPD-4: oude_rus обнаружил ещё один признак липовых результатов ЕР – нулевое количество недействительных бюллетеней. Посмотрим на то, как данный критерий сказывается на распределении участков по отклонению явки.

Т.е. нулевой уровень недействительных бюллетеней добавляет 6 процентных пунктов к отклонению.

UPD-5: Истинный результат ЕР, или усреднённым экспертам посвящается
Поскольку, как я узнал у экспертов имеется консенсус относительно истинного результата ЕР на уровне 38-41%, выкладываю график зависимости её результата от максимального отклонения:

Как можно видеть, нижняя граница экспертных оценок чуть выше той цифры, которая получается, если вообще не исключать участки с сильно нетипичной динамикой явки. Видимо, я не вполне эксперт, но лично я ориентируюсь на полочку графика при абсцессе 15-20%.

Flat | Top-Level Comments Only

From:

tsirel.livejournal.com

Кратко отвечу на все комментарии
1) Разные виды фальсификаций, фальсификации и явка, явка и реальный % за ЕР и др. коррелированы между собой. Это надо учитывать.
2) Вы режете, основываясь на конце более или менее горизонт. участка, но само распределение все режется через его моду.
3) Кобак насчитал, что КОИБы с разбивкой по регионам снижают кол-во голосов ЕР всего на 6-7% - http://kobak.livejournal.com/103331.html. Не смотрел, насколько это верно, но участки с КОИБами всяко не образуют репрезентативной выборки.
4) Реконструкции поддается очень многое (есть еще экзит-пол, соц. опросы и др.), только с разной степенью достоверности.
5) Идею об отметании электоральной географии даже обсуждать не хочется, настолько она противоречит сути самой социолгической задачи. Кстати, деление город/село и наличие особых регионов Вы признаете.
6) Имея опыт точного подсчета, более грамотный человек лучше сделает приближенную оценку, чем малообразованный. Ирония здесь совершенно неуместна. Если бы Вы ходили в походы, то Вы бы знали, как плохо местные жители указывают расстояния в километрах в прекрасно знакомой им местности.

From:

tov-y.livejournal.com

1) Да. И это проблема. Иначе можно было бы затачивать разные алгоритмы на отдельные типы искажений, применять порознь, а потом тем или иным образом суммировать результаты. Но приходиться сразу ставить двойное сито – и то мало!
2) Ну, где разрезалось, там разрезалось.
3) Сильно занижено! Я это делал сам и получил цифру в 14,1% (как процент от явки) и 10,9% (как процент от числа избирателей). А делал я следующим образом. Брал данные по всем ТИК, в которых как на участки с КОИБ/КЭГ, так и на участки без оных приходилось не менее 2,5% зарегистрированных на всей территории избирателей. Порог отсечения выбирался так, чтобы суммарные результаты по всем рассматриваемым ТИК минимально отличалась от показателей по стране (это и есть своего рода репрезентативность). При указанном значении порога среднеквадратичное отклонение результатов партий (как доля числа избирателей) составило 0,2% (главным образом за счёт КПРФ), отклонение явки – 0,1%. Никакие данные по динамике явки, разумеется, не использовались. Кстати, по результатам такой реконструкции, не учитывающий целый пласт различных способов фальсификаций, я получил 10 млн липовых голосов за ЕР и оценку её истинного результата в 37,2% (что ниже минимума диапазона экспертных оценок, но, несомненно, выше истинного результата).
4) Экзит-полы и соцопросы сами нуждаются в реконструкции. Вам причины перечислить?
5) Я не отметаю электоральную географию. Я просто чётко различаю анализ в розницу и оптом. Обосновывать массовость, разнообразие и наглость фальсификаций и даже делать какие-никакие выводы социологического плана уместней в розницу. Считать общий результат – оптом. Странно было бы полагать антагонистами уравнения динамики и законы сохранения. Но надо понимать, что от какой стенки гвоздь.
6) Я думаю, что у человека, который хотя бы раз считал бюллетени, опыт подсчёта куда больше, чем у просто грамотного человека. Что же до походов, то если хотите получить ответ в километрах, то и спрашивайте, давая человеку карту, а если всё-таки предполагаете идти ногами, а не только скользить взглядом по карте, спрашивайте, как оно в часах пути. Формулировать вопрос не том языке, на котором говорит собеседник, означает гарантировать себе искажённый ответ.

From:

kobak.livejournal.com

Про (3). Если посчитать разницу между общими результатами ЕР на участках с коибами и на участках без коибов в тех тик, где есть хоть один коиб, то получится около 17 процентов. Но если посчитать эту разницу по каждой тик отдельно и взять среднее (или медиану, неважно), то получится около 7 процентов. Я брал все тик, где есть минимум два участка с коибами и минимум два без. Средняя разница -- около 7 процентов.

From:

tov-y.livejournal.com

17% – это круто! Вы, часом, не по Москве одной считали?
Что касается усреднения без веса, дающего 7%, то я не понимаю математического содержания этой операции. Можете пояснить?

From:

kobak.livejournal.com

Нет, это по всей стране. Может быть, там 16%, не помню точно.

Математический смысл усреднения очевиден; Вы, наверное, имеете в виду "физический" смысл? Ну, можно взять какой-то вес (например, кол-во избирателей в тике); я пробовал и результат от этого, если я не ошибаюсь, почти не меняется: где-то 6-7% разницы.

16-17% получается от того, что в разных тик разная пропорция участков с коибами. И кое-где коибатость гигантская (30% и выше), но коибов мало, поэтому в общую коибастость эти тик вносят непропорционально большой вклад.

From:

tov-y.livejournal.com

Признаю свою неправоту.
Разницу результатов на участках с и без КОИБ/КЭГ действительно надо сначала высчитывать по территориям, а лишь потом усреднять.
При том способе, который использовал я, сказывается, размещены ли сканеры преимущественно на участках с высоким или низким уровнем фальсификации результатов выборов.

From:

tov-y.livejournal.com

Подумал я ещё и решил признать не только свою неправоту, но и Вашу.
Считать поправку на КОИБ так, как делал это я, нельзя: результат получается зависящем от того, как распределены сканеры между честными и нечестными территориями.
Но и так как предлагаете Вы, тоже делать нельзя. Дело в том, что масштаб фальсификации зависит от уровня поддержки ЕР, т.е. надо делать усреднение не по всем ТИК сразу, а отдельно ТИК с конкретным результатом ЕР (причём усреднять надо с правильными весами – они всё-таки влияют, пусть не радикально, но заметно). А далее найденные искажения нужно свёртывать с распределением ТИК по уровню поддержки ЕР. В результате получается липовых примерно 11% (считая от числа голосовавших).

From:

tsirel.livejournal.com

5) Все же не могу понять, почему на Ваш взгляд суммарный результат надо считать оптом. А если уж все надо считать оптом, то почему можно делить город/село, а Чечню можно отмести.

From:

tov-y.livejournal.com

Считать оптом нужно потому, что в розницу всё собрать нереально, а кое-что – невозможно.
Можно делить город/село, но можно и не делить. Я в случае анализа динамики явки поделил, т.к. не исключал что их объединение исказит картину. Что же до отметания Чечни, то вручную я её не отметал, ну, а если её участки отвалились на основе формальных критериев, то такова их судьба.

From:

tsirel.livejournal.com

6) Про грамотного человека - это прямое передергивание, я имел в виду равные знания о процессе у обоих людей. Про км - ответы в часах обычно немногим лучше, ибо понятие о своей скорости (с остановками/без них, с грузом/без него и т.д.) и просто о времени весьма вариативны.

From:

tov-y.livejournal.com

Ой, ну я Вас умоляю! Берут пачку ещё не выданных бюллетеней и смотрят, насколько уменьшилась её толщина. Или пролистывают несколько страниц в журналах учёта и считают по этим страницам процент. Какая здесь может быть особая грамотность?

From:

tsirel.livejournal.com

Вы привыкли иметь дело с математиками, и Вам кажется, что все люди решают такие простые задачи правильно, на самом деле ошибаются и еще как.
Я не могу Вам это доказать, это надо просто видеть.

From:

tov-y.livejournal.com

Я привык иметь дело с математиками и знаю, что в устном счёте мы лажаем куда чаще простых смертных.

From:

tsirel.livejournal.com

Простите, но чего-то Вы опять передергиваете. Речь идет не о устном счете точных чисел, а о культуре приближенных оценок. Это навык, требующий некоторого представления о теорвере и матстатистике.

From:

tov-y.livejournal.com

Мы по кругу пошли.

Flat | Top-Level Comments Only

Profile

tov_y

Обретение имени

April 2018

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

tsirel.livejournal.com - (no subject)

Style Credit

Style: Green Machine for Lefty by sarken

Expand Cut Tags

No cut tags

Page generated Jul. 16th, 2025 12:31 am

Минуя божии ладони...

Тигрячьи полоски – вдоль и поперёк

Реконструкция результатов выборов

Navigation

Реконструкция результатов выборов

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

April 2018

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags