Результаты выборов
Oct. 6th, 2016 11:55 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Задача – единообразная реконструкция результатов федеральных выборов разных лет.
Метод – выявление и исключение из анализа регионов с массовыми фальсификациями, реконструкция для оставшихся регионов явки и результатов лидера (кандидата/партии власти) на основе гипотезы Собянина–Суховольского (независимость относительного результата от явки) с последующим распространением полученных процентов на всю страну.
Для проверки на уровень фальсификаций использовались следующие критерии:
1) неравномерность распределения последних цифр:
1а) числа зарегистрированных избирателей, числа проголосовавших избирателей (действительные + недействительные бюллетеней) и числа голосов, поданных за лидера;
1б) округлённых до десятых долей процентов явки, абсолютного и относительного результатов лидера;
2) наличие сгущений (концентрации на одних и тех же процентах) явки, абсолютного и относительного результатов лидера и его антирезультата;
3) широта разброса этих же показателей по участкам, относящим к одной территории.
Для указанных 14 критериев были установлены мягкий и жёсткий пороги. При превышении первого региону выдавалась жёлтая карточка (есть подозрение в масштабных фальсификациях данного типа) при превышении второго – красная (нет сомнений в масштабных фальсификациях данного типа). Получениедвух жёлтых или одной красной карточки означает дисквалификацию региона, т.е. исключение данных по не нему из дальнейшего анализа. Каждая жёлтая карточка означает уменьшение веса региона вдвое – такая замена правил существенно пошевелила по сравнению с первой версией охват и объёмы вброса, но практически не затронула проценты.
Для критериев группы 1 по всем участкам с нетривиальной явкой и числом избирателей не менее 100 человек вычислялась статистика хи-квадрат, для которой выбраны пороговые значения 25 и 30, соответствующие при 9 степенях свободы уровням значимости в 0,3% и 0,04%. Участки с нулевой или стопроцентной явкой, а также мелкие участки исключались из рассмотрения.
Для поиска сгущений все участки сортировались в порядке роста рассматриваемого показателя, после чего рассчитывалось его изменение, соответствующее увеличению доли зарегистрированных избирателей региона на 3%. Десятичный логарифм минимума этой величины, взятый с обратным знаком, и выступал в качестве критерия группы 2 с пороговыми значениями, равными 3,5 и 4,0.
В качестве меры неоднородности результатов бралась разница верхнего и нижнего децильных уровней рассматриваемых показателей по всем УИК, которая далее осреднялась по всем ТИК, давая критерии группы 3. Все участки и территории рассматривались с весом, равным числу избирателей. Использовались следующие пороги: явка – 23% и 26%, относительный результат лидера – 20% и 25%, абсолютный результат лидера – 23% и 29%, антирезультат лидера – 14,5% и 17%. Дополнительно введён и нижний порог для выдачи жёлтых карточек: 8%, 6%, 5% и 4,5%.
Я обязательного когда-нибудь объясню, почему выбирались именно такие параметры и, может быть, – даже здесь. Для критериев группы 2 у меня есть хорошее обоснование значений, для критериев группы 3 – так себе.
После дисквалификации регионов, в которых просто нечего реконструировать, для каждого из оставшихся зависимость относительного результата лидера от явки аппроксимировалась непрерывной кусочно-линейной функцией с горизонтальной левой половинкой. Участки учитывались с весом, равным числу избирателей. Точка определялась минимизацией невязки. Реконструированные результаты получены только по участкам с явкой, лежащей левее точки перелома.
Итог:
Под охватом здесь понимается доля избирателей, приходящихся на регионы, не подвергшиеся дисквалификации. По этому показателю выборы-2016 держат почётноевтороетретье место с конца, опережая только приснопамятные выборы-2011. Зато нынешние выборы лидируют в подкручивании абсолютного результата лидера, которые был завышен вдвое.
UPD-1. Поясню подробнее, что стоит в последних двух колонках таблицы. «Вброс всего» – разница официальной и реконструированной явок, домноженная на общее число избирателей, «Взрос за лидера» – разница его официального и реконструированного результатов, опять же домноженная на общее число избирателей. Т.е. первая величина оценивает число вброшенных (реально или виртуально) бюллетеней, а вторая – число голосов, приписанных партии/кандидату власти. Если первая величина оказывается меньше, значит, имела место значимая кража голосов у прочих партий/кандидатов. В противном случае следует предполагать передачу другим партиям/кандидатам части вброшенных голосов. Эти цифры приведены здесь именно потому, что некоторые соотношения между ними меня смущают. Я пока не понял, кроется ли здесь проблема в принципиальных недостатках метода или в высоких погрешностях определения величин вброса.
UPD-2. Пояснения про критерии начну с распределения последних цифр как с самого простого, понятного и надёжного критерия. Основная гипотеза состоит в том, что у независимых многозначных целых чисел последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Чтобы понять, насколько они могут быть велики, используется критерий согласия Пирсона. Как и любой метод проверки гипотез он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие равновероятности частоты цифр статистика имеет очень простой вид: 10nΣi=09(ni/n–1/10)2, где ni – сколько раз в конце числа стоит цифра i, а n = Σi=09ni – объём выборки. Если все ni>10, то независимо от распределения отклонений частот ni от 1/10 можно полагать, что рассматривая статистика подчиняются распределению χ2 с 9 степенями свободы (цифр 10, но одна степень свободы расходуется на определение средней частоты). Чем больше значение статистики, тем менее вероятным является их возникновение в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, даётся уровнем значимости α, который можно вычислить с помощью функции Excel Хи2Расп.
UPD-3. Широта разброса является наиболее спорным и сложным критерием фальсификаций. Для неё по разным показателям приходится подбирать пороги индивидуально, тогда как для остальных критериев пороги унифицируются. Кроме того, хотя большая широта разброса является признаком фальсификаций, происходящих на части участков, в то же время слишком малая широта тоже может быть признаком (хотя и не столь надёжным) рисования результатов под копирку, что дополнительно усложняет задачу.
Приводимые картинки хоть и не объясняют конкретных значений порогов, но иллюстрируют логику их выбора. Красные карточки по каждому показателю получают примерно 4% регионов от их массы за все годы (некоторые – по нескольким показателям), желтые – около 12%.


Метод – выявление и исключение из анализа регионов с массовыми фальсификациями, реконструкция для оставшихся регионов явки и результатов лидера (кандидата/партии власти) на основе гипотезы Собянина–Суховольского (независимость относительного результата от явки) с последующим распространением полученных процентов на всю страну.
Для проверки на уровень фальсификаций использовались следующие критерии:
1) неравномерность распределения последних цифр:
1а) числа зарегистрированных избирателей, числа проголосовавших избирателей (действительные + недействительные бюллетеней) и числа голосов, поданных за лидера;
1б) округлённых до десятых долей процентов явки, абсолютного и относительного результатов лидера;
2) наличие сгущений (концентрации на одних и тех же процентах) явки, абсолютного и относительного результатов лидера и его антирезультата;
3) широта разброса этих же показателей по участкам, относящим к одной территории.
Для указанных 14 критериев были установлены мягкий и жёсткий пороги. При превышении первого региону выдавалась жёлтая карточка (есть подозрение в масштабных фальсификациях данного типа) при превышении второго – красная (нет сомнений в масштабных фальсификациях данного типа). Получение
Для критериев группы 1 по всем участкам с нетривиальной явкой и числом избирателей не менее 100 человек вычислялась статистика хи-квадрат, для которой выбраны пороговые значения 25 и 30, соответствующие при 9 степенях свободы уровням значимости в 0,3% и 0,04%. Участки с нулевой или стопроцентной явкой, а также мелкие участки исключались из рассмотрения.
Для поиска сгущений все участки сортировались в порядке роста рассматриваемого показателя, после чего рассчитывалось его изменение, соответствующее увеличению доли зарегистрированных избирателей региона на 3%. Десятичный логарифм минимума этой величины, взятый с обратным знаком, и выступал в качестве критерия группы 2 с пороговыми значениями, равными 3,5 и 4,0.
В качестве меры неоднородности результатов бралась разница верхнего и нижнего децильных уровней рассматриваемых показателей по всем УИК, которая далее осреднялась по всем ТИК, давая критерии группы 3. Все участки и территории рассматривались с весом, равным числу избирателей. Использовались следующие пороги: явка – 23% и 26%, относительный результат лидера – 20% и 25%, абсолютный результат лидера – 23% и 29%, антирезультат лидера – 14,5% и 17%. Дополнительно введён и нижний порог для выдачи жёлтых карточек: 8%, 6%, 5% и 4,5%.
Я обязательного когда-нибудь объясню, почему выбирались именно такие параметры и, может быть, – даже здесь. Для критериев группы 2 у меня есть хорошее обоснование значений, для критериев группы 3 – так себе.
После дисквалификации регионов, в которых просто нечего реконструировать, для каждого из оставшихся зависимость относительного результата лидера от явки аппроксимировалась непрерывной кусочно-линейной функцией с горизонтальной левой половинкой. Участки учитывались с весом, равным числу избирателей. Точка определялась минимизацией невязки. Реконструированные результаты получены только по участкам с явкой, лежащей левее точки перелома.
Итог:
Год |
Охват |
Официальные результаты |
Реконструированные результаты |
Вброс, млн |
|||||
Явка |
Абс.рез. |
Отн.рез. |
Явка |
Абс.рез. |
Отн.рез. |
Всего |
За лидера |
||
2000 |
92% |
69% |
36% |
53% |
60% |
31% |
52% |
9,3 |
5,6 |
2003 |
80% |
56% |
21% |
38% |
47% |
16% |
33% |
9,8 |
5,9 |
2004 |
82% |
64% |
46% |
71% |
53% |
36% |
67% |
11,9 |
11,0 |
2007 |
85% |
64% |
41% |
64% |
53% |
31% |
57% |
11,2 |
11,3 |
2008 |
66% |
70% |
49% |
70% |
56% |
35% |
62% |
14,7 |
15,0 |
2011 |
53% |
60% |
30% |
49% |
46% |
15% |
33% |
15,0 |
15,6 |
2012 |
83% |
65% |
42% |
64% |
57% |
33% |
57% |
9,2 |
9,8 |
2016 |
69% |
48% |
26% |
54% |
33% |
13% |
39% |
16,5 |
14,4 |
Под охватом здесь понимается доля избирателей, приходящихся на регионы, не подвергшиеся дисквалификации. По этому показателю выборы-2016 держат почётное
UPD-1. Поясню подробнее, что стоит в последних двух колонках таблицы. «Вброс всего» – разница официальной и реконструированной явок, домноженная на общее число избирателей, «Взрос за лидера» – разница его официального и реконструированного результатов, опять же домноженная на общее число избирателей. Т.е. первая величина оценивает число вброшенных (реально или виртуально) бюллетеней, а вторая – число голосов, приписанных партии/кандидату власти. Если первая величина оказывается меньше, значит, имела место значимая кража голосов у прочих партий/кандидатов. В противном случае следует предполагать передачу другим партиям/кандидатам части вброшенных голосов. Эти цифры приведены здесь именно потому, что некоторые соотношения между ними меня смущают. Я пока не понял, кроется ли здесь проблема в принципиальных недостатках метода или в высоких погрешностях определения величин вброса.
UPD-2. Пояснения про критерии начну с распределения последних цифр как с самого простого, понятного и надёжного критерия. Основная гипотеза состоит в том, что у независимых многозначных целых чисел последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Чтобы понять, насколько они могут быть велики, используется критерий согласия Пирсона. Как и любой метод проверки гипотез он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие равновероятности частоты цифр статистика имеет очень простой вид: 10nΣi=09(ni/n–1/10)2, где ni – сколько раз в конце числа стоит цифра i, а n = Σi=09ni – объём выборки. Если все ni>10, то независимо от распределения отклонений частот ni от 1/10 можно полагать, что рассматривая статистика подчиняются распределению χ2 с 9 степенями свободы (цифр 10, но одна степень свободы расходуется на определение средней частоты). Чем больше значение статистики, тем менее вероятным является их возникновение в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, даётся уровнем значимости α, который можно вычислить с помощью функции Excel Хи2Расп.
UPD-3. Широта разброса является наиболее спорным и сложным критерием фальсификаций. Для неё по разным показателям приходится подбирать пороги индивидуально, тогда как для остальных критериев пороги унифицируются. Кроме того, хотя большая широта разброса является признаком фальсификаций, происходящих на части участков, в то же время слишком малая широта тоже может быть признаком (хотя и не столь надёжным) рисования результатов под копирку, что дополнительно усложняет задачу.
Приводимые картинки хоть и не объясняют конкретных значений порогов, но иллюстрируют логику их выбора. Красные карточки по каждому показателю получают примерно 4% регионов от их массы за все годы (некоторые – по нескольким показателям), желтые – около 12%.


no subject
Date: 2016-10-07 08:52 am (UTC)---
Посмотрите, плиззз, вот эту дискуссию с незнакомым мне юзером по поводу распределения последних цифр:
http://corbulon.livejournal.com/323792.html?thread=8267472#t8267472
no subject
Date: 2016-10-07 09:10 am (UTC)Э… Вы вообще о чём? Что такое "общее распространение"?
Что касается критериев 1, то, по-моему, там всё предельно ясно.
Что касается критериев 2 и 3, то там я буду делать пояснения. Но позже. Сейчас я затормозил из-за того, что пороги для критерия 3 были изначально взяты для 9 выборов – включая думские-1999, – которые я в последний момент решил выкинуть из-за их странностей (куда там делась половина избирателей?!). Вот и переопределяю пороги.
> Посмотрите, плиззз, вот эту дискуссию
Посмотрел. При чём там закон Бенфорда, не понял: где первая цифра, а где последняя?
От себя замечу, что ограничение числа избирателей снизу я ввёл, чтобы не докапывались. На результаты оно влияет не принципиально (а вот исключение участков со 100%-явкой абсолютно необходимо).
no subject
Date: 2016-10-07 03:23 pm (UTC)Хотел познакомить вас с аргументами против использования РПЦ.
Понятно, что оппонент высасывает их, но тем не менее.
Выложил только что пост про выборы-2016.
no subject
Date: 2016-10-07 03:37 pm (UTC)А, так вот как оно, оказывается, называется! Ну, раз я теперь перешёл в разряд людей хорошо про него помнящих, можно и написать :)
> Хотел познакомить вас с аргументами против использования РПЦ.
Ну, у меня-то задача проще: мне не надо доказывать, что где-то результаты непременно лажовые. Мне надо всего лишь было отделить совсем неприличные от минимально приличных.
no subject
Date: 2016-10-07 03:44 pm (UTC)Это вам не нужно. А им как раз нужно и они обязательно кинутся производить шум.
Один такой у вас уже появился ))
no subject
Date: 2016-10-07 03:48 pm (UTC)no subject
Date: 2016-10-07 03:56 pm (UTC)http://kireev.livejournal.com/1309515.html?thread=32107339#t32107339
no subject
Date: 2016-10-07 05:22 pm (UTC)no subject
Date: 2016-10-08 08:09 am (UTC)(конкретно про модель Шпилькина - на мой взгляд, она работает не за счет однородности общества, а за счет "нормального распределения" неоднородности)
no subject
Date: 2016-10-08 08:15 am (UTC)no subject
Date: 2016-10-08 05:58 pm (UTC)Коллеги, вас не смущает, что суммарно по регионам вброшено 7,7 млн голосов (из 28,5 млн официально насчитанных), а по стране в целом – 12,1 млн? Нет? Ну, и меня тоже не смущает. Понятно, что дело тут в существенно большей неоднородности страны в целом по сравнению с регионами. То есть, неоднородность весьма значима для подобных расчётов. А уж как она там распределена, это одному богу известно.
no subject
Date: 2016-10-07 06:13 pm (UTC)no subject
Date: 2016-10-07 06:45 pm (UTC)Там особо негде и ошибаться. Обтачивать формулировки до полной их зубодробительности (и точности) смысла нет.
А показать на пальцах, какой в формулы вписан обычный здравый смысл, всегда полезнее.
(frozen) no subject
Date: 2016-10-07 09:47 am (UTC)87%
64%
41%
64%
53%
31%
57%
11,2
меньше
11,3
(frozen) no subject
Date: 2016-10-07 09:50 am (UTC)(frozen) no subject
Date: 2016-10-07 09:51 am (UTC)(frozen) no subject
Date: 2016-10-07 09:52 am (UTC)(frozen) no subject
Date: 2016-10-07 09:57 am (UTC)(frozen) no subject
Date: 2016-10-07 10:03 am (UTC)(frozen) no subject
Date: 2016-10-07 10:06 am (UTC)(frozen) no subject
Date: 2016-10-07 10:13 am (UTC)Часть меньше целого. Точка.
Если в результате это нарушено - результат ничтожен. Точка.
(frozen) no subject
Date: 2016-10-07 10:26 am (UTC)(frozen) no subject
Date: 2016-10-07 09:54 am (UTC)(frozen) no subject
Date: 2016-10-07 10:05 am (UTC)Однако к последним двум колонкам следует относиться осторожно, т.к. мы не знаем погрешности определения стоящих в них цифр. Ещё осторожнее следует быть с вычислением их разности (поскольку погрешность может запросто её превышать и получится, что мы измеряем высоту каблуков, вычитая из роста обутого человека рост босого). Меня самого очень смущают получающиеся разности с той точки зрения, что, например, переброс голосов в 2011 году в Москве был порядка половины чистого вброса, а тут разность значительно меньше.
(frozen) no subject
Date: 2016-10-07 10:09 am (UTC)(frozen) no subject
Date: 2016-10-07 10:25 am (UTC)Написал апдейт в основной пост.
(frozen) no subject
Date: 2016-10-07 10:20 am (UTC)***
может следует переименовать имена последних колонок?
(frozen) no subject
Date: 2016-10-07 10:25 am (UTC)