tov_y | Результаты выборов

Задача – единообразная реконструкция результатов федеральных выборов разных лет.
Метод – выявление и исключение из анализа регионов с массовыми фальсификациями, реконструкция для оставшихся регионов явки и результатов лидера (кандидата/партии власти) на основе гипотезы Собянина–Суховольского (независимость относительного результата от явки) с последующим распространением полученных процентов на всю страну.
Для проверки на уровень фальсификаций использовались следующие критерии:
1) неравномерность распределения последних цифр:
1а) числа зарегистрированных избирателей, числа проголосовавших избирателей (действительные + недействительные бюллетеней) и числа голосов, поданных за лидера;
1б) округлённых до десятых долей процентов явки, абсолютного и относительного результатов лидера;
2) наличие сгущений (концентрации на одних и тех же процентах) явки, абсолютного и относительного результатов лидера и его антирезультата;
3) широта разброса этих же показателей по участкам, относящим к одной территории.
Для указанных 14 критериев были установлены мягкий и жёсткий пороги. При превышении первого региону выдавалась жёлтая карточка (есть подозрение в масштабных фальсификациях данного типа) при превышении второго – красная (нет сомнений в масштабных фальсификациях данного типа). Получение ~~двух жёлтых или одной~~ красной карточки означает дисквалификацию региона, т.е. исключение данных по не нему из дальнейшего анализа. Каждая жёлтая карточка означает уменьшение веса региона вдвое – такая замена правил существенно пошевелила по сравнению с первой версией охват и объёмы вброса, но практически не затронула проценты.
Для критериев группы 1 по всем участкам с нетривиальной явкой и числом избирателей не менее 100 человек вычислялась статистика хи-квадрат, для которой выбраны пороговые значения 25 и 30, соответствующие при 9 степенях свободы уровням значимости в 0,3% и 0,04%. Участки с нулевой или стопроцентной явкой, а также мелкие участки исключались из рассмотрения.
Для поиска сгущений все участки сортировались в порядке роста рассматриваемого показателя, после чего рассчитывалось его изменение, соответствующее увеличению доли зарегистрированных избирателей региона на 3%. Десятичный логарифм минимума этой величины, взятый с обратным знаком, и выступал в качестве критерия группы 2 с пороговыми значениями, равными 3,5 и 4,0.
В качестве меры неоднородности результатов бралась разница верхнего и нижнего децильных уровней рассматриваемых показателей по всем УИК, которая далее осреднялась по всем ТИК, давая критерии группы 3. Все участки и территории рассматривались с весом, равным числу избирателей. Использовались следующие пороги: явка – 23% и 26%, относительный результат лидера – 20% и 25%, абсолютный результат лидера – 23% и 29%, антирезультат лидера – 14,5% и 17%. Дополнительно введён и нижний порог для выдачи жёлтых карточек: 8%, 6%, 5% и 4,5%.
Я обязательного когда-нибудь объясню, почему выбирались именно такие параметры и, может быть, – даже здесь. Для критериев группы 2 у меня есть хорошее обоснование значений, для критериев группы 3 – так себе.
После дисквалификации регионов, в которых просто нечего реконструировать, для каждого из оставшихся зависимость относительного результата лидера от явки аппроксимировалась непрерывной кусочно-линейной функцией с горизонтальной левой половинкой. Участки учитывались с весом, равным числу избирателей. Точка определялась минимизацией невязки. Реконструированные результаты получены только по участкам с явкой, лежащей левее точки перелома.
Итог:

Год	Охват	Официальные результаты			Реконструированные результаты			Вброс, млн
Год	Охват	Явка	Абс.рез.	Отн.рез.	Явка	Абс.рез.	Отн.рез.	Всего	За лидера
2000	92%	69%	36%	53%	60%	31%	52%	9,3	5,6
2003	80%	56%	21%	38%	47%	16%	33%	9,8	5,9
2004	82%	64%	46%	71%	53%	36%	67%	11,9	11,0
2007	85%	64%	41%	64%	53%	31%	57%	11,2	11,3
2008	66%	70%	49%	70%	56%	35%	62%	14,7	15,0
2011	53%	60%	30%	49%	46%	15%	33%	15,0	15,6
2012	83%	65%	42%	64%	57%	33%	57%	9,2	9,8
2016	69%	48%	26%	54%	33%	13%	39%	16,5	14,4

Под охватом здесь понимается доля избирателей, приходящихся на регионы, не подвергшиеся дисквалификации. По этому показателю выборы-2016 держат почётное ~~второе~~третье место с конца, опережая только приснопамятные выборы-2011. Зато нынешние выборы лидируют в подкручивании абсолютного результата лидера, которые был завышен вдвое.

UPD-1. Поясню подробнее, что стоит в последних двух колонках таблицы. «Вброс всего» – разница официальной и реконструированной явок, домноженная на общее число избирателей, «Взрос за лидера» – разница его официального и реконструированного результатов, опять же домноженная на общее число избирателей. Т.е. первая величина оценивает число вброшенных (реально или виртуально) бюллетеней, а вторая – число голосов, приписанных партии/кандидату власти. Если первая величина оказывается меньше, значит, имела место значимая кража голосов у прочих партий/кандидатов. В противном случае следует предполагать передачу другим партиям/кандидатам части вброшенных голосов. Эти цифры приведены здесь именно потому, что некоторые соотношения между ними меня смущают. Я пока не понял, кроется ли здесь проблема в принципиальных недостатках метода или в высоких погрешностях определения величин вброса.

UPD-2. Пояснения про критерии начну с распределения последних цифр как с самого простого, понятного и надёжного критерия. Основная гипотеза состоит в том, что у независимых многозначных целых чисел последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Чтобы понять, насколько они могут быть велики, используется критерий согласия Пирсона. Как и любой метод проверки гипотез он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие равновероятности частоты цифр статистика имеет очень простой вид: 10nΣ_i=0⁹(n_i/n–1/10)², где n_i – сколько раз в конце числа стоит цифра i, а n = Σ_i=0⁹n_i – объём выборки. Если все n_i>10, то независимо от распределения отклонений частот n_i от 1/10 можно полагать, что рассматривая статистика подчиняются распределению χ² с 9 степенями свободы (цифр 10, но одна степень свободы расходуется на определение средней частоты). Чем больше значение статистики, тем менее вероятным является их возникновение в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, даётся уровнем значимости α, который можно вычислить с помощью функции Excel Хи2Расп.

UPD-3. Широта разброса является наиболее спорным и сложным критерием фальсификаций. Для неё по разным показателям приходится подбирать пороги индивидуально, тогда как для остальных критериев пороги унифицируются. Кроме того, хотя большая широта разброса является признаком фальсификаций, происходящих на части участков, в то же время слишком малая широта тоже может быть признаком (хотя и не столь надёжным) рисования результатов под копирку, что дополнительно усложняет задачу.
Приводимые картинки хоть и не объясняют конкретных значений порогов, но иллюстрируют логику их выбора. Красные карточки по каждому показателю получают примерно 4% регионов от их массы за все годы (некоторые – по нескольким показателям), желтые – около 12%.

Flat | Top-Level Comments Only

From:

corbulon.livejournal.com

Для общего распространения нужно популярное изложение.
---
Посмотрите, плиззз, вот эту дискуссию с незнакомым мне юзером по поводу распределения последних цифр:
http://corbulon.livejournal.com/323792.html?thread=8267472#t8267472

From:

tov-y.livejournal.com

> Для общего распространения нужно популярное изложение.
Э… Вы вообще о чём? Что такое "общее распространение"?
Что касается критериев 1, то, по-моему, там всё предельно ясно.
Что касается критериев 2 и 3, то там я буду делать пояснения. Но позже. Сейчас я затормозил из-за того, что пороги для критерия 3 были изначально взяты для 9 выборов – включая думские-1999, – которые я в последний момент решил выкинуть из-за их странностей (куда там делась половина избирателей?!). Вот и переопределяю пороги.

> Посмотрите, плиззз, вот эту дискуссию
Посмотрел. При чём там закон Бенфорда, не понял: где первая цифра, а где последняя?
От себя замечу, что ограничение числа избирателей снизу я ввёл, чтобы не докапывались. На результаты оно влияет не принципиально (а вот исключение участков со 100%-явкой абсолютно необходимо).

From:

corbulon.livejournal.com

Имеется в виду изложение для людей, плохо помнящих про критрий Пирсона.

Хотел познакомить вас с аргументами против использования РПЦ.
Понятно, что оппонент высасывает их, но тем не менее.

Выложил только что пост про выборы-2016.

From:

tov-y.livejournal.com

> Имеется в виду изложение для людей, плохо помнящих про критрий Пирсона.
А, так вот как оно, оказывается, называется! Ну, раз я теперь перешёл в разряд людей хорошо про него помнящих, можно и написать :)

> Хотел познакомить вас с аргументами против использования РПЦ.
Ну, у меня-то задача проще: мне не надо доказывать, что где-то результаты непременно лажовые. Мне надо всего лишь было отделить совсем неприличные от минимально приличных.

From:

corbulon.livejournal.com

>> мне не надо доказывать, что где-то результаты непременно лажовые...

Это вам не нужно. А им как раз нужно и они обязательно кинутся производить шум.
Один такой у вас уже появился ))

From:

tov-y.livejournal.com

Не, этого "появившегося", я хорошо знаю. Он не зловредный, а просто ленивый, как тот кот, который орёт, наступив на своё хозяйство, но с места не сходит.

From:

corbulon.livejournal.com

А вот тут еще один, тоже демагог хороший
http://kireev.livejournal.com/1309515.html?thread=32107339#t32107339

From:

tov-y.livejournal.com

С худой овцы - хоть шерсти клок. В смысле: воспринимайте такие споры как площадку для оттачивания формулировок. По известному анекдоту тупыми считаются студенты, понявшие материал позже, чем профессор :)

From:

barouh.livejournal.com

А в чем демагогия? Сейчас начало дискуссии глянул (на всю ветку времени нет) - взвешенные и достаточно разумные вещи человек пишет. Во многом близко к моему видению

(конкретно про модель Шпилькина - на мой взгляд, она работает не за счет однородности общества, а за счет "нормального распределения" неоднородности)

From:

corbulon.livejournal.com

У него там всё вперемешку. И здравые мысли, и неумение внимательно читать, и манера приписывать оппоненту нелепости, выдуманные им же самим.

From:

tov-y.livejournal.com

Вот здесь (http://podmoskovnik.livejournal.com/175849.html)

podmoskovnik с помощью своей модели считает вброс за ЕдРо по регионам в розницу и по всей стране оптом.
Коллеги, вас не смущает, что суммарно по регионам вброшено 7,7 млн голосов (из 28,5 млн официально насчитанных), а по стране в целом – 12,1 млн? Нет? Ну, и меня тоже не смущает. Понятно, что дело тут в существенно большей неоднородности страны в целом по сравнению с регионами. То есть, неоднородность весьма значима для подобных расчётов. А уж как она там распределена, это одному богу известно.

From:

tov-y.livejournal.com

Посмотрите, плз, UPD-2. Всё-таки я – ни разу не статистик…

From:

corbulon.livejournal.com

/а кто статистик? от статистика слышу/

Там особо негде и ошибаться. Обтачивать формулировки до полной их зубодробительности (и точности) смысла нет.
А показать на пальцах, какой в формулы вписан обычный здравый смысл, всегда полезнее.

From:

termometr.livejournal.com

2007

87%

64%

41%

64%

53%

31%

57%

11,2
меньше

11,3

From:

termometr.livejournal.com

2007-2012 везде последние колонки - 146% ?

From:

tov-y.livejournal.com

146% от чего?

From:

termometr.livejournal.com

от ста ) это мем )))

From:

tov-y.livejournal.com

Это не только мем. Это ещё и уровень завышения относительного результата Единой России в 2011 году - без малого в полтора раза.

From:

termometr.livejournal.com

то, что в 11-ом был беспредел не оправдывает арифметических ошибок

From:

tov-y.livejournal.com

Постарайтесь не торопиться с выводами до того, как убедитесь, что правильно поняли посылки.

From:

termometr.livejournal.com

Вероятность неотрицательна. Точка.
Часть меньше целого. Точка.
Если в результате это нарушено - результат ничтожен. Точка.

From:

tov-y.livejournal.com

Ветка заморожена. Точка.

From:

termometr.livejournal.com

Всего < За лидера

From:

tov-y.livejournal.com

Если вброс голосов за лидера больше общего вброса, значит голоса ещё и перебрасывались. И это не новость. Интереснее, если наоборот, т.е. часть вброшенных бюллетеней приписана не партии/кандидату власти. Это, по-видимому, и в самом деле имело место в 2016 г., а вот было ли это в 2000-04 гг. или мы имеем дело недостаточной точностью результатов, я пока не понимаю.
Однако к последним двум колонкам следует относиться осторожно, т.к. мы не знаем погрешности определения стоящих в них цифр. Ещё осторожнее следует быть с вычислением их разности (поскольку погрешность может запросто её превышать и получится, что мы измеряем высоту каблуков, вычитая из роста обутого человека рост босого). Меня самого очень смущают получающиеся разности с той точки зрения, что, например, переброс голосов в 2011 году в Москве был порядка половины чистого вброса, а тут разность значительно меньше.

From:

termometr.livejournal.com

Если в итоговой таблице часть больше целого, то или не точно названы колонки, или там арифметические ошибки. Или вся методика неверна.

From:

tov-y.livejournal.com

Часть может быть больше целого, если не только из него делается.
Написал апдейт в основной пост.

From:

termometr.livejournal.com

Если вброс голосов за лидера больше общего вброса, значит голоса ещё и перебрасывались.
***
может следует переименовать имена последних колонок?

From:

tov-y.livejournal.com

Нет. Они названы сообразно способу их вычисления.

Flat | Top-Level Comments Only

Profile

tov_y

Обретение имени

April 2018

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

Style Credit

Style: Green Machine for Lefty by sarken

Expand Cut Tags

No cut tags

Page generated Jul. 5th, 2025 04:44 am

Минуя божии ладони...

Тигрячьи полоски – вдоль и поперёк

Результаты выборов

Navigation

Результаты выборов

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

(frozen) no subject

Profile

April 2018

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags