tov_y: (Winking)
[personal profile] tov_y
Задача – единообразная реконструкция результатов федеральных выборов разных лет.
Метод – выявление и исключение из анализа регионов с массовыми фальсификациями, реконструкция для оставшихся регионов явки и результатов лидера (кандидата/партии власти) на основе гипотезы Собянина–Суховольского (независимость относительного результата от явки) с последующим распространением полученных процентов на всю страну.
Для проверки на уровень фальсификаций использовались следующие критерии:
1) неравномерность распределения последних цифр:
1а) числа зарегистрированных избирателей, числа проголосовавших избирателей (действительные + недействительные бюллетеней) и числа голосов, поданных за лидера;
1б) округлённых до десятых долей процентов явки, абсолютного и относительного результатов лидера;
2) наличие сгущений (концентрации на одних и тех же процентах) явки, абсолютного и относительного результатов лидера и его антирезультата;
3) широта разброса этих же показателей по участкам, относящим к одной территории.
Для указанных 14 критериев были установлены мягкий и жёсткий пороги. При превышении первого региону выдавалась жёлтая карточка (есть подозрение в масштабных фальсификациях данного типа) при превышении второго – красная (нет сомнений в масштабных фальсификациях данного типа). Получение двух жёлтых или одной красной карточки означает дисквалификацию региона, т.е. исключение данных по не нему из дальнейшего анализа. Каждая жёлтая карточка означает уменьшение веса региона вдвое – такая замена правил существенно пошевелила по сравнению с первой версией охват и объёмы вброса, но практически не затронула проценты.
Для критериев группы 1 по всем участкам с нетривиальной явкой и числом избирателей не менее 100 человек вычислялась статистика хи-квадрат, для которой выбраны пороговые значения 25 и 30, соответствующие при 9 степенях свободы уровням значимости в 0,3% и 0,04%. Участки с нулевой или стопроцентной явкой, а также мелкие участки исключались из рассмотрения.
Для поиска сгущений все участки сортировались в порядке роста рассматриваемого показателя, после чего рассчитывалось его изменение, соответствующее увеличению доли зарегистрированных избирателей региона на 3%. Десятичный логарифм минимума этой величины, взятый с обратным знаком, и выступал в качестве критерия группы 2 с пороговыми значениями, равными 3,5 и 4,0.
В качестве меры неоднородности результатов бралась разница верхнего и нижнего децильных уровней рассматриваемых показателей по всем УИК, которая далее осреднялась по всем ТИК, давая критерии группы 3. Все участки и территории рассматривались с весом, равным числу избирателей. Использовались следующие пороги: явка – 23% и 26%, относительный результат лидера – 20% и 25%, абсолютный результат лидера – 23% и 29%, антирезультат лидера – 14,5% и 17%. Дополнительно введён и нижний порог для выдачи жёлтых карточек: 8%, 6%, 5% и 4,5%.
Я обязательного когда-нибудь объясню, почему выбирались именно такие параметры и, может быть, – даже здесь. Для критериев группы 2 у меня есть хорошее обоснование значений, для критериев группы 3 – так себе.
После дисквалификации регионов, в которых просто нечего реконструировать, для каждого из оставшихся зависимость относительного результата лидера от явки аппроксимировалась непрерывной кусочно-линейной функцией с горизонтальной левой половинкой. Участки учитывались с весом, равным числу избирателей. Точка определялась минимизацией невязки. Реконструированные результаты получены только по участкам с явкой, лежащей левее точки перелома.
Итог:

Год

Охват

Официальные результаты

Реконструированные результаты

Вброс, млн

Явка

Абс.рез.

Отн.рез.

Явка

Абс.рез.

Отн.рез.

Всего

За лидера

2000

92%

69%

36%

53%

60%

31%

52%

9,3

5,6

2003

80%

56%

21%

38%

47%

16%

33%

9,8

5,9

2004

82%

64%

46%

71%

53%

36%

67%

11,9

11,0

2007

85%

64%

41%

64%

53%

31%

57%

11,2

11,3

2008

66%

70%

49%

70%

56%

35%

62%

14,7

15,0

2011

53%

60%

30%

49%

46%

15%

33%

15,0

15,6

2012

83%

65%

42%

64%

57%

33%

57%

9,2

9,8

2016

69%

48%

26%

54%

33%

13%

39%

16,5

14,4



Под охватом здесь понимается доля избирателей, приходящихся на регионы, не подвергшиеся дисквалификации. По этому показателю выборы-2016 держат почётное второетретье место с конца, опережая только приснопамятные выборы-2011. Зато нынешние выборы лидируют в подкручивании абсолютного результата лидера, которые был завышен вдвое.

UPD-1. Поясню подробнее, что стоит в последних двух колонках таблицы. «Вброс всего» – разница официальной и реконструированной явок, домноженная на общее число избирателей, «Взрос за лидера» – разница его официального и реконструированного результатов, опять же домноженная на общее число избирателей. Т.е. первая величина оценивает число вброшенных (реально или виртуально) бюллетеней, а вторая – число голосов, приписанных партии/кандидату власти. Если первая величина оказывается меньше, значит, имела место значимая кража голосов у прочих партий/кандидатов. В противном случае следует предполагать передачу другим партиям/кандидатам части вброшенных голосов. Эти цифры приведены здесь именно потому, что некоторые соотношения между ними меня смущают. Я пока не понял, кроется ли здесь проблема в принципиальных недостатках метода или в высоких погрешностях определения величин вброса.

UPD-2. Пояснения про критерии начну с распределения последних цифр как с самого простого, понятного и надёжного критерия. Основная гипотеза состоит в том, что у независимых многозначных целых чисел последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Чтобы понять, насколько они могут быть велики, используется критерий согласия Пирсона. Как и любой метод проверки гипотез он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие равновероятности частоты цифр статистика имеет очень простой вид: 10nΣi=09(ni/n–1/10)2, где ni – сколько раз в конце числа стоит цифра i, а n = Σi=09ni – объём выборки. Если все ni>10, то независимо от распределения отклонений частот ni от 1/10 можно полагать, что рассматривая статистика подчиняются распределению χ2 с 9 степенями свободы (цифр 10, но одна степень свободы расходуется на определение средней частоты). Чем больше значение статистики, тем менее вероятным является их возникновение в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, даётся уровнем значимости α, который можно вычислить с помощью функции Excel Хи2Расп.

UPD-3. Широта разброса является наиболее спорным и сложным критерием фальсификаций. Для неё по разным показателям приходится подбирать пороги индивидуально, тогда как для остальных критериев пороги унифицируются. Кроме того, хотя большая широта разброса является признаком фальсификаций, происходящих на части участков, в то же время слишком малая широта тоже может быть признаком (хотя и не столь надёжным) рисования результатов под копирку, что дополнительно усложняет задачу.
Приводимые картинки хоть и не объясняют конкретных значений порогов, но иллюстрируют логику их выбора. Красные карточки по каждому показателю получают примерно 4% регионов от их массы за все годы (некоторые – по нескольким показателям), желтые – около 12%.


Date: 2016-10-07 08:52 am (UTC)
From: [identity profile] corbulon.livejournal.com
Для общего распространения нужно популярное изложение.
---
Посмотрите, плиззз, вот эту дискуссию с незнакомым мне юзером по поводу распределения последних цифр:
http://corbulon.livejournal.com/323792.html?thread=8267472#t8267472

Date: 2016-10-07 09:10 am (UTC)
From: [identity profile] tov-y.livejournal.com
> Для общего распространения нужно популярное изложение.
Э… Вы вообще о чём? Что такое "общее распространение"?
Что касается критериев 1, то, по-моему, там всё предельно ясно.
Что касается критериев 2 и 3, то там я буду делать пояснения. Но позже. Сейчас я затормозил из-за того, что пороги для критерия 3 были изначально взяты для 9 выборов – включая думские-1999, – которые я в последний момент решил выкинуть из-за их странностей (куда там делась половина избирателей?!). Вот и переопределяю пороги.

> Посмотрите, плиззз, вот эту дискуссию
Посмотрел. При чём там закон Бенфорда, не понял: где первая цифра, а где последняя?
От себя замечу, что ограничение числа избирателей снизу я ввёл, чтобы не докапывались. На результаты оно влияет не принципиально (а вот исключение участков со 100%-явкой абсолютно необходимо).

Date: 2016-10-07 03:23 pm (UTC)
From: [identity profile] corbulon.livejournal.com
Имеется в виду изложение для людей, плохо помнящих про критрий Пирсона.

Хотел познакомить вас с аргументами против использования РПЦ.
Понятно, что оппонент высасывает их, но тем не менее.

Выложил только что пост про выборы-2016.

Date: 2016-10-07 03:37 pm (UTC)
From: [identity profile] tov-y.livejournal.com
> Имеется в виду изложение для людей, плохо помнящих про критрий Пирсона.
А, так вот как оно, оказывается, называется! Ну, раз я теперь перешёл в разряд людей хорошо про него помнящих, можно и написать :)

> Хотел познакомить вас с аргументами против использования РПЦ.
Ну, у меня-то задача проще: мне не надо доказывать, что где-то результаты непременно лажовые. Мне надо всего лишь было отделить совсем неприличные от минимально приличных.

Date: 2016-10-07 03:44 pm (UTC)
From: [identity profile] corbulon.livejournal.com
>> мне не надо доказывать, что где-то результаты непременно лажовые...

Это вам не нужно. А им как раз нужно и они обязательно кинутся производить шум.
Один такой у вас уже появился ))

Date: 2016-10-07 03:48 pm (UTC)
From: [identity profile] tov-y.livejournal.com
Не, этого "появившегося", я хорошо знаю. Он не зловредный, а просто ленивый, как тот кот, который орёт, наступив на своё хозяйство, но с места не сходит.

Date: 2016-10-07 03:56 pm (UTC)
From: [identity profile] corbulon.livejournal.com
А вот тут еще один, тоже демагог хороший
http://kireev.livejournal.com/1309515.html?thread=32107339#t32107339

Date: 2016-10-07 05:22 pm (UTC)
From: [identity profile] tov-y.livejournal.com
С худой овцы - хоть шерсти клок. В смысле: воспринимайте такие споры как площадку для оттачивания формулировок. По известному анекдоту тупыми считаются студенты, понявшие материал позже, чем профессор :)

Date: 2016-10-08 08:09 am (UTC)
From: [identity profile] barouh.livejournal.com
А в чем демагогия? Сейчас начало дискуссии глянул (на всю ветку времени нет) - взвешенные и достаточно разумные вещи человек пишет. Во многом близко к моему видению

(конкретно про модель Шпилькина - на мой взгляд, она работает не за счет однородности общества, а за счет "нормального распределения" неоднородности)

Date: 2016-10-08 08:15 am (UTC)
From: [identity profile] corbulon.livejournal.com
У него там всё вперемешку. И здравые мысли, и неумение внимательно читать, и манера приписывать оппоненту нелепости, выдуманные им же самим.

Date: 2016-10-08 05:58 pm (UTC)
From: [identity profile] tov-y.livejournal.com
Вот здесь (http://podmoskovnik.livejournal.com/175849.html) [livejournal.com profile] podmoskovnik с помощью своей модели считает вброс за ЕдРо по регионам в розницу и по всей стране оптом.
Коллеги, вас не смущает, что суммарно по регионам вброшено 7,7 млн голосов (из 28,5 млн официально насчитанных), а по стране в целом – 12,1 млн? Нет? Ну, и меня тоже не смущает. Понятно, что дело тут в существенно большей неоднородности страны в целом по сравнению с регионами. То есть, неоднородность весьма значима для подобных расчётов. А уж как она там распределена, это одному богу известно.

Date: 2016-10-07 06:13 pm (UTC)
From: [identity profile] tov-y.livejournal.com
Посмотрите, плз, UPD-2. Всё-таки я – ни разу не статистик…

Date: 2016-10-07 06:45 pm (UTC)
From: [identity profile] corbulon.livejournal.com
/а кто статистик? от статистика слышу/

Там особо негде и ошибаться. Обтачивать формулировки до полной их зубодробительности (и точности) смысла нет.
А показать на пальцах, какой в формулы вписан обычный здравый смысл, всегда полезнее.

(frozen)

Date: 2016-10-07 09:47 am (UTC)
From: [identity profile] termometr.livejournal.com
2007


87%


64%


41%


64%


53%


31%


57%


11,2
меньше

11,3

(frozen)

Date: 2016-10-07 09:50 am (UTC)
From: [identity profile] termometr.livejournal.com
2007-2012 везде последние колонки - 146% ?

(frozen)

Date: 2016-10-07 09:51 am (UTC)
From: [identity profile] tov-y.livejournal.com
146% от чего?

(frozen)

Date: 2016-10-07 09:52 am (UTC)
From: [identity profile] termometr.livejournal.com
от ста ) это мем )))


(frozen)

Date: 2016-10-07 09:57 am (UTC)
From: [identity profile] tov-y.livejournal.com
Это не только мем. Это ещё и уровень завышения относительного результата Единой России в 2011 году - без малого в полтора раза.

(frozen)

Date: 2016-10-07 10:03 am (UTC)
From: [identity profile] termometr.livejournal.com
то, что в 11-ом был беспредел не оправдывает арифметических ошибок

(frozen)

Date: 2016-10-07 10:06 am (UTC)
From: [identity profile] tov-y.livejournal.com
Постарайтесь не торопиться с выводами до того, как убедитесь, что правильно поняли посылки.

(frozen)

Date: 2016-10-07 10:13 am (UTC)
From: [identity profile] termometr.livejournal.com
Вероятность неотрицательна. Точка.
Часть меньше целого. Точка.
Если в результате это нарушено - результат ничтожен. Точка.

(frozen)

Date: 2016-10-07 10:26 am (UTC)
From: [identity profile] tov-y.livejournal.com
Ветка заморожена. Точка.

(frozen)

Date: 2016-10-07 09:54 am (UTC)
From: [identity profile] termometr.livejournal.com
Всего < За лидера

(frozen)

Date: 2016-10-07 10:05 am (UTC)
From: [identity profile] tov-y.livejournal.com
Если вброс голосов за лидера больше общего вброса, значит голоса ещё и перебрасывались. И это не новость. Интереснее, если наоборот, т.е. часть вброшенных бюллетеней приписана не партии/кандидату власти. Это, по-видимому, и в самом деле имело место в 2016 г., а вот было ли это в 2000-04 гг. или мы имеем дело недостаточной точностью результатов, я пока не понимаю.
Однако к последним двум колонкам следует относиться осторожно, т.к. мы не знаем погрешности определения стоящих в них цифр. Ещё осторожнее следует быть с вычислением их разности (поскольку погрешность может запросто её превышать и получится, что мы измеряем высоту каблуков, вычитая из роста обутого человека рост босого). Меня самого очень смущают получающиеся разности с той точки зрения, что, например, переброс голосов в 2011 году в Москве был порядка половины чистого вброса, а тут разность значительно меньше.

(frozen)

Date: 2016-10-07 10:09 am (UTC)
From: [identity profile] termometr.livejournal.com
Если в итоговой таблице часть больше целого, то или не точно названы колонки, или там арифметические ошибки. Или вся методика неверна.

(frozen)

Date: 2016-10-07 10:25 am (UTC)
From: [identity profile] tov-y.livejournal.com
Часть может быть больше целого, если не только из него делается.
Написал апдейт в основной пост.

(frozen)

Date: 2016-10-07 10:20 am (UTC)
From: [identity profile] termometr.livejournal.com
Если вброс голосов за лидера больше общего вброса, значит голоса ещё и перебрасывались.
***
может следует переименовать имена последних колонок?

(frozen)

Date: 2016-10-07 10:25 am (UTC)
From: [identity profile] tov-y.livejournal.com
Нет. Они названы сообразно способу их вычисления.

January 2017

S M T W T F S
1234567
891011121314
151617 18192021
22232425 262728
293031    

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 26th, 2017 08:40 am
Powered by Dreamwidth Studios