tov_y: (Winking)
[personal profile] tov_y
Задача – единообразная реконструкция результатов федеральных выборов разных лет.
Метод – выявление и исключение из анализа регионов с массовыми фальсификациями, реконструкция для оставшихся регионов явки и результатов лидера (кандидата/партии власти) на основе гипотезы Собянина–Суховольского (независимость относительного результата от явки) с последующим распространением полученных процентов на всю страну.
Для проверки на уровень фальсификаций использовались следующие критерии:
1) неравномерность распределения последних цифр:
1а) числа зарегистрированных избирателей, числа проголосовавших избирателей (действительные + недействительные бюллетеней) и числа голосов, поданных за лидера;
1б) округлённых до десятых долей процентов явки, абсолютного и относительного результатов лидера;
2) наличие сгущений (концентрации на одних и тех же процентах) явки, абсолютного и относительного результатов лидера и его антирезультата;
3) широта разброса этих же показателей по участкам, относящим к одной территории.
Для указанных 14 критериев были установлены мягкий и жёсткий пороги. При превышении первого региону выдавалась жёлтая карточка (есть подозрение в масштабных фальсификациях данного типа) при превышении второго – красная (нет сомнений в масштабных фальсификациях данного типа). Получение двух жёлтых или одной красной карточки означает дисквалификацию региона, т.е. исключение данных по не нему из дальнейшего анализа. Каждая жёлтая карточка означает уменьшение веса региона вдвое – такая замена правил существенно пошевелила по сравнению с первой версией охват и объёмы вброса, но практически не затронула проценты.
Для критериев группы 1 по всем участкам с нетривиальной явкой и числом избирателей не менее 100 человек вычислялась статистика хи-квадрат, для которой выбраны пороговые значения 25 и 30, соответствующие при 9 степенях свободы уровням значимости в 0,3% и 0,04%. Участки с нулевой или стопроцентной явкой, а также мелкие участки исключались из рассмотрения.
Для поиска сгущений все участки сортировались в порядке роста рассматриваемого показателя, после чего рассчитывалось его изменение, соответствующее увеличению доли зарегистрированных избирателей региона на 3%. Десятичный логарифм минимума этой величины, взятый с обратным знаком, и выступал в качестве критерия группы 2 с пороговыми значениями, равными 3,5 и 4,0.
В качестве меры неоднородности результатов бралась разница верхнего и нижнего децильных уровней рассматриваемых показателей по всем УИК, которая далее осреднялась по всем ТИК, давая критерии группы 3. Все участки и территории рассматривались с весом, равным числу избирателей. Использовались следующие пороги: явка – 23% и 26%, относительный результат лидера – 20% и 25%, абсолютный результат лидера – 23% и 29%, антирезультат лидера – 14,5% и 17%. Дополнительно введён и нижний порог для выдачи жёлтых карточек: 8%, 6%, 5% и 4,5%.
Я обязательного когда-нибудь объясню, почему выбирались именно такие параметры и, может быть, – даже здесь. Для критериев группы 2 у меня есть хорошее обоснование значений, для критериев группы 3 – так себе.
После дисквалификации регионов, в которых просто нечего реконструировать, для каждого из оставшихся зависимость относительного результата лидера от явки аппроксимировалась непрерывной кусочно-линейной функцией с горизонтальной левой половинкой. Участки учитывались с весом, равным числу избирателей. Точка определялась минимизацией невязки. Реконструированные результаты получены только по участкам с явкой, лежащей левее точки перелома.
Итог:

Год

Охват

Официальные результаты

Реконструированные результаты

Вброс, млн

Явка

Абс.рез.

Отн.рез.

Явка

Абс.рез.

Отн.рез.

Всего

За лидера

2000

92%

69%

36%

53%

60%

31%

52%

9,3

5,6

2003

80%

56%

21%

38%

47%

16%

33%

9,8

5,9

2004

82%

64%

46%

71%

53%

36%

67%

11,9

11,0

2007

85%

64%

41%

64%

53%

31%

57%

11,2

11,3

2008

66%

70%

49%

70%

56%

35%

62%

14,7

15,0

2011

53%

60%

30%

49%

46%

15%

33%

15,0

15,6

2012

83%

65%

42%

64%

57%

33%

57%

9,2

9,8

2016

69%

48%

26%

54%

33%

13%

39%

16,5

14,4



Под охватом здесь понимается доля избирателей, приходящихся на регионы, не подвергшиеся дисквалификации. По этому показателю выборы-2016 держат почётное второетретье место с конца, опережая только приснопамятные выборы-2011. Зато нынешние выборы лидируют в подкручивании абсолютного результата лидера, которые был завышен вдвое.

UPD-1. Поясню подробнее, что стоит в последних двух колонках таблицы. «Вброс всего» – разница официальной и реконструированной явок, домноженная на общее число избирателей, «Взрос за лидера» – разница его официального и реконструированного результатов, опять же домноженная на общее число избирателей. Т.е. первая величина оценивает число вброшенных (реально или виртуально) бюллетеней, а вторая – число голосов, приписанных партии/кандидату власти. Если первая величина оказывается меньше, значит, имела место значимая кража голосов у прочих партий/кандидатов. В противном случае следует предполагать передачу другим партиям/кандидатам части вброшенных голосов. Эти цифры приведены здесь именно потому, что некоторые соотношения между ними меня смущают. Я пока не понял, кроется ли здесь проблема в принципиальных недостатках метода или в высоких погрешностях определения величин вброса.

UPD-2. Пояснения про критерии начну с распределения последних цифр как с самого простого, понятного и надёжного критерия. Основная гипотеза состоит в том, что у независимых многозначных целых чисел последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Чтобы понять, насколько они могут быть велики, используется критерий согласия Пирсона. Как и любой метод проверки гипотез он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие равновероятности частоты цифр статистика имеет очень простой вид: 10nΣi=09(ni/n–1/10)2, где ni – сколько раз в конце числа стоит цифра i, а n = Σi=09ni – объём выборки. Если все ni>10, то независимо от распределения отклонений частот ni от 1/10 можно полагать, что рассматривая статистика подчиняются распределению χ2 с 9 степенями свободы (цифр 10, но одна степень свободы расходуется на определение средней частоты). Чем больше значение статистики, тем менее вероятным является их возникновение в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, даётся уровнем значимости α, который можно вычислить с помощью функции Excel Хи2Расп.

UPD-3. Широта разброса является наиболее спорным и сложным критерием фальсификаций. Для неё по разным показателям приходится подбирать пороги индивидуально, тогда как для остальных критериев пороги унифицируются. Кроме того, хотя большая широта разброса является признаком фальсификаций, происходящих на части участков, в то же время слишком малая широта тоже может быть признаком (хотя и не столь надёжным) рисования результатов под копирку, что дополнительно усложняет задачу.
Приводимые картинки хоть и не объясняют конкретных значений порогов, но иллюстрируют логику их выбора. Красные карточки по каждому показателю получают примерно 4% регионов от их массы за все годы (некоторые – по нескольким показателям), желтые – около 12%.


(frozen)

Date: 2016-10-07 10:06 am (UTC)
From: [identity profile] tov-y.livejournal.com
Постарайтесь не торопиться с выводами до того, как убедитесь, что правильно поняли посылки.

(frozen)

Date: 2016-10-07 10:13 am (UTC)
From: [identity profile] termometr.livejournal.com
Вероятность неотрицательна. Точка.
Часть меньше целого. Точка.
Если в результате это нарушено - результат ничтожен. Точка.

(frozen)

Date: 2016-10-07 10:26 am (UTC)
From: [identity profile] tov-y.livejournal.com
Ветка заморожена. Точка.

April 2018

S M T W T F S
1234567
891011121314
15161718192021
222324 2526 2728
2930     

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 6th, 2025 09:37 pm
Powered by Dreamwidth Studios