Entry tags:
Распределение последних цифр
Хотя эта тема уже много раз обсуждалось, никто, как мне кажется, пока не делал двух вещей – не смотрели данные по округам вместо субъектов федерации и не пытались применить эту же методику для ловли сгустков.
Базовая гипотеза, лежащая в основе метода состоит в том, что у целых чисел, разброс значений которых измеряется многими десятками и даже сотнями единиц, последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Понять, насколько они могут быть велики, позволяет критерий согласия Пирсона. Как и любой метод проверки гипотез, он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие гипотезе равновероятности частоты цифр статистика имеет очень простой вид: S = d·n·Σi=0d–1(ni/n–1/d)2, где ni – сколько раз в конце числа стоит цифра i, d = 10 – количество используемых цифр, а n = Σi=0d–1ni – объём выборки.
Если все ni > 10, то можно полагать, что рассматривая статистика подчиняются распределению χ2 с d–1 степенями свободы (1 степень свободы расходуется на определение средней частоты) независимо от распределения отклонений частот ni от 1/d (если же оно нормально, то данное ограничение будет излишним).
Чем больше значение статистики, тем менее вероятным является возникновение отклонений в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, задаётся уровнем значимости α, который можно вычислить, либо по таблицам распределения χ2, либо с помощью стандартных функций в статистических пакетах. Например, в Excel: α = Хи2Расп(S;d–1).
Для теста оказались продуктивны следующие три величины: число избирателей, пришедших на участки, явка и относительный результат партии власти. Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).
Из рассмотрения исключались участки, где зарегистрировано менее 100 избирателей, т.к. здесь нельзя гарантировать достаточно широко разброса анализируемых величин. Кроме того, для явки из рассмотрения исключались участки, где проголосовали все избиратели (весьма вероятно, что на этих участках списки не составлялись заранее, а заполнялись по факту прихода избирателей).
Поскольку для некоторых округов получаются невообразимо маленькие вероятности, далее вместо уровня значимости α используется величина pα = –lg α. Относиться к ней рекомендуется следующим образом. Если она принимает значения в районе 3, следует насторожиться, если в районе 4 – поинтересоваться, «где посадки», а если 5 и более – вызывать экзорциста, ибо юридические законы здесь уже бессильны.
Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα (приведён максимум по трём рассматриваемым величинам): 29 Набережно-Челнинский (Татарстан) – 38,4, 27 Московский (Татарстан) – 20,9, 36 Чеченский (Чечня) – 17,8, 11 Центральный (Дагестан) – 17,0, 12 Южный (Дагестан) – 14,0, 30 Альметьевский (Татарстан) – 11,9, 6 Нефтекамский (Башкортостан) – 11,8, 8 Стерлитамакский (Башкортостан) – 11,8, 3 Уфимский (Башкортостан) – 11,3, 163 Саратовский (Саратовская область) – 10,4, 26 Приволжский (Татарстан) – 9,2, 10 Северный (Дагестан) – 8,8, 23 Мордовский (Мордовия) – 8,3, 25 Северо-Осетинский (Алания) – 7,9, 101 Кемеровский (Кемеровская область) – 7,6, 104 Новокузнецкий (Кемеровская область) – 5,4, 5 Белорецкий (Башкортостан) – 5,3, 186 Заводоуковский (Тюменская область) – 4,5, 165 Балашовский (Саратовская область) – 4,0, 102 Прокопьевский (Кемеровская область) – 3,5, 31 Центральный (Татарстан) – 3,5, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 3,5, 28 Нижнекамский (Татарстан) – 3,3, 49 Туапсинский (Краснодарский край) – 3,2, 13 Ингушский (Ингушетия) – 2,8.
Примечательны следующие два момента.
Во-первых, в республиках и областях, отличившихся в деле рисованию результатов, есть округа, благополучно прошедшие тест: 4 Благовещенский (Башкортостан) – 1,6, 7 Салаватский (Башкортостан) – 2,2, 103 Заводский (Кемеровская область) – 2,6, 166 Энгельсский (Саратовская область) – 1,6, 164 Балаковский (Саратовская область) – 0,5 и 185 Тюменский (Тюменская область) – 1,8.
Во-вторых, хотя в большинстве случаев наиболее распространённая последняя цифра – «0», есть несколько ОИК, для которых это не так: 36 Чеченский и 16 Карачаево-Черкесский – «5» для результата лидера, 163 Саратовский и 165 Балашовский– «2» для результата лидера и «3» для явки, 13 Ингушский – «3» для явки.
А теперь – к сгусткам.
Люди, рисующие результаты, рисуют их, естественно, в десятичной системе счисления. Поэтому если выбираются просто психологически притягательные значения, то для тех же величин в других системах счисления будет получаться равномерное распределение последней цифры. А вот если массово рисуется одно и то же целевое число, то и после смены системы счисления тест будет провален точно так же, как он был провален в десятичной системе. Я для каждой из величин рассмотрел основания d от 7 до 13 и брал максимум полученных pαd (значение d = 10, разумеетмся, не участвовало).
Для числа пришедших тест есть 3 округа–лидера: 125 Сергиево-Посадский (Московская область) – 4,0, 11 Центральный (Дагестан) – 3,1 и 73 Котласский (Архангельская область) – 3,0. Для явки их уже 8: 163 Саратовский (Саратовская область) – 10,9, 29 Набережно-Челнинский (Татарстан) – 5,7, 165 Балашовский (Саратовская область) – 5,3, 12 Южный (Дагестан) – 4,6, 28 Нижнекамский (Татарстан) – 4,3, 30 Альметьевский (Татарстан) – 3,9, 183 Тульский (Тульская область) – 3,8 и 101 Кемеровский (Кемеровская область) – 3,3. Наконец, для результата лидера их становится 12: 163 Саратовский (Саратовская область) – 18,0, 12 Южный (Дагестан) – 14,4, 36 Чеченский (Чечня) – 8,8, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 6,1, 13 Ингушский (Ингушетия) – 5,9, 11 Центральный (Дагестан) – 5,7, 8 Стерлитамакский (Башкортостан) – 5,5, 26 Приволжский (Татарстан) – 5,4, 185 Тюменский (Тюменская область) – 5,0, 165 Балашовский (Саратовская область) – 4,1, 91 Ивановский (Ивановская область) – 4,1, 198 Ленинградский (Город Москва) – 3,3.
Возможно, здесь критерии следует сделать помягче, т.к. рассматриваются 6 значений статистики для каждой величины. Но всё-таки Саратовская и Тюменская области, Татарстан, Дагестан, Чечня, Карачаево-Черкесия и Ингушетия спались вполне отчётливо – в них есть округа с pαd > 4.
Кроме того, в список ОИК с выявленными сгустками вошли все те, для которых любимая последняя цифра была не «0».
Базовая гипотеза, лежащая в основе метода состоит в том, что у целых чисел, разброс значений которых измеряется многими десятками и даже сотнями единиц, последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Понять, насколько они могут быть велики, позволяет критерий согласия Пирсона. Как и любой метод проверки гипотез, он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие гипотезе равновероятности частоты цифр статистика имеет очень простой вид: S = d·n·Σi=0d–1(ni/n–1/d)2, где ni – сколько раз в конце числа стоит цифра i, d = 10 – количество используемых цифр, а n = Σi=0d–1ni – объём выборки.
Если все ni > 10, то можно полагать, что рассматривая статистика подчиняются распределению χ2 с d–1 степенями свободы (1 степень свободы расходуется на определение средней частоты) независимо от распределения отклонений частот ni от 1/d (если же оно нормально, то данное ограничение будет излишним).
Чем больше значение статистики, тем менее вероятным является возникновение отклонений в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, задаётся уровнем значимости α, который можно вычислить, либо по таблицам распределения χ2, либо с помощью стандартных функций в статистических пакетах. Например, в Excel: α = Хи2Расп(S;d–1).
Для теста оказались продуктивны следующие три величины: число избирателей, пришедших на участки, явка и относительный результат партии власти. Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).
Из рассмотрения исключались участки, где зарегистрировано менее 100 избирателей, т.к. здесь нельзя гарантировать достаточно широко разброса анализируемых величин. Кроме того, для явки из рассмотрения исключались участки, где проголосовали все избиратели (весьма вероятно, что на этих участках списки не составлялись заранее, а заполнялись по факту прихода избирателей).
Поскольку для некоторых округов получаются невообразимо маленькие вероятности, далее вместо уровня значимости α используется величина pα = –lg α. Относиться к ней рекомендуется следующим образом. Если она принимает значения в районе 3, следует насторожиться, если в районе 4 – поинтересоваться, «где посадки», а если 5 и более – вызывать экзорциста, ибо юридические законы здесь уже бессильны.
Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα (приведён максимум по трём рассматриваемым величинам): 29 Набережно-Челнинский (Татарстан) – 38,4, 27 Московский (Татарстан) – 20,9, 36 Чеченский (Чечня) – 17,8, 11 Центральный (Дагестан) – 17,0, 12 Южный (Дагестан) – 14,0, 30 Альметьевский (Татарстан) – 11,9, 6 Нефтекамский (Башкортостан) – 11,8, 8 Стерлитамакский (Башкортостан) – 11,8, 3 Уфимский (Башкортостан) – 11,3, 163 Саратовский (Саратовская область) – 10,4, 26 Приволжский (Татарстан) – 9,2, 10 Северный (Дагестан) – 8,8, 23 Мордовский (Мордовия) – 8,3, 25 Северо-Осетинский (Алания) – 7,9, 101 Кемеровский (Кемеровская область) – 7,6, 104 Новокузнецкий (Кемеровская область) – 5,4, 5 Белорецкий (Башкортостан) – 5,3, 186 Заводоуковский (Тюменская область) – 4,5, 165 Балашовский (Саратовская область) – 4,0, 102 Прокопьевский (Кемеровская область) – 3,5, 31 Центральный (Татарстан) – 3,5, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 3,5, 28 Нижнекамский (Татарстан) – 3,3, 49 Туапсинский (Краснодарский край) – 3,2, 13 Ингушский (Ингушетия) – 2,8.
Примечательны следующие два момента.
Во-первых, в республиках и областях, отличившихся в деле рисованию результатов, есть округа, благополучно прошедшие тест: 4 Благовещенский (Башкортостан) – 1,6, 7 Салаватский (Башкортостан) – 2,2, 103 Заводский (Кемеровская область) – 2,6, 166 Энгельсский (Саратовская область) – 1,6, 164 Балаковский (Саратовская область) – 0,5 и 185 Тюменский (Тюменская область) – 1,8.
Во-вторых, хотя в большинстве случаев наиболее распространённая последняя цифра – «0», есть несколько ОИК, для которых это не так: 36 Чеченский и 16 Карачаево-Черкесский – «5» для результата лидера, 163 Саратовский и 165 Балашовский– «2» для результата лидера и «3» для явки, 13 Ингушский – «3» для явки.
А теперь – к сгусткам.
Люди, рисующие результаты, рисуют их, естественно, в десятичной системе счисления. Поэтому если выбираются просто психологически притягательные значения, то для тех же величин в других системах счисления будет получаться равномерное распределение последней цифры. А вот если массово рисуется одно и то же целевое число, то и после смены системы счисления тест будет провален точно так же, как он был провален в десятичной системе. Я для каждой из величин рассмотрел основания d от 7 до 13 и брал максимум полученных pαd (значение d = 10, разумеетмся, не участвовало).
Для числа пришедших тест есть 3 округа–лидера: 125 Сергиево-Посадский (Московская область) – 4,0, 11 Центральный (Дагестан) – 3,1 и 73 Котласский (Архангельская область) – 3,0. Для явки их уже 8: 163 Саратовский (Саратовская область) – 10,9, 29 Набережно-Челнинский (Татарстан) – 5,7, 165 Балашовский (Саратовская область) – 5,3, 12 Южный (Дагестан) – 4,6, 28 Нижнекамский (Татарстан) – 4,3, 30 Альметьевский (Татарстан) – 3,9, 183 Тульский (Тульская область) – 3,8 и 101 Кемеровский (Кемеровская область) – 3,3. Наконец, для результата лидера их становится 12: 163 Саратовский (Саратовская область) – 18,0, 12 Южный (Дагестан) – 14,4, 36 Чеченский (Чечня) – 8,8, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 6,1, 13 Ингушский (Ингушетия) – 5,9, 11 Центральный (Дагестан) – 5,7, 8 Стерлитамакский (Башкортостан) – 5,5, 26 Приволжский (Татарстан) – 5,4, 185 Тюменский (Тюменская область) – 5,0, 165 Балашовский (Саратовская область) – 4,1, 91 Ивановский (Ивановская область) – 4,1, 198 Ленинградский (Город Москва) – 3,3.
Возможно, здесь критерии следует сделать помягче, т.к. рассматриваются 6 значений статистики для каждой величины. Но всё-таки Саратовская и Тюменская области, Татарстан, Дагестан, Чечня, Карачаево-Черкесия и Ингушетия спались вполне отчётливо – в них есть округа с pαd > 4.
Кроме того, в список ОИК с выявленными сгустками вошли все те, для которых любимая последняя цифра была не «0».
no subject
Но зачем??? во всех таблицах присутствуют именно числа человеков; проценты вычисляются потом!
no subject
Кроме того, на начальном этапе я рассматривал много других показателей, в т.ч. число проголосовавших "за" и "против". Непродуктивно. Эти величины рисуются без огонька и энтузиазма. Так что я решил ограничиться тремя упомянутыми. Да и число пришедших выстрелило всего два раза: ОИК Северо-Осетинский (Алания) – pα=7,9 и ОИК 104 Новокузнецкий (Кемеровская область) – pα=5,4. А вот проценты стреляют длинными очередями, не щадя тов.Пирсона.
no subject
Разумеется, один из показателей целевых фальсификаций -- это рисование целого процента. Но вы же не его рассматриваете, верно?
В скобках: именно так и получается -- сначала рисуют красивый процент, а потом под него подгоняют числа избирателей, которые в большинстве случаев оказываются совсем не круглыми. Мы все это в статье детально анализировали.
no subject
Я рассматриваю целый промилле.
> Мы все это в статье детально анализировали.
Да, но если мне не изменяет память, то для субъектов федерации, а не для округов. Считайте, что я вас малость развил и углУбил.
no subject
умнО!
интересно, почему ме не сделали то же самое, а херачили Монте-Карло для проверки достоверности.
(no subject)
no subject
no subject
//рассматривалось равномерность распределения десятых долей процента//
no subject
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
Когда-то, очень давно, кажется в 2008, я повозился с РПЦ в процентах, собственно с этого и начинал возню с РПЦ, но ничего интересного с ходу не нашел, а дальше заленился. Оказывается зря.
Немного не понял, что у вас получилось с другими модулями, не 10?
Там РПЦ всегда законное или все же кое-где есть криминал? А то фраза "после смены системы счисления тест будет провален" двусмысленная
no subject
Одна и та же цифра в конце чисел может доминировать по двум причинам: либо рисуют красивые проценты (на практике просто целые, десятых - ноль), но разные, либо рисуют прям-таки один и тот же процент, но некрасивый (привет Саратову). В первом случае пирсоновский тест будет провален в десятичной системе, но пройден в системах по другим основаниям, во втором случае тест будет провален в любой системе счисления. Дописал в текст по этому поводу фразу "точно так же, как он был провален в десятичной системе" во избежание двусмысленностей.
no subject
Если процент одинаковый, то РПЦ ультраравномерно, w близко к единице. Но критерий двухстронний и
w=1-0.0001=0.9999
также криминально, как w=0.0001.
"Тест провален" тоже выражение не ах, пахнет субъективностью - для какого ожидания он провален.
Лучше определенное: "тест указал на неслучайность РПЦ" или "не указал... "
ЗЫ
А еще можно делать тест по двум последним цифрам, там кое-что новое выползает. Например в Пензе выяснилось, что голосуют на дому чаще всего по 50 человек, больше чем по 49 и 51 вместе взятых.
no subject
Критерий, возможно, и двусторонний (не припоминаю я про него этого и, честно говоря, слыхал об этом только от Вас), но проверка гипотезы - всегда дело одностороннее: мы имеем только вероятность совершить ошибку того или иного рода.
Спасибо. Как буду писать статью, воспользуюсь Вашими рекомендациями по строгим формулировкам. Тут и так сойдёт :) Тем более, что уровни значимости я привёл.
Я "на дому" вообще не смотрел. Был неправ. Может, там и одна цифра чего даст…
no subject
вероятность того, что при других выборках из генеральной совокупности будет получена сумма квадратов отклонений равная или большая данной.
Ясно, что идеальное значение - 50% равновероятно получить и большее и меньшее значение.
Помнится (где-то когда-то читал) что Пирсон поймал кого-то из своих клиентов биологов именно на там, что тот придумал слишком "правильные" числа.
(no subject)
(no subject)
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
Из текста это непонятно....
Нельзя ли построить график и посмотреть корреляцию между W по РПЦ и относительным вкладом фальшака в регионах или округах.?
no subject
p(1–αmax-7)=4,7 (ОИК 69 Хабаровский, Хабаровский край, явка)
p(1–αmax-8)=3,5 (ОИК 28 Нижнекамский, Татарстан, результат)
p(1–αmax-9)=3,9 (ОИК 50 Сочинский, Краснодарский край, результат)
p(1–αmax-10)=3,0 (ОИК 170 Березовский, Свердловская область, результат)
p(1–αmax-11)=2,6 (ОИК 174 Серовский, Свердловская область, пришло)
p(1–αmax-12)=3,7 (ОИК 15 Калмыцкий, Калмыкия, результат)
p(1–αmax-13)=2,6 (ОИК 64 Арсеньевский, Приморский край, результат)
2) А зачем? Там, где статистика лежит в разумных пределах, она ничего не скажет про фальшак. А там, где рисовали, и без корреляций видно, что реконструкции эти регионы не поддаются или почти не поддаются. Правда, это не всегда видно на уровне округов, но на уровне территорий-то это видно.
no subject
2. Вам это видно, а остальным полезно наглядно показать, что там, где пусть и по грубым оценкам, но есть фальшак, там и РПЦ дает низкие W
no subject
2. Если я говорю, какие регионы не реконструируются и рядом даю таблицу регионов, проваливавших хи-квадрат, то всё что я могу сверх, - лишний раз обратить внимание на совпадение. График здесь будет ненагляден.
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
Мечтаю увидеть такой рисунок:
по оси Х номер региона (или хуже ОИК),
- по одной оси Y - процент фальшивой добавки к явке (по вашей методе, по Шпильскинской, или по НДБ - неважно; по России в целом это 12 млн к 52 млн),
- а по второй оси - lgW
Как-то так...
no subject
А зачем Вам именно lgW? Это же неудобная величина…
(no subject)
(no subject)
no subject
***
А можно еще позанудничать?
Вот вы поделили подмножества на 2 выборки "пошедших" и "не прошедших" критериальный тест. Однако, величине pα ничего не говорит о величине и статистической значимости отличий итогов голосования в выборках друг от друга и от подмножества в целом. Проводили такое сравнение?
no subject
no subject
no subject
(no subject)
(no subject)
(no subject)
(no subject)