tov_y: (Winking)
[personal profile] tov_y
Хотя эта тема уже много раз обсуждалось, никто, как мне кажется, пока не делал двух вещей – не смотрели данные по округам вместо субъектов федерации и не пытались применить эту же методику для ловли сгустков.

Базовая гипотеза, лежащая в основе метода состоит в том, что у целых чисел, разброс значений которых измеряется многими десятками и даже сотнями единиц, последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Понять, насколько они могут быть велики, позволяет критерий согласия Пирсона. Как и любой метод проверки гипотез, он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие гипотезе равновероятности частоты цифр статистика имеет очень простой вид: S = d·n·Σi=0d–1(ni/n–1/d)2, где ni – сколько раз в конце числа стоит цифра i, d = 10 – количество используемых цифр, а n = Σi=0d–1ni – объём выборки.
Если все ni > 10, то можно полагать, что рассматривая статистика подчиняются распределению χ2 с d–1 степенями свободы (1 степень свободы расходуется на определение средней частоты) независимо от распределения отклонений частот ni от 1/d (если же оно нормально, то данное ограничение будет излишним).
Чем больше значение статистики, тем менее вероятным является возникновение отклонений в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, задаётся уровнем значимости α, который можно вычислить, либо по таблицам распределения χ2, либо с помощью стандартных функций в статистических пакетах. Например, в Excel: α = Хи2Расп(S;d–1).
Для теста оказались продуктивны следующие три величины: число избирателей, пришедших на участки, явка и относительный результат партии власти. Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).
Из рассмотрения исключались участки, где зарегистрировано менее 100 избирателей, т.к. здесь нельзя гарантировать достаточно широко разброса анализируемых величин. Кроме того, для явки из рассмотрения исключались участки, где проголосовали все избиратели (весьма вероятно, что на этих участках списки не составлялись заранее, а заполнялись по факту прихода избирателей).
Поскольку для некоторых округов получаются невообразимо маленькие вероятности, далее вместо уровня значимости α используется величина pα = –lg α. Относиться к ней рекомендуется следующим образом. Если она принимает значения в районе 3, следует насторожиться, если в районе 4 – поинтересоваться, «где посадки», а если 5 и более – вызывать экзорциста, ибо юридические законы здесь уже бессильны.

Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα (приведён максимум по трём рассматриваемым величинам): 29 Набережно-Челнинский (Татарстан) – 38,4, 27 Московский (Татарстан) – 20,9, 36 Чеченский (Чечня) – 17,8, 11 Центральный (Дагестан) – 17,0, 12 Южный (Дагестан) – 14,0, 30 Альметьевский (Татарстан) – 11,9, 6 Нефтекамский (Башкортостан) – 11,8, 8 Стерлитамакский (Башкортостан) – 11,8, 3 Уфимский (Башкортостан) – 11,3, 163 Саратовский (Саратовская область) – 10,4, 26 Приволжский (Татарстан) – 9,2, 10 Северный (Дагестан) – 8,8, 23 Мордовский (Мордовия) – 8,3, 25 Северо-Осетинский (Алания) – 7,9, 101 Кемеровский (Кемеровская область) – 7,6, 104 Новокузнецкий (Кемеровская область) – 5,4, 5 Белорецкий (Башкортостан) – 5,3, 186 Заводоуковский (Тюменская область) – 4,5, 165 Балашовский (Саратовская область) – 4,0, 102 Прокопьевский (Кемеровская область) – 3,5, 31 Центральный (Татарстан) – 3,5, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 3,5, 28 Нижнекамский (Татарстан) – 3,3, 49 Туапсинский (Краснодарский край) – 3,2, 13 Ингушский (Ингушетия) – 2,8.

Примечательны следующие два момента.
Во-первых, в республиках и областях, отличившихся в деле рисованию результатов, есть округа, благополучно прошедшие тест: 4 Благовещенский (Башкортостан) – 1,6, 7 Салаватский (Башкортостан) – 2,2, 103 Заводский (Кемеровская область) – 2,6, 166 Энгельсский (Саратовская область) – 1,6, 164 Балаковский (Саратовская область) – 0,5 и 185 Тюменский (Тюменская область) – 1,8.
Во-вторых, хотя в большинстве случаев наиболее распространённая последняя цифра – «0», есть несколько ОИК, для которых это не так: 36 Чеченский и 16 Карачаево-Черкесский – «5» для результата лидера, 163 Саратовский и 165 Балашовский– «2» для результата лидера и «3» для явки, 13 Ингушский – «3» для явки.

А теперь – к сгусткам.
Люди, рисующие результаты, рисуют их, естественно, в десятичной системе счисления. Поэтому если выбираются просто психологически притягательные значения, то для тех же величин в других системах счисления будет получаться равномерное распределение последней цифры. А вот если массово рисуется одно и то же целевое число, то и после смены системы счисления тест будет провален точно так же, как он был провален в десятичной системе. Я для каждой из величин рассмотрел основания d от 7 до 13 и брал максимум полученных pαd (значение d = 10, разумеетмся, не участвовало).
Для числа пришедших тест есть 3 округа–лидера: 125 Сергиево-Посадский (Московская область) – 4,0, 11 Центральный (Дагестан) – 3,1 и 73 Котласский (Архангельская область) – 3,0. Для явки их уже 8: 163 Саратовский (Саратовская область) – 10,9, 29 Набережно-Челнинский (Татарстан) – 5,7, 165 Балашовский (Саратовская область) – 5,3, 12 Южный (Дагестан) – 4,6, 28 Нижнекамский (Татарстан) – 4,3, 30 Альметьевский (Татарстан) – 3,9, 183 Тульский (Тульская область) – 3,8 и 101 Кемеровский (Кемеровская область) – 3,3. Наконец, для результата лидера их становится 12: 163 Саратовский (Саратовская область) – 18,0, 12 Южный (Дагестан) – 14,4, 36 Чеченский (Чечня) – 8,8, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 6,1, 13 Ингушский (Ингушетия) – 5,9, 11 Центральный (Дагестан) – 5,7, 8 Стерлитамакский (Башкортостан) – 5,5, 26 Приволжский (Татарстан) – 5,4, 185 Тюменский (Тюменская область) – 5,0, 165 Балашовский (Саратовская область) – 4,1, 91 Ивановский (Ивановская область) – 4,1, 198 Ленинградский (Город Москва) – 3,3.
Возможно, здесь критерии следует сделать помягче, т.к. рассматриваются 6 значений статистики для каждой величины. Но всё-таки Саратовская и Тюменская области, Татарстан, Дагестан, Чечня, Карачаево-Черкесия и Ингушетия спались вполне отчётливо – в них есть округа с pαd > 4.
Кроме того, в список ОИК с выявленными сгустками вошли все те, для которых любимая последняя цифра была не «0».

Date: 2016-11-23 10:00 am (UTC)
From: [identity profile] oude-rus.livejournal.com
//Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).//

Но зачем??? во всех таблицах присутствуют именно числа человеков; проценты вычисляются потом!

Date: 2016-11-23 10:14 am (UTC)
From: [identity profile] tov-y.livejournal.com
Целевым показателем фальсификации могут быть именно проценты. В этом случае сначала выдумывают красивые проценты, а потом из них лепят человеков.

Кроме того, на начальном этапе я рассматривал много других показателей, в т.ч. число проголосовавших "за" и "против". Непродуктивно. Эти величины рисуются без огонька и энтузиазма. Так что я решил ограничиться тремя упомянутыми. Да и число пришедших выстрелило всего два раза: ОИК Северо-Осетинский (Алания) – pα=7,9 и ОИК 104 Новокузнецкий (Кемеровская область) – pα=5,4. А вот проценты стреляют длинными очередями, не щадя тов.Пирсона.

Date: 2016-11-23 11:19 am (UTC)
From: [identity profile] oude-rus.livejournal.com
Я не понял аргумента.
Разумеется, один из показателей целевых фальсификаций -- это рисование целого процента. Но вы же не его рассматриваете, верно?

В скобках: именно так и получается -- сначала рисуют красивый процент, а потом под него подгоняют числа избирателей, которые в большинстве случаев оказываются совсем не круглыми. Мы все это в статье детально анализировали.

Date: 2016-11-23 11:48 am (UTC)
From: [identity profile] tov-y.livejournal.com
> Разумеется, один из показателей целевых фальсификаций -- это рисование целого процента. Но вы же не его рассматриваете, верно?
Я рассматриваю целый промилле.

> Мы все это в статье детально анализировали.
Да, но если мне не изменяет память, то для субъектов федерации, а не для округов. Считайте, что я вас малость развил и углУбил.

Date: 2016-11-23 12:03 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
А, вот теперь дошло.
умнО!
интересно, почему ме не сделали то же самое, а херачили Монте-Карло для проверки достоверности.

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-23 12:09 pm (UTC) - Expand

Date: 2016-11-23 01:12 pm (UTC)
From: [identity profile] rusty-spur.livejournal.com
Не знаю, я бы смотрел все таки последнюю цифру "числа человеков", в противном случае будет произвол, кто на 1000 умножит, кто на 100, а кто и на 50...

Date: 2016-11-23 01:16 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
я просто сходу не понял, что именно делалось, поскольку ключ спрятан внутри текста в скобки:
//рассматривалось равномерность распределения десятых долей процента//

Date: 2016-11-23 01:19 pm (UTC)
From: [identity profile] rusty-spur.livejournal.com
А почему именно десятых, а не сотых?

Date: 2016-11-23 01:29 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
потому что пики на целых процентах дадут аккурат ноль десятых.

(no subject)

From: [identity profile] rusty-spur.livejournal.com - Date: 2016-11-23 02:07 pm (UTC) - Expand

(no subject)

From: [identity profile] oude-rus.livejournal.com - Date: 2016-11-23 02:43 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-23 05:01 pm (UTC) - Expand

(no subject)

From: [identity profile] oude-rus.livejournal.com - Date: 2016-11-23 09:53 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-24 05:41 am (UTC) - Expand

(no subject)

From: [identity profile] rusty-spur.livejournal.com - Date: 2016-11-24 09:56 am (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-24 11:41 am (UTC) - Expand

Date: 2016-11-24 06:28 am (UTC)
From: [identity profile] corbulon.livejournal.com
Здорово, что у вас с процентами получилось!
Когда-то, очень давно, кажется в 2008, я повозился с РПЦ в процентах, собственно с этого и начинал возню с РПЦ, но ничего интересного с ходу не нашел, а дальше заленился. Оказывается зря.
Немного не понял, что у вас получилось с другими модулями, не 10?
Там РПЦ всегда законное или все же кое-где есть криминал? А то фраза "после смены системы счисления тест будет провален" двусмысленная

Date: 2016-11-24 06:37 am (UTC)
From: [identity profile] tov-y.livejournal.com
Мур-р-рси! Доброе слово и тигрёнку приятно :)

Одна и та же цифра в конце чисел может доминировать по двум причинам: либо рисуют красивые проценты (на практике просто целые, десятых - ноль), но разные, либо рисуют прям-таки один и тот же процент, но некрасивый (привет Саратову). В первом случае пирсоновский тест будет провален в десятичной системе, но пройден в системах по другим основаниям, во втором случае тест будет провален в любой системе счисления. Дописал в текст по этому поводу фразу "точно так же, как он был провален в десятичной системе" во избежание двусмысленностей.

Date: 2016-11-24 06:56 am (UTC)
From: [identity profile] corbulon.livejournal.com
А вероятность (по процентам) у вас всегда <<1, или есть и близкие к 1 ?
Если процент одинаковый, то РПЦ ультраравномерно, w близко к единице. Но критерий двухстронний и
w=1-0.0001=0.9999
также криминально, как w=0.0001.

"Тест провален" тоже выражение не ах, пахнет субъективностью - для какого ожидания он провален.
Лучше определенное: "тест указал на неслучайность РПЦ" или "не указал... "
ЗЫ
А еще можно делать тест по двум последним цифрам, там кое-что новое выползает. Например в Пензе выяснилось, что голосуют на дому чаще всего по 50 человек, больше чем по 49 и 51 вместе взятых.
Edited Date: 2016-11-24 07:05 am (UTC)

Date: 2016-11-24 07:06 am (UTC)
From: [identity profile] tov-y.livejournal.com
Минимум статистики по трём величинам для 209 округов даёт α≥0.9, для 194 - α≥0.99, для 164 α≥0.999.
Критерий, возможно, и двусторонний (не припоминаю я про него этого и, честно говоря, слыхал об этом только от Вас), но проверка гипотезы - всегда дело одностороннее: мы имеем только вероятность совершить ошибку того или иного рода.

Спасибо. Как буду писать статью, воспользуюсь Вашими рекомендациями по строгим формулировкам. Тут и так сойдёт :) Тем более, что уровни значимости я привёл.

Я "на дому" вообще не смотрел. Был неправ. Может, там и одна цифра чего даст…

Date: 2016-11-24 07:16 am (UTC)
From: [identity profile] corbulon.livejournal.com
Формулировка для W примерно такая:
вероятность того, что при других выборках из генеральной совокупности будет получена сумма квадратов отклонений равная или большая данной.
Ясно, что идеальное значение - 50% равновероятно получить и большее и меньшее значение.
Помнится (где-то когда-то читал) что Пирсон поймал кого-то из своих клиентов биологов именно на там, что тот придумал слишком "правильные" числа.

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-24 12:58 pm (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-24 04:35 pm (UTC) - Expand

Date: 2016-11-24 03:32 pm (UTC)
From: [identity profile] tov-y.livejournal.com
"На дому" оказалось плохой величиной. Она часто очень маленькая, так что нельзя ожидать равномерности распределения.

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-24 04:40 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-24 04:42 pm (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-24 04:48 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-24 04:49 pm (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-24 04:57 pm (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-24 04:52 pm (UTC) - Expand

Date: 2016-11-27 09:20 am (UTC)
From: [identity profile] corbulon.livejournal.com
А всё-таки, встречались или нет случаи, когда при модуле не равном десяти были низкие вероятности по хи-квадрат?
Из текста это непонятно....

Нельзя ли построить график и посмотреть корреляцию между W по РПЦ и относительным вкладом фальшака в регионах или округах.?

Date: 2016-11-27 09:49 am (UTC)
From: [identity profile] tov-y.livejournal.com
1) Встречались, хотя это и не должно быть понятно, т.к. меня оно ни разу не интересовало. Вот лидеры:
p(1–αmax-7)=4,7 (ОИК 69 Хабаровский, Хабаровский край, явка)
p(1–αmax-8)=3,5 (ОИК 28 Нижнекамский, Татарстан, результат)
p(1–αmax-9)=3,9 (ОИК 50 Сочинский, Краснодарский край, результат)
p(1–αmax-10)=3,0 (ОИК 170 Березовский, Свердловская область, результат)
p(1–αmax-11)=2,6 (ОИК 174 Серовский, Свердловская область, пришло)
p(1–αmax-12)=3,7 (ОИК 15 Калмыцкий, Калмыкия, результат)
p(1–αmax-13)=2,6 (ОИК 64 Арсеньевский, Приморский край, результат)

2) А зачем? Там, где статистика лежит в разумных пределах, она ничего не скажет про фальшак. А там, где рисовали, и без корреляций видно, что реконструкции эти регионы не поддаются или почти не поддаются. Правда, это не всегда видно на уровне округов, но на уровне территорий-то это видно.
Edited Date: 2016-11-27 09:51 am (UTC)

Date: 2016-11-27 10:13 am (UTC)
From: [identity profile] corbulon.livejournal.com
1. Для меня это необъяснимая сесация. Тоже посмотрю. (Березовский с модулем 10 это ошибка?)

2. Вам это видно, а остальным полезно наглядно показать, что там, где пусть и по грубым оценкам, но есть фальшак, там и РПЦ дает низкие W

Date: 2016-11-27 10:38 am (UTC)
From: [identity profile] tov-y.livejournal.com
1. Нет, не ошибка (проверил руками). А почему смущает? p(1–α)=3 для 678 попыток - не очень страшно. Вот 4,7 - страшно! Правда там, что любопытно, если не исключать из рассмотрения 9 участков (из 418) со 100% явкой, то будет 1,7 вместо 4,7. А если прибавить к списочной численности случайную величину на [-1/2;1/2], то вообще упадём под единицу…

2. Если я говорю, какие регионы не реконструируются и рядом даю таблицу регионов, проваливавших хи-квадрат, то всё что я могу сверх, - лишний раз обратить внимание на совпадение. График здесь будет ненагляден.

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-27 10:48 am (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-27 10:58 am (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-27 11:30 am (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-27 11:43 am (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-27 11:51 am (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-27 12:06 pm (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-27 12:17 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-27 12:20 pm (UTC) - Expand

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-27 12:30 pm (UTC) - Expand

Date: 2016-11-27 12:09 pm (UTC)
From: [identity profile] corbulon.livejournal.com
По п.2.
Мечтаю увидеть такой рисунок:
по оси Х номер региона (или хуже ОИК),
- по одной оси Y - процент фальшивой добавки к явке (по вашей методе, по Шпильскинской, или по НДБ - неважно; по России в целом это 12 млн к 52 млн),
- а по второй оси - lgW
Как-то так...

Date: 2016-11-27 12:19 pm (UTC)
From: [identity profile] tov-y.livejournal.com
Не для всех регионов возможно посчитать процент фальшка. Какие-то регионы просто выбрасываются как целое.
А зачем Вам именно lgW? Это же неудобная величина…

(no subject)

From: [identity profile] corbulon.livejournal.com - Date: 2016-11-27 12:27 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-27 12:31 pm (UTC) - Expand

Date: 2016-11-28 11:07 am (UTC)
From: [identity profile] termometr.livejournal.com
Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα
***
А можно еще позанудничать?
Вот вы поделили подмножества на 2 выборки "пошедших" и "не прошедших" критериальный тест. Однако, величине pα ничего не говорит о величине и статистической значимости отличий итогов голосования в выборках друг от друга и от подмножества в целом. Проводили такое сравнение?

Date: 2016-11-28 11:11 am (UTC)
From: [identity profile] tov-y.livejournal.com
Там, где тест провален, никаких "итогов голосования" попросту нет, а есть художественное творчество по рисованию красивых или одобренных цифр. Так что сравнивать не с чем.

Date: 2016-11-28 11:20 am (UTC)
From: [identity profile] termometr.livejournal.com
почему не с чем? Более того, таким образом, сравнением итогов по выборкам, можно убедиться в обоснованности самого критерия тестирования и вывода о том, что: "есть художественное творчество по рисованию красивых или одобренных цифр".

Date: 2016-11-28 11:38 am (UTC)
From: [identity profile] tov-y.livejournal.com
"Сам критерий" обоснован методами теории вероятности.

(no subject)

From: [identity profile] termometr.livejournal.com - Date: 2016-11-28 11:48 am (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-28 12:08 pm (UTC) - Expand

(no subject)

From: [identity profile] termometr.livejournal.com - Date: 2016-11-28 12:11 pm (UTC) - Expand

(no subject)

From: [identity profile] tov-y.livejournal.com - Date: 2016-11-28 12:12 pm (UTC) - Expand

September 2017

S M T W T F S
     12
345 6789
10111213141516
17181920212223
24252627282930

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 24th, 2017 07:10 pm
Powered by Dreamwidth Studios