Monthly Archives: December 2011

Пожизненный ЦИК с гвоздями, версия 0.2

В процессе тестирования скриптов обнаружилось две вещи: во-первых, максимальное количество УИКов, указанное в шаблоне – 65535. Для всей страны этого оказалось мало, пришлось расширить до 100000. Во-вторых, при построении по нескольким регионам номера УИКов ни о чём не говорят. Пришлось добавить номер региона в столбец с номером УИК. Всё это в новой версии.

До кучи вот картина по всей стране:
Image and video hosting by TinyPic
Немного отличается от того, что я видел ранее, но это потому что там вроде брались интервалы по 0,5%, а я взял 1%. Но всплески на 51/65/70/80% всё равно очень хорошо видны. Тут же видно, что у КПРФ распределение совпадает с нормальным почти идеально, не считая кавказского “хвоста” в районе 0. У других партий тоже довольно близко.

Данные по всей стране – это 5667 файлов общим весом под 500 метров. Качаются долго, зараза, даже при быстром интернете, так что вот полный архив с ними. TGZ – потому что он непрерывный, и, следовательно, просто офигенно сжимает такую кучу файлов. Попутно я ещё обнаружил, что у ЦИК “версия для печати” – это вовсе не специальная версия веб-страницы, а вовсе экселевский файл. Но для массового анализа это малополезно, так как всё равно они разрознены.

Пожизненный ЦИК с гвоздями, версия 0.1

Прошедшие выборы имели одну интересную особенность: кроме слов “жулики”, “надули”, “козлы” и “доколе” звучали также слова “распределение Гаусса” и прочий матан. Поглядев на пару таких графиков, я начал проявлять подозрительность и решил всё перепроверить. А то мало ли кто там чего насчитал. Откуда данные? Как они обрабатывались? Хрен его знает. Не исключена вероятность как ошибок, так и откровенной подтасовки уже со стороны “оппозиционеров”. Тем более, что данные вытащить с сайта ЦИК оказалось не так уж просто – они там довольно разрозненны, и просто “wget -r” эту проблему не решит.

В результате родился пакет скриптов под кодовым названием “Пожизненный ЦИК с гвоздями”. Скрипт таскает данные прямо с сайта ЦИК, коды открыты и прозрачны, хотя наличие багов не исключено. Но тем не менее результаты совпали с уже виденными картинками. Вот, например, по Москве:

Image and video hosting by TinyPic

По горизонтальной оси – процент голосов. По вертикальной оси – количество участков, набравших данный процент, плюс-минус 0,5%. Пик у 51% процентов, конечно, удручает. Приводимые много где графики по стране, конечно, подвержены разнородности – нормальное распределение там получаться не обязано, это всё-таки средняя температура по больнице. Хотя пики через каждые 5% выглядят довольно забавно, уж это-то никакой разнородностью не объяснишь – как так может быть, что 48-49% получилось на существенно меньшем числе участков, чем 50-51%, хотя вокруг кривая ровная? Но данные по стране я не перепроверял.

По Москве же эта двуглавая гидра ни на что вообще не похожа. Картина такова, как будто бы есть участки, где ЕР очень популярна, и наоборот – где она совсем не популярна. Это ещё можно себе представить. Но даже если бы это было так, это никак не объясняет дырки между 25% и 51%. Наоборот, она должна была сгладиться за счёт сложения угасающей половины “непопулярной” части и возрастающей половины “популярной” части. Вместо этого стремительный взлёт к 51%. К тому же, если посмотреть данные по отдельным районам, наблюдается явная чехарда. К примеру для Серверного Медведово: 27.84% 39.52% 25.95% 25.42% 48.62% 34.07% 26.21% 25.99% 28.50% 30.09% 52.77% 27.29% 28.88% 25.94% 26.38% 38.41% 29.80% 26.23% 49.34% 52.96% 20.95%… Конечно, можно сказать, что есть всякие там военные части, КПЗ, СИЗО и прочие психушки, но их просто не наберётся в Москве столько, чтобы создать такой огромный пик на 51%. Скорее они создают небольшие всплески в районе 90%, которые тоже заметны на графике, но вряд ли сильно влияют на результат. В таком хаотическом муравейнике как Москва довольно-таки естественным представляется именно нормальное распределение, а не эта хрень.

По Московской области картина не такая ужасная.
Пеши исчо