Liczba zachorowań na COVID w Polsce nie jest zbieżna z Rozkładem Benforda!

Xawier
Xawier

W poniedziałek Mateusz Morawiecki z dumą ogłosił: "Dane nie kłamią. Proszę spojrzeć na wykres. Wygrywamy z epidemią! Liczba zakażeń spada!”


Ale czy aby na pewno? Czy dane podawane przez Ministerstwo Zdrowia są prawidłowe? ( ͡° ͜ʖ ͡°)


——


Słyszałeś kiedyś o prawie Benforda?


„Wyobraź sobie dane liczbowe. Spójrz na ich pierwsze liczby. Wydawałoby się, że każda cyfra – od jedynki do dziewiątki – będzie występowała mniej więcej tyle samo. Otóż nie! Okazuje się, że nieważne jakie dane z prawdziwego świata byśmy zebrali, okaże się, że liczb, które zaczynają się od cyfry jeden będzie najwięcej, a liczb, które zaczynają się od cyfry dziewięć będzie najmniej.


Ta dziwna cecha danych została odkryta przez inżyniera elektryka Franka Benforda w tysiąc dziewięćset trzydziestym ósmym roku. W ten sposób ponownie odkrył prawo sformułowane po raz pierwszy przez astronoma Simona Newcomba w 1881 roku.


Podsumowując: odkrył on, że częstotliwość z jaką występuje dana cyfra początkowa – czyli prawdopodobieństwo, że pierwsza cyfra przyjmie daną wartość – maleje wraz ze wzrostem tej wartości od 1 do 9.


Prawo Benforda mówi, że w pewnych zbiorach danych cyfra 1 pojawia się jako pierwsza w około 30% danych, cyfra 2 jest pierwsza w 17,6% danych i tak dalej:

1 - 30,1%

2 - 17,6%

3 - 12,5%

4 - 9,7%

5 - 7,9%

6 - 6,7%

7 - 5,8%

8 - 5,1%

9 - 4,6%”


1606926129esSsEzCLcuKni5lHJnnKOt11KKw1i.jpg


Okazuje się, że prawo ma zastosowanie dla dowolnych zbiorów liczb opisujących jakieś naturalne zjawisko (przy zachowaniu odpowiedniej wielkości próby oraz w przypadku gdy dane mogą przyjmować różne rzędy wielkości) jak np. długości rzek, powierzchnie jezior, powierzchnie państw, populacje miast, wyniki wyborów, średnie zarobki w podziale na branże czy dane księgowe.


Podobno prawo to jest wykorzystywane przez urzędy skarbowe na całym świecie w celu wykrywania oszustw podatkowych, ponieważ, oszuści często wpisują losowe liczby nie uwzględniając tego, że początkowe cyfry 1 czy 2 powinny szczególnie częściej występować… :o


——


Gdy pierwszy raz o tym usłyszałem po obejrzeniu serii dokumentalnej „W świecie danych” na Netflixie pomyślałem: WOW to niesamowite - żyjemy w matrixie! Postanowiłem sprawdzić pierwsze dane liczbowe, które mi przyszły na myśl. Dane o których ostatnimi czasy mówi cała Polska. A mianowicie dane na temat zachorowań na COVID w naszym kraju, udostępnione przez Michała Rogalskiego (https://docs.google.com/spread... o którym notabene też mówi cała Polska ;)].


Okazało się, że dane pokrywają się z Rozkładem Benforda jedynie w 65%…. Pomyślałem, ech, czyli ta zasada nie działa wszędzie… Może źle to policzyłem… A może to w ogóle jakaś ściema…


595831395977454242423878_1606927035viTZOojaHqdt3b7LmOBkiY.jpg



—-


Jednak nie dawało mi to spokoju, zacząłem szukać czy ktoś w Polsce przeprowadzał podobne analizy w kontekście COVID, okazało się, że nie bardzo*. Zacząłem szukać za granicą, okazało się, że w okresie przejściowym między pierwszą a drugą falą, czyli w Sierpniu, nie jaki Davida Head robił podobne testy dla wszystkich krajów w oparciu o dane WHO (co ciekawe również zainspirowany tym samym dokumentem na Netflixie):https://medium.com/@davidhead/... Jakie było moje zdziwienie, że wyniki zachorowań dla aż 148 krajów są zgodne z rozkładem Benforda w ponad 90%, podczas gdy wyniki zachorowań dla Polski były zgodne jedynie w 31,8%… i uplasowało ją to UWAGA na 4 miejscu od końca pod względem wszystkich krajów, których wyniki są notowane w WHO… Zaraz przed Rosją(-11.6%), Tadżykistanem (6.8%) czy Kuwejtem (21.6%)… :o


Jednak próbka danych dotyczyła okresu od pierwszego raportowania w danym kraju, do jedynie 18 Sierpnia 2020 roku. Postanowiłem zaktualizować dane w pliku stworzonym przez Davida i co się okazało, wykresy wiele się nie zmieniły (https://docs.google.com/spread...). Polska jak w moim pierwszym pomiarze, z pokryciem na poziomie 65,3% uplasowała się tym razem na 12 miejscu OD KOŃCA (na 216 krajów), natomiast nadal aż 158 krajów osiągnęło wynik powyżej 90%! Co ciekawe Rosji również udało się poprawić wynik z -11.6%, do aktualnego 49.4%.


595831395977454242423878_16069264907e31eSCOq5xaxWA5hLKDJq.jpg



—-


W anglojęzycznej Wikipedii możemy znaleźć wpis (https://en.wikipedia.org/wiki/...): "Naukowcy wykazali możliwość zastosowania prawa Benforda do oceny możliwych oszustw w ujawnianiu liczb COVID-19, takich jak całkowita i codzienna potwierdzona liczba przypadków i zgonów. Badanie zasugerowało możliwe zmiany w danych dla Rosji i Iranu, ale nie dla Stanów Zjednoczonych, Brazylii, Indii, Peru, RPA, Kolumbii, Meksyku, Hiszpanii, Argentyny, Chile, Wielkiej Brytanii, Francji, Arabii Saudyjskiej, Chin, Filipiny, Belgia, Pakistan i Włochy."


—-


Nie wiem na ile Prawo Benforda jest RZECZYWIŚCIE uznawane za wiarygodny element analizy poprawności zbieranych danych, ale dosyć zadziwiający jest fakt, że jako nieliczni (właściwie jako jedyni w Europie!) w tak znaczny sposób odstajemy od niego, bliżej nam w zestawieniu do Rosji niż do Niemiec czy Wielkiej Brytanii, natomiast nikt w Polskich mediach nie wspomniał o tym ani razu (przynajmniej w internecie)… więc ja to tylko tutaj zostawię…. pod Waszą ocenę… ¯\_(ツ)_/¯


——


*Jedyna sensowna polska wzmianka o „prawo benforda covid” dla polskiego Google to wpis na stronie ambasady chińskiej, który powołuje się na to, że dane na temat zachorowań w Chinach są ZGODNE z rozkładem Benforda więc nie są zakłamane ;-) Oraz wpis na Twitterze Krzysztofa Piecha z dnia 7 Kwietnia o tym, że polskie dane są zgodne z rozkładem: https://twitter.com/krzysztof_... - i rzeczywiście na tamtą chwile były, jednak Krzysztof nie powrócił do ponownej analizy anymore…


Źródło Cytatu:

https://wszstk.wordpress.com/2...


P.S. Dane o zgonach z powodu COVID w Polsce są zbierane zgodnie z rozkładem Benforda w 97,5%