jeudi 14 mai 2009

Benford's law

Dans un Case study de mon livre que j'avais en Statistique I, ça parlait de Benford's law, mais très brièvement (assez pour que j'en comprenne l'essentiel par contre).

Selon Wikipédia:

Benford's law [...] states that in lists of numbers from many (but not all) real-life sources of data, the leading digit is distributed in a specific, non-uniform way.


En gros, si je vous demandais d'émettre des hypothèses quant à la distribution du premier chiffre de nombres provenant de données quelconques, il me semble qu'on serait tous portés à parler d'uniformité, c'est-à-dire que tous les chiffres se retrouvent en première position une fois de temps en temps, plus ou moins dans les mêmes proportions (différences que l'on imputerait par la suite aux erreurs d'échantillonnage). Notez que je n'ai pas contraint à grand-chose la nature des données.

En fait, tout ceci s'applique à des choses très banales et très communes. Encore pour citer Wikipédia:

This counter-intuitive result has been found to apply to a wide variety of data sets, including electricity bills, street addresses, stock prices, population numbers, death rates, lengths of rivers, physical and mathematical constants, and processes described by power laws (which are very common in nature). The result holds regardless of the base in which the numbers are expressed, although the exact proportions change.


Donc, pour en revenir à la théorie: non seulement la théorie émet une conclusion faible sur la nature de la distribution des premiers chiffres de nombres ("ils ne sont pas uniformément distribués"), mais elle va jusqu'à émettre une condition très forte sur la distribution (elle est complètement déterminée). De plus, quoique ce soit sans intérêt pour la grande majorité des gens, la théorie s'applique dans n'importe quelle base (pas seulement en base dix). Les probabilités changent, mais la fonction de masse reste la même.


En pratique, on détermine la probabilité d'observer un certain chiffre d (d=1..10 pour nous) au début d'un nombre par log( (d+1)/d ), où le log est en base 10 (pour nous). Par calcul direct, on trouve qu'on a 30.1% des chances que le premier chiffre soit 1, 30.1% que ce soit un 2 ou un 3, 24.3% que ce soit un 4, 5 ou 6, et finalement la balance (15.5%) que ce soit un 7, 8 ou 9. Remarquez que la fonction de masse est strictement décroissante en fonction de d (donc P(1) > P(2) > P(3) > ... > P(9)).


L'article explique ensuite que la loi s'applique si bien parce que beaucoup de choses dans la nature sont exponentielles (concept de demi-vies, par exemple).

Pour résumer: dans un jeu de données, la plupart du temps, le premier chiffre des nombres a plus de chances d'être un 1 que d'être un 9. Apparemment, ça peut être utilisé pour "vérifier" si, par exemple, des états financiers auraient été inventés (étant donné que la plupart des gens pourrait essayer d'uniformiser l'occurrence des chiffres et l'allure des nombres, alors qu'il n'en est rien en réalité).



Pour les intéressés, le lien est ici.

1 commentaire:

Simon a dit...

très intéressant