Blog de Seigneur!: Kernel smoothed distribution

samedi 13 octobre 2007

Kernel smoothed distribution

Okay... je vais parler de quelque chose de fucké, que je ne comprends pas, et qu'on ne m'a jamais enseigné, et qui n'est pas tellement bien documenté nulle part d'une manière qui puisse me permettre de comprendre.

Par contre, je lisais ça tantôt... quand on a un échantillon de données obtenues à partir d'une certaine population, on peut être intéressé à essayer de trouver la distribution des données, ainsi que les paramètres sous-jacents à cette distribution (si on croit que les données suivent une loi normale, on sera intéressé d'abord et avant tout par sa moyenne et sa variance, parce que toute la distribution est connue quand on a ces deux données).

Ça s'appelle "faire de l'inférence (statistique)".

Une certaine distribution basée exclusivement sur un échantillon (assez intuitive) s'appelle "la distribution empirique". En gros, on suppose que dans un échantillon de n données, chacune des données obtenues avait pour probabilité d'apparaître 1/n. Le problème avec ça, c'est que c'est discret, et que beaucoup de phénomènes requièrent une modélisation continue.

C'est là que vient la "Kernel smoothed distribution". Cette distribution est très semblable à la distribution empirique, sauf que:

on considère chaque donnée de notre échantillon comme étant la réalisation d'une autre variable aléatoire, et on lui affecte une certaine probabilité (arbitraire, a priori), et on suppose donc que la population totale est un mélange de "n" telles distributions, à poids égaux.

Ce que ça fait, c'est que ça lisse la courbe de distribution de la distribution empirique.

Vous pouvez aller voir ici pour une sorte de... résumé, si on veut... incompréhensible, d'ailleurs. Vous verrez pourquoi je ne peux pas vraiment vous en dire plus que de ce que j'ai dit.

Tout ce que je sais, c'est que je trouve ça intéressant, mais que ça doit vraiiiiiment compliquer les affaires. Par contre, ça doit être vraiment meilleur pour modéliser les choses, surtout parce que ça devient une distribution continue, et que ça laisse le choix de donner des probabilités arbitraires aux données.

En tout cas...