vendredi 21 novembre 2008

Surprise

L'article d'hier a été inspiré (par ricochet... il ne faut pas me demander comment) par la notion de "surprise" dans la théorie de l'information (et d'entropie, par extension).

Mise en contexte: on cherche à se définir une fonction "surprise", notée S(p) (où p est la probabilité qu'un certain évènement E se produise), telle qu'elle "exprime" la surprise que nous avons suite à la réalisation dudit évènement. Par exemple, si on lance deux dés, on est moins surpris de tomber sur une somme paire (probabilité de 1/2) que de tomber sur une somme valant 12 (probabilité de 1/32).

Afin de définir la fonction S, on se dote d'axiomes qui devront être respectés par (et qui seront les uniques axiomes de) la fonction de surprise.

Axiome 1 S(1) = 0 (Il n'y a aucune surprise lorsqu'on apprend qu'un évènement certain se réalise).

Axiome 2 S(p) est une fonction strictement décroissante de p, c'est-à-dire que pour p strictement inférieur à q, S(p) est strictement supérieure à S(q) (Plus un évènement se produisant est improbable, plus grande est notre surprise).

Axiome 3 S(p) est continue.

Finalement, on considère deux évènements E et F indépendants tels que P(E) = p et P(F) = q. Par indépendance, on a que P(EF) = pq. La surprise correspondant à cet évènement ("E et F se produisent les deux") est S(pq). Supposons que l'on apprenne que E s'est produit à un certain moment donné, et qu'on apprenne plus tard que F s'est également produit. La surprise créée par le fait que F se soit réalisé doit être S(pq) - S(p) (car la surprise créée par E était S(p)). Par contre, comme E et F sont indépendants, le fait que E se soit produit ne change rien à la probabilité que F se produise ou non, et donc la surprise devrait être la même (S(q)). Cela dit, nous obtenons notre quatrième (et dernier) axiome:

Axiome 4 S(pq) = S(p) + S(q).

De ces axiomes, on arrive à définir S comme:

S(p) = - C log_2 p,

avec C un entier positif quelconque (d'emblée, je vous le dis, on prend toujours C = 1).

Je ne posterai pas la preuve, parce que ça n'intéressera personne (l'idée générale est qu'on montre que S(p^{m/n}) = m/n S(p) (pour m/n entier), et en posant x = m/n, et en supposant que p = (1/2)^x, on trouve le résultat final).

On pose p = (1/2)^x, j'ai l'impression, pour pouvoir exprimer la surprise en bits (en informatique). Le fait que ce soit en base 2 devient très utile dans l'encodage de messages, par exemple.


Avec ceci, on se définit une fonction H(X) (où X est la v.a. qui dit que l'évènement x_i de probabilité p_i est survenu), que l'on appelle entropie, qui se trouve à être l'espérance de la surprise:

H(X) = - somme(p_i log_2 p_i).

On peut également montrer qu'une équiprobabilité entre tous les évènements de l'univers maximise l'entropie (ce qui n'est pas contre-intuitif, compte tenu du fait que dans un tel cas, on n'a aucune idée à quoi s'attendre... contrairement au cas dégénéré où un seul évènement est certain, ce qui minimiserait la surprise, et ainsi l'entropie).

La théorie de l'information considère H(X) comme l'information liée à l'observation de X.

L'entropie nous donne donc une certaine idée de "dispersion" entre les probabilités des évènements possibles dans l'univers étudié.

2 commentaires:

Anonyme a dit...

L'entropie ("S") est aussi une mesure du désordre des particules composant un système donné (en science des matériaux par exemple) et se trouve derrière énormément de calculs de procédés comme par exemple le procédé de fonderie ...

Patrick a dit...

jai pas fini de lire.. trop mathématique pour etre intéressant (pour moi)