Estimation des Intervalles de Confiance
Accueil  Précédent  Suivant



Généralités  
 
Neuro One possède une fonctionnalité pour évaluer les intervalles de confiance.  
Le mode de calcul de cette évaluation, ainsi que les conditions de validités sont données ci dessous.  
 
Ce calcul est légitime sous deux hypothèses :  
· le bruit est additif et de moyenne nulle,  
· la surface d'erreur est assimilée localement à sa tangente dans l'espace des poids. Autrement dit, on suppose que la surface d'erreur n'a pas une courbure trop grande, notamment au voisinage d'un minimum de la fonction de coût.  
 
Mode de calcul de l'estimation des intervalles de confiance.  
 
L'indice 'T'' est la notation de la transposée d'un vecteur ou d'une matrice.  
 
On note  
· N    le nombre d'exemples de l'ensemble d'apprentissage,  
· q    le nombre de paramètres du modèle ou nombre de poids modifiables du réseau,  
· p   le nombre de degrés de liberté du modèle donc  
 
· q    le vecteur des poids du réseau,  
· x    le vecteur des entrées,  
· F    la fonction renvoyée par le réseau, c'est à dire  
 
· Z    le vecteur de dimension q, dont chaque composante est la dérivée de la sortie par rapport à un poids du réseau (gradient de la sortie par rapport aux poids):  
        
 
On note aussi, pour un apprentissage donné :  
· R    le vecteur des résidus, c'est à dire le vecteur (de dimension N) dont chaque composante est l'erreur quadratique commise sur un des exemples de l'ensemble d'apprentissage,  
· S    la racine de l'erreur quadratique totale sur l'ensemble d'apprentissage donc  
 
· Zi    le vecteur gradient de la sortie par rapport aux poids pour l'exemple i de l'ensemble d'apprentissage :  
·         
· D    la matrice de dimension (N, q) dont les lignes sont les vecteurs Zi,  
· M la matrice carrée symétrique de dimension (q, q) définie par  
.  
 
Soit la valeur de la variable de Student à p degrés de liberté pour laquelle la fonction de répartition vaut u. L'intervalle de confiance avec un degré de signification a, c'est à dire l'intervalle dans lequel se trouve l'espérance mathématique de la grandeur modélisée avec une probabilité a, vaut :  
 
        
 
 
Validité de l'estimation des intervalles de confiance.  
 
Ce résultat est valable s'il n'y a pas de surapprentissage, c'est à dire si le modèle est suffisamment parcimonieux.  
En effet, si les neurones cachés sont trop nombreux, certains d'entre eux peuvent être saturés quelque soit l'exemple. La matrice D contient des colonnes de +1 ou -1 pour les dérivées de la sortie par rapport aux poids entre les neurones cachés saturés et la sortie, et des colonnes de 0 pour les dérivées de la sortie par rapport aux poids entre les entrées et les neurones cachés saturés.  
La matrice D n'est pas bien conditionnée et donc la matrice DTD n'est pas de dimension q ; elle est difficile à inverser avec une précision correcte.  
 
Pour s'assurer que l'on ne se trouve pas dans cette situation, Neuro One propose deux approches :  
·   surveiller les valeurs absolues des poids entre les entrées et les neurones cachés, et s'assurer qu'elles restent suffisamment faibles;  
·   vérifier que l'erreur quadratique obtenue sur un ensemble de test et sur l'ensemble d'apprentissage sont du même ordre de grandeur.  
 


NETRAL