|
Estimation des Intervalles de Confiance
|
Accueil Précédent Suivant |
| Généralités
|
|
|
| Neuro One possède une fonctionnalité pour évaluer les intervalles de confiance.
|
| Le mode de calcul de cette évaluation, ainsi que les conditions de validités sont données ci dessous.
|
|
|
| Ce calcul est légitime sous deux hypothèses :
|
| · | le bruit est additif et de moyenne nulle,
|
| · | la surface d'erreur est assimilée localement à sa tangente dans l'espace des poids. Autrement dit, on suppose que la surface d'erreur n'a pas une courbure trop grande, notamment au voisinage d'un minimum de la fonction de coût.
|
|
|
| Mode de calcul de l'estimation des intervalles de confiance.
|
|
|
| L'indice 'T'' est la notation de la transposée d'un vecteur ou d'une matrice.
|
|
|
| On note
|
| · | N le nombre d'exemples de l'ensemble d'apprentissage,
|
| · | q le nombre de paramètres du modèle ou nombre de poids modifiables du réseau,
|
| · | p le nombre de degrés de liberté du modèle donc
|
| · | q le vecteur des poids du réseau,
|
| · | x le vecteur des entrées,
|
| · | F la fonction renvoyée par le réseau, c'est à dire
|
| · | Z le vecteur de dimension q, dont chaque composante est la dérivée de la sortie par rapport à un poids du réseau (gradient de la sortie par rapport aux poids):
|
| |
|
|
| On note aussi, pour un apprentissage donné :
|
| · | R le vecteur des résidus, c'est à dire le vecteur (de dimension N) dont chaque composante est l'erreur quadratique commise sur un des exemples de l'ensemble d'apprentissage,
|
| · | S la racine de l'erreur quadratique totale sur l'ensemble d'apprentissage donc
|
| · | Zi le vecteur gradient de la sortie par rapport aux poids pour l'exemple i de l'ensemble d'apprentissage :
|
| · | |
| · | D la matrice de dimension (N, q) dont les lignes sont les vecteurs Zi,
|
| · | M la matrice carrée symétrique de dimension (q, q) définie par
|
| |
|
|
| Soit |
|
|
| |
|
|
|
|
| Validité de l'estimation des intervalles de confiance.
|
|
|
| Ce résultat est valable s'il n'y a pas de surapprentissage, c'est à dire si le modèle est suffisamment parcimonieux.
|
| En effet, si les neurones cachés sont trop nombreux, certains d'entre eux peuvent être saturés quelque soit l'exemple. La matrice D contient des colonnes de +1 ou -1 pour les dérivées de la sortie par rapport aux poids entre les neurones cachés saturés et la sortie, et des colonnes de 0 pour les dérivées de la sortie par rapport aux poids entre les entrées et les neurones cachés saturés.
|
| La matrice D n'est pas bien conditionnée et donc la matrice DTD n'est pas de dimension q ; elle est difficile à inverser avec une précision correcte.
|
|
|
| Pour s'assurer que l'on ne se trouve pas dans cette situation, Neuro One propose deux approches :
|
| · surveiller les valeurs absolues des poids entre les entrées et les neurones cachés, et s'assurer qu'elles restent suffisamment faibles;
|
| · vérifier que l'erreur quadratique obtenue sur un ensemble de test et sur l'ensemble d'apprentissage sont du même ordre de grandeur.
|
|
|