Relating Hopfield Networks to Episodic Control
Mise en Relation des Réseaux de Hopfield et du Contrôle Episodique
Résumé
Neural Episodic Control is a powerful reinforcement learning framework that employs a differentiable dictionary to store non-parametric memories. It was inspired by episodic memory on the functional level, but lacks a direct theoretical connection to the associative memory models generally used to implement such a memory. We first show that the dictionary is an instance of the recently proposed Universal Hopfield Network framework. We then introduce a continuous approximation of the dictionary readout operation in order to derive two energy functions that are Lyapunov functions of the dynamics. Finally, we empirically show that the dictionary outperforms the Max separation function, which had previously been argued to be optimal, and that performance can further be improved by replacing the Euclidean distance kernel by a Manhattan distance kernel. These results are enabled by the generalization capabilities of the dictionary, so a novel criterion is introduced to disentangle memorization from generalization when evaluating associative memory models.
Le Contrôle Épisodique Neuronal est un cadre puissant d'apprentissage par renforcement qui utilise un dictionnaire différentiable pour stocker des souvenirs non paramétriques. Ce cadre s'inspire de la mémoire épisodique au niveau fonctionnel, mais ne présente pas de lien théorique direct avec les modèles de mémoire associative généralement utilisés pour implémenter ce type de mémoire. Nous montrons tout d'abord que le dictionnaire est un cas particulier du cadre récemment proposé des Réseaux de Hopfield Universels. Ensuite, nous introduisons une approximation continue de l'opération de lecture du dictionnaire afin de dériver deux fonctions d'énergie qui servent de fonctions de Lyapunov pour la dynamique. Enfin, nous montrons empiriquement que le dictionnaire surpasse la fonction de séparation Max, qui avait été précédemment conjecturée comme optimale, et que les performances peuvent être encore améliorées en remplaçant le calcul de similarité basé sur la distance euclidienne par un noyau basé sur la distance Manhattan. Ces résultats sont en partie rendus possibles grâce aux capacités de généralisation du dictionnaire, et un nouveau critère est introduit pour différencier la mémorisation de la généralisation lors de l'évaluation des modèles de mémoire associative.
Origine | Fichiers produits par l'(les) auteur(s) |
---|