Comparaison des lois conjointes et marginales par permutation des labels pour la régression et l’estimation de densité conditionnelle

Benjamin Riu

Résumé

This thesis introduces novel techniques which leverage label permutations to improve generalization performances in the regression task and estimate the conditional density function through binary classification. Theoretical justifications and empirical benchmarks on tabular datasets are provided to demonstrate their effectiveness, especially when combined with deep neural networks. Generalization is a central problem in Machine Learning. Most prediction methods require careful calibration of hyperparameters usually carried out on a hold-out validation dataset to achieve generalization. We introduce a novel approach to achieve generalization without any data splitting, which is based on a new risk measure which directly quantifies a model’s tendency to overfit. The associated criterion, called MLR (Muddling Labels Regularization) is an in-sample metric for out-of-sample performance which leverages randomly generated labels to quantify the propensity of a model to memorize. To transform the MLR criterion into a training loss for deep neural networks, we introduce the Tikhonov operator training scheme, which modulates the memorization capacity of a FFNN in an adaptive, differentiable and data-dependent manner. By combining the MLR loss and the Tikhonov operator we obtain the AdaCap training scheme (ADAptative CAPacity control) which optimizes the capacity of FFNN so it can capture the high-level abstract representations underlying the problem at hand without memorizing the training dataset. Besides generalization, we also consider the problem of conditional density estimation.This task is at the root of the majority of machine learning tasks, including supervised and unsupervised learning or generative modeling. We introduce a new method, MCD (Marginal Contrastive Discrimination) inspired by contrastive learning. MCD reformulates the initial task into a problem of supervised learningwhich can be solved with any binary classifier. We present construction techniques based on label permutations to produce a contrast dataset with far more observations than in the original dataset and take advantage of unlabeled observations and more than one target value per observation.

Cette thèse introduit de nouvelles techniques qui exploitent des permutations du vecteur des observations de la variable à expliquer pour améliorer les performances de généralisation dans la tâche de régression et transformer l’estimation de la fonction de densité conditionnelle en un problème de classification binaire. Des justifications théoriques et des benchmarks empiriques sur des jeux de données tabulaires sont proposés pour démontrer l’intérêt de ces techniques, en particulier lorsqu'elles sont combinées avec des réseaux de neurones profonds. La généralisation est un problème central en l'apprentissage machine. La plupart des modèles prédictifs nécessitent une calibration minutieuse des hyper-paramètres sur un échantillon de validation pour obtenir de bonnes performances de généralisation. Une nouvelle approche qui contourne cette difficulté est présentée. Elle est basée sur une nouvelle mesure du risque de généralisation qui quantifie directement la propension d'un modèle à sur-ajuster les données d’entraînement. Le critère associé, appelé MLR (Muddling Labels Regularization) est évalué sur le jeu de données d’entraînement et permet d’estimer la performance sur le jeu de données test. Pour cela, il utilise des permutations du vecteur des observations de la variable à expliquer pour quantifier la propension d'un modèle à mémoriser la part de bruit contenu dans les données. Pour transformer le critère MLR en une fonction de perte pour les réseaux de neurones profonds, l'opérateur Tikhonov est introduit. Il module la capacité de mémorisation d'un réseau de manière adaptative, différentiable et dépendante des données. En combinant la perte MLR et l'opérateur Tikhonov, on obtient la technique d’apprentissage AdaCap (ADAptative CAPacity control) qui optimise la capacité du réseau afin qu'il puisse apprendre les représentation abstraite de haut niveau correspondant au problème posé plutôt que de mémoriser le jeu de données d’entraînement. Le problème d’estimation de densité conditionnelle est également traité. Il est à la base de la majorité des tâches d'apprentissage machine, y compris l'apprentissage supervisé et non supervisé ainsi que les modèles génératifs. Une nouvelle méthode, MCD (Marginal Contrastive Discrimination) inspirée du noise contrastive learning est introduite. MCD reformule la tâche initiale en un problème d'apprentissage supervisé qui peut être résolu à l’aide d’un classifieur binaire. Des techniques de construction de jeux de données de contraste basées là encore sur des permutations du vecteur de la variable à expliquer sont également proposées. Elles permettent d’obtenir des jeux de données d’entraînement beaucoup plus grands que le jeu de données initial, et de tirer parti d'observations non-étiquetées et d’observations pour lesquelles on dispose de plusieurs réalisations.

Comparing joints and marginals laws through label permutations in regression and conditional density estimation

Comparaison des lois conjointes et marginales par permutation des labels pour la régression et l’estimation de densité conditionnelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager