Statistical learning and causal inference for energy production - Département de mathématiques appliquées Accéder directement au contenu
Thèse Année : 2022

Statistical learning and causal inference for energy production

Apprentissage statistique et inférence causale pour la production de l'énergie

Résumé

With the significant growth of the data generated by the sector, energy companies are relying more on Artificial Intelligence for their business and development. Indeed, applying Machine Learning algorithms to this data can help them to predict energy demand and consumption and anticipate its failures efficiently, with less time and at low cost. Machine Learning presents a powerful tool to search for new sustainable energy sources and optimize the use of current traditional sources.In recent years, Machine Learning has seen many successful applications and advances in the energy field. However, several difficulties arise despite its accuracy: Machine Learning models' predictions are sometimes unreliable and lack interpretability. Indeed, most Machine Learning models are black boxes. We have no idea of (i) the uncertainty of the prediction nor (ii) the real impact of changes in variables and interventions through these black boxes. This may produce an over/underestimation of the model uncertainty or misleading predictions that contradict engineers' and experts' knowledge. This problem is quite critical in energy systems where risk management and interpretability of predictions are vital for economic, environmental and operational reasons.In the first part of the thesis, we consider the problem of Uncertainty Quantification. The Gaussian Process model is known to be one of the most powerful Bayesian Machine Learning methods for quantifying the uncertainty of predictions. Maximum Likelihood estimation or Cross-Validation methods are widely used to fit parameters. Nevertheless, they may fail to fit the optimal model that estimates Prediction Intervals correctly if some assumptions do not hold, typically the well-specification of the Gaussian Process model.Concerning the problem of Gaussian process misspecified models, a robust two-step approach is developed to adjust and calibrate Prediction Intervals for Gaussian Processes Regression. The method gives prediction Intervals with appropriate coverage probabilities and small widths. It uses the Cross-Validation and the Leave-One-Out Coverage Probability as a metric to fit covariance hyperparameters and assess the Coverage Probability to a nominal level.In the second part, we consider the problem of Causal Inference of interventions. The Neyman-Rubin Causal model is widely used by statisticians to make Causal Inference and estimate the effects of a treatment on the outcome. Unfortunately, most considerations of this model are limited to the setting of a binary treatment. In many real-world applications, the variable of interest can be multi-valued or even continuous. Furthermore, treatment effects vary across units with different characteristics. The heterogeneity should be explored to personalize the intervention policy and optimize the outcome.A well-known framework of statistical estimators, called meta-learners, is extended to multiple and continuous treatments to solve the problem of heterogeneous treatment effects. The discussion about the consistency of meta-learners and the analysis of their bias and variance gives an overview of the advantages and disadvantages of each meta-learner. Finally, some recommendations and limits are highlighted about the use of meta-learners for continuous treatments.The proposed methods and contributions of the thesis are generic and can be applied to any industrial problem. The actual applications include, but are not limited to, unconventional gas wells, batteries and enhanced geothermal systems.
Grace à la croissance importante des données générées par le secteur, les entreprises s’appuient davantage sur l'intelligence artificielle pour développer leur activité. En effet, l'application des modèles d'apprentissage automatique à ces données leur permet de gérer la demande d'énergie, la consommation et anticiper les défaillances de manière efficace en termes de temps et du coût. L’apprentissage automatique présente un outil puissant pour découvrir de nouvelles sources d’énergies durables et optimiser l'utilisation des énergies traditionnelles.Ces dernières années, l'apprentissage automatique a conduit à de nombreuses applications et avancées réussies dans le domaine de l'énergie. Cependant, et malgré leur précision, plusieurs difficultés apparaissent avec les modèles utilisés: leur prédictions sont parfois insatisfaisantes et manquent d'interprétabilité. En effet, la plupart des modèles d’apprentissage automatiques sont considérés comme des boîtes noires. Nous n’avons pas d’idée de (i) l'incertitude de la prédiction ni (ii) de l'impact réel des changements de variables et d'interventions à travers ces boîtes noires. Il en résulte la sur/sous-estimation de l'incertitude du modèle, ou des prédictions trompeuses qui contredisent les connaissances des ingénieurs et des experts. Ce problème est assez critique dans les systèmes énergétiques où la gestion des risques et l'interprétabilité des prédictions sont primordiales pour des raisons économiques, environnementales et opérationnelles.Dans la première partie de cette thèse, nous considérons le problème de la quantification des incertitudes. Le modèle de processus gaussiens est connu comme l'une des méthodes d'apprentissage automatique bayésien les plus performantes pour quantifier les incertitude. Les méthodes d'estimation par maximum de vraisemblance ou de validation croisée sont fréquemment utilisées pour identifier ses paramètres. Néanmoins, elles peuvent échouer et ne pas estimer correctement les intervalles de prédiction si certaines hypothèses sur le modèle ne sont pas vérifiées, typiquement la bonne spécification du modèle.Concernant le problème des modèles de processus gaussiens mal-spécifiés, une approche robuste en deux étapes est développée pour ajuster et calibrer les intervalles de prédiction du modèle. La méthode permet d’obtenir des intervalles de prédiction de petites largeurs avec des probabilités de couverture appropriées. Elle se base sur la validation croisée comme métrique pour ajuster les hyperparamètres de la covariance et assurer que la probabilité de couverture du modèle final atteigne le niveau nominal.Dans la deuxième partie, nous considérons le problème de l'inférence causale et l’estimation des effets d’interventions. Le modèle causal de Neyman-Rubin est largement utilisé par les statisticiens pour faire estimer les effets d’un traitement. Cependant, la plupart des considérations de ce modèle se limitent à un traitement binaire. Or, dans de nombreuses applications, la variable d'intérêt peut être discrète ou même continue. En outre, les effets du traitement varient selon les caractéristiques des unités. L'hétérogénéité du traitement doit être explorée pour personnaliser mieux la politique d'intervention et optimiser les résultats.Pour résoudre le problème de l’estimation des effets hétérogènes du traitement, un cadre bien connu d'estimateurs statistiques, appelé méta-apprenants, est étendu aux traitements multiples et continus. La discussion sur la consistance des méta-apprenants et l’analyse de leur biais et variance donne un aperçu des avantages et des inconvénients de chaque méta-apprenant. Enfin, quelques recommandations et limites ont été mises en évidence quant à l'utilisation des méta-apprenants pour les traitements continus.Le travail effectué dans cette thèse est générique. Les applications réelles comprennent, sans s'y limiter, les puits de gaz conventionnels, les batteries et les systèmes géothermiques améliorés.
Fichier principal
Vignette du fichier
119036_ACHARKI_2022_archivage.pdf (4.33 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04106368 , version 1 (25-05-2023)

Identifiants

  • HAL Id : tel-04106368 , version 1

Citer

Naoufal Acharki. Statistical learning and causal inference for energy production. Methodology [stat.ME]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAX101⟩. ⟨tel-04106368⟩
129 Consultations
81 Téléchargements

Partager

Gmail Facebook X LinkedIn More