Décorrélation de variables en régression linéaire
par modèles de sous-régressions
Collaboration avec
ArcelorMittal (Pôle Simulations & Modèles), Dunkerque
Auchan (Pôle Etudes, Recherche & Développement), Villeneuve d’Ascq
Le projet
Les bases de données issues de la sidérurgie comportent généralement de nombreux paramètres (ou variables) mesurés tout au long du process métallurgique qui conduit au produit fini souhaité. Ces variables sont cependant pour beaucoup d’entre elles en fortes corrélations, soit parce qu’elles s’écrivent les unes en fonction des autres via des modèles physiques, soit que les capteurs dont elles sont issues sont en quasi-redondance. Les méthodes statistiques de prévision de qualité du produit fini s’appuyant sur des régressions linéaires sont alors très négativement impactés par de telles corrélations. L’idée maîtresse du travail de thèse CIFRE (thèse soutenue en 2015) réalisé entre le Laboratoire Paul Painlevé et ArcelorMittal est de considérer que les variables corrélées peuvent s’exprimer les unes en fonction des autres par des régressions linéaires spécifiques (“sous-régressions”). On peut alors supprimer une partie des variables pour s’affranchir des problèmes de conditionnement inhérents à la régression linéaire. L’estimation des strutures de sous-régressions repose sur des modélisations génératives avec choix de modèles pour assurer la cohérence d’estimation mathématique. Cette recherche a conduit à l’élaboration du package R CorReg, disponible sur le site du CRAN. Son utilisation dans le contexte sidérurgique d’ArcelorMittal a permis simultanément d’identifier les structures de corrélations du process industriel et d’améliorer sensiblement les qualités prédictives de ce process.
La problématique de corrélation entre variables en régression linéaire étant générique, elle a aussi été utilisée en 2015 au travers d’un contrat de recherche avec le groupe Auchan dans le contexte de l’amélioration de performance des hypermarchés français.
Quelques publications
[1] C. Théry. Model-based covariable decorrelation in linear regression (CorReg). Application to missing data and to steel industry. PhD Thesis, Université Lille 1, July 2015,.
[2] C. Théry, C. Biernacki, G. Loridant. CorReg : Préselection de variables en régression linéaire avec fortes corrélations . 46° journées de statistiques, Rennes, France, SFDS, June 2014.
[3] C. Théry, C. Biernacki, G. Loridant. Model-Based Variable Decorrelation in Linear Regression. En préparation, 2015.
Package/logiciel
Le package CorReg peut être téléchargé ici sur le site du CRAN.
Contact
Christophe BIERNACKI : christophe.biernacki[AT]math.univ-lille1.fr