L’ingénierie en Machine Learning est l’un des volets de spécialisation possible dans le vaste monde de la Data Science. Métier clé de l’intelligence artificielle, l’ingénieur en Machine Learning développe des méthodes qui trouvent des applications dans de nombreux domaines, dont l’anticipation du climat futur à l’IPSL.
Sébastien Gardoll est l’un des développeurs informatiques qui aide à rendre les machines intelligentes pour en faire les alliés principaux de la recherche sur le climat. Depuis 2020, il participe à l’animation d’une communauté de chercheurs, ingénieurs et étudiants au sein de l’IPSL, appelée ESPRI-IA, pour favoriser les échanges et la diffusion de bonnes pratiques autour du Machine Learning.
Qu’est-ce que le Machine Learning ?
Sébastien Gardoll. Mon métier est centré sur l’ingénierie logicielle, à laquelle fait appel l’apprentissage automatique, en anglais Machine Learning. Le Machine Learning est un champ d’études de l’intelligence artificielle, basé sur un ensemble de méthodes statistiques et des mathématiques. L’objectif est de donner aux ordinateurs la capacité d’apprendre à partir de données plutôt que de les programmer de façon explicite pour une tâche. Il s’agit en fait de les rendre « intelligents » en s’appuyant sur leur puissance de calcul et leur capacité de mémorisation. Il existe différents types d’apprentissages suivant les informations disponibles (supervisé, non-supervisé, etc.), pour construire des modèles de ces informations et différents types d’algorithmes pour y parvenir (K moyennes, K plus proches voisins, arbres de décisions, etc.).
Les réseaux de neurones désignent une famille d’algorithmes particulière, capable de réaliser de multiples tâches (classification, régression, détection d’anomalie, débruitage, estimation de fonction de densité de probabilité, etc.) indispensables pour l’étude du climat. Leur évolution, résumée ci-dessous en trois étapes, permet de résoudre des problèmes de plus en plus complexes avec une précision croissante. Cette évolution s’accompagne d’une technicité grandissante et le rôle du data-scientist dans la conception des modèles en est accru.
L’algorithme de rétropropagation du gradient de l’erreur, inventé dans les années 1980 par David Rumelhart, associé à la théorie de la régularisation statistique, introduite par Vladimir Vapnik à la même époque, permet l’apprentissage de modèles non-linéaires et multivariées dont la complexité peut être régulée afin d’améliorer les performances du modèle. Les réseaux de neurones constitués de plusieurs séries de neurones, appelés Perceptron Multicouches, commencent alors à être utilisés par les chercheurs de l’IPSL principalement pour l’inversion des observations spatiales.
Issus des travaux de la communauté computer vision, depuis quelques années les réseaux de neurones convolutifs profonds, qui font partie du Deep Learning, rencontrent des succès spectaculaires dans des domaines d’applications de plus en plus vastes. Ils permettent notamment d’extraire les informations directement à partir d’images de façon plus automatisée et plus efficace. Les perspectives d’applications à l’IPSL que ce soit pour analyser ou améliorer les modèles numériques ou pour traiter les observations sont innombrables.
Comment est utilisé le Machine Learning à l’IPSL ?
S. G. À l’IPSL, l’intelligence artificielle, et plus particulièrement le Machine Learning, s’intègre dans beaucoup de projets et concerne énormément de scientifiques. L’une de mes missions est d’animer cette communauté de chercheurs, d’ingénieurs et d’étudiants. C’est pourquoi j’ai participé à la création du groupe ESPRI-IA. C’est une communauté d’entraide et de partage d’expérience, dont l’objectif est de surmonter les blocages et les difficultés techniques liées à la pratique du Machine Learning. Cela va du simple conseil au debugging de code. Ce groupe découle de la plate-forme ESPRI, un ensemble de services pour la recherche à l’IPSL.
Le Machine Learning est un outil puissant pour aider un ordinateur à reconnaître certains phénomènes météorologiques là où les formules physiques peinent encore à les modéliser (par exemple les pluies cévenoles). Je travaille en ce moment avec Olivier Boucher, directeur du Centre de Modélisation du Climat de l’IPSL, sur un projet d’utilisation des données de simulation afin d’entraîner un réseau de neurones capable de reconnaître des cyclones. Beaucoup d’autres applications sont en cours à l’IPSL : la suppression de parasites sur des images satellitaires grâce à un réseau de neurones, la détection de routes enneigées à partir d’images, etc.
Quelle formation suivre pour devenir ingénieur en Machine Learning ?
S. G. De nombreux chemins sont possibles pour se professionnaliser dans ce domaine. Mon parcours est un peu spécial : j’ai commencé par une formation initiale de chimiste à l’ancien IUP d’Orléans, pour continuer via un cursus d’ingénieur logiciel au CNAM à Toulouse et finalement me spécialiser en Big Data et Machine Learning toujours au CNAM. Avant de rejoindre l’IPSL, j’ai travaillé quelques années chez Continental Automotive, sur la modélisation de logiciels pour des systèmes embarqués de voiture.
Aujourd’hui de plus en plus de formations en Machine Learning voient le jour. La formation Master TRIED de l’université Paris-Saclay, mise en place par l’IPSL dans les années 90, est basée en partie sur des projets et des stages réalisés dans les laboratoires de l’IPSL. Le Laboratoire Atmosphères, Observations spatiales (LATMOS-IPSL) dispense aussi des formations à portée nationale sur certains langages informatiques, comme Python, très utilisé dans le Machine Learning à l’IPSL. De mon côté, j’aimerais avec mes collègues du groupe ESPRI-IA développer de plus en plus de pastilles de formations courtes.
Pour aller plus loin
Le webinaire de Sébastien Gardoll et Yann Delcambre sur les applications scientifiques du Machine Learning.