L’IA et le machine learning pour expliquer et prédire le futur à partir de l’analyse du passé

L’analyse des caractéristiques des données historiques permet d’anticiper la réalisation d’événements futurs en les comparant avec l’historique. Ainsi le machine learning se distingue aujourd’hui de la traditionnelle Business Intelligence (BI) et de la Business Analysis. La BI répond aux questions « Quoi ?» et/ou au « Comment ?». La BA répond à la question « Pourquoi ?». Les algorithmes d’IA/machine learning permettent quant à eux d’apprendre des relations existantes dans les données passées pour évaluer une probabilité de réalisation de ces mêmes patterns lors d’événement futurs.

Tips pour mener à bien un projet de machine learning : ne pas négliger la phase de définition de la problématique.

 

Un premier travail métier doit être établi pour définir la problématique et préparer les données pertinentes pour l’analyse. La définition de la problématique permettra notamment de déterminer si la variable à prédire est continue (régression) ou discrète (classification). Pour cela, un travail exhaustif d’analyse de la donnée existante doit être réalisé afin de qualifier au mieux la donnée qui sera utilisée lors de l’apprentissage ; c’est la phase de préparation de la donnée. Une fois cette tâche réalisée, l’algorithme est d’abord entraîné sur une partie des données – le jeu de données d’apprentissage – afin d’etre ensuite validé sur l’autre partie des données – le jeu de données test - en évaluant la pertinence de ses prédictions. La mise en production du modèle peut ensuite être effectuée, avec une prédiction continue grâce à l’enrichissement continu de nouvelles données.

Les algorithmes de machine learning pour anticiper la réalisation d’événements RH

Un SIRH est une base de données qui recense des informations associées à chaque agent. Ces données par agent sont historisées et peuvent être reliées à des évènements RH. Aussi, il est possible de probabiliser les événements RH identifiés en fonction des données historisées par agent. En effet, les informations RH caractérisent le positionnement de l’agent (métier, géographie, organisation…) au sein de la structure publique ou privée. L’objectif est donc ensuite d’utiliser le SIRH, en tant que base de données exploitable par un algorithme de machine learning, pour prédire la réalisation de ces événements RH.

L’analyse de l’évolution temporelle des différents SIRH de la structure, publique ou privée, permet d’objectiver et de mettre en exergue les causes de la réalisation de différents événements RH. L’étude de ces données peut par exemple mettre en évidence la survenance d’événements RH comme l’arrivée d’un agent.

Comme l’illustre le schéma ci-dessus, la comparaison des SIRH entre deux dates permet de mettre en évidence qu’un agent est arrivé dans la structure. Ces analyses pourraient également mettre en évidence d’autres événements RH tels que : le départ, la mobilité géographique ou fonctionnelle d’un agent.

Pour autant, cette objectivation requiert un travail non négligeable de fiabilisation puis d’enrichissement des données. Le travail de fiabilisation des données vise à les rendre exploitables par un algorithme de machine learning. Cela implique par exemple de neutraliser les valeurs manquantes éventuelles et/ou d’homogénéiser les variables continues utilisées pour les rendre toutes comparables.

Tips pour mener à bien un projet de machine learning : ne pas négliger la phase de fiabilisation puis enrichissement des données qui peut parfois représenter 50% du temps de travail sur un tel projet.
 

Certaines variables de la base de données peuvent ensuite être retravaillées, recombinées, afin de renforcer leur pertinence, par exemple, une variable « âge » sera plus pertinente qu’une variable « date de naissance ».

Retour d’expérience de cette démarche pour le recrutement d’un ministère public

Quatre types de données étaient présents dans la base de données dans le SI de recrutement utilisé pour profiler les candidats :

L’étude du lien entre les caractéristiques RH du candidat, et son comportement une fois recruté, a ensuite permis d’établir des profils-types : prometteur ; neutre ; à risque.

Après avoir appris à déterminer les profils prometteurs à partir de l’historique des candidats, l’algorithme prédictif peut ensuite anticiper parmi les futurs candidats ceux qui constitueront les profils les plus prometteurs.

Ainsi, la démarche de recrutement a pu bénéficier d’aides à la décision complémentaire grâce à une analyse data utilisant un algorithme de type machine learning. Cette démarche aurait également pu être mise en œuvre pour d’autres événements RH (départs à la retraite, démission, mobilité, etc.).

Auteurs :

Pauline Maury, Manager

Victor Billette de Villemeur, Consultant

Nina Chiapello, Consultant

Rechercher
Toggle location