ibs Analytics
DÉFINITION ET ANALYSE DE L'INFORMATION
La première étape d'extraction et d'analyse des informations consiste à vérifier la cohérence des données, en mettant en évidence les données incorrectes et en les corrigeant.
“LA MEILLEURE MÉTHODE SCIENTIFIQUE NE PEUT PAS DONNER DES RÉSULTATS PRÉCIS SI LES DONNÉES D'ENTRÉE NE LE SONT PAS ”
ibs Analytics comprend, en plus des processus d'intégration classiques des données (format, type de données, règles métier), un module dédié à l'analyse des informations, ciblé sur la détection des valeurs aberrantes et leur correction.
Cette étape du processus d'extraction des informations, parfois sous-estimé, est cependant indispensable car l'intégrité de l'information est le plus important pré-requis pour une analyse efficace. La Suite Analytics Business Suite et le moteur d'ibs Analytics propose un moteur de nettoyage, développé par le laboratoire de recherches Soft Solutions, basé sur les avancées techniques du Data Mining pour détecter les données périphériques et les corriger. La cohérence des données est donc assurée pour les étapes ultérieures du processus d'extraction de l'information (prévision, optimisation...).
L'IMPACT DES DONNÉES ABERRANTES SUR L'INFORMATION (A.K.A. OUTLIERS)
![]() Les données périphériques (identifiées comme des valeurs aberrantes ) sont des informations différentes des autres. |
![]() |
![]() ![]() |
Dans l'exemple ci-dessus montrant le niveau hebdomadaire des ventes d'un article dans un magasin, l'impact d'une valeur incohérente unique fausse totalement le modèle de tendance des ventes.
D'une «évolution logique» (à l'exclusion du cas aberrant) d'une hausse de 22% sur la période, les changements de modèle donnent une diminution de 15% quand la donnée incohérente est considérée.
L'impact d'un tel effet peut largement modifier l'analyse fondée dessus et la nécessité pour identifier les valeurs aberrantes est donc, dans ce cas, évidente.
DÉTECTION ET CORRECTIONS DES DONNÉES ABERRANTES
![]() Afin d'identifier efficacement les valeurs incohérentes, le moteur d'ibs Analytics met en œuvre une approche particulière. En effet, les techniques statistiques ne permettent pas une détection efficace; car elles ne peuvent pas s'adapter à toutes les situations (un article peut avoir un important changement de profil des ventes au cours de la période historique). Une approche dynamique est alors obligatoire pour obtenir une identification efficace. |
![]() |
![]() ![]() |
L'approche a été adaptée à la spécificité des informations de ventes et permet un processus optimisé de détection des valeurs aberrantes, avec la possibilité de s'adapter à la situation avec les changements de profils de vente des articles.
Basée sur cette détection, la correction permet d'augmenter la qualité des données d'entrée. Le tableau ci-contre montre la qualité des corrections dans des conditions réelles.
RÉFÉRENCES
![]() Les documents ci-dessous sont des références bien connues de la littérature qui ont entraîné la conception des solutions de nettoyage des données de Soft Solutions:
|
![]() |
![]() ![]() |
- LOADED: Link-based Outlier and Anomaly Detection in Evolving Data Sets. Ghoting & al. 2004
- A Comparison of Outlier Detection Algorithms for Machine Learning. Escalante & al. 2005
- A Review of Statistical Outlier Methods. Walfish. 2007