Modèle d`exploration de données

Tous ces modèles se préoccupent du processus d`intégration de la méthodologie d`exploration de données dans une organisation, de la façon de «convertir les données en informations», de la façon d`impliquer d`importants détenteurs de pieu et de la façon de diffuser l`information sous une forme qui peut facilement être les parties prenantes en ressources pour la prise de décisions stratégiques. Méthodes exploratoires statistiques de base. Les méthodes d`exploration statistiques de base comprennent des techniques telles que l`examen des distributions de variables (p. ex., pour identifier des modèles très asymétriques ou non normaux, tels que les schémas bi-modaux), en examinant de grandes matrices de corrélation pour les coefficients qui satisfont à certaines seuils (voir exemple ci-dessus), ou l`examen de tables de fréquences à plusieurs voies (par exemple, «tranche par tranche» examinant systématiquement les combinaisons de niveaux de variables de contrôle). Exploration de données prédictive le terme exploration de données prédictives est généralement appliqué pour identifier les projets d`exploration de données dans le but d`identifier un modèle de réseau statistique ou neuronal ou un ensemble de modèles qui peuvent être utilisés pour prédire une réponse d`intérêt. Par exemple, une société de carte de crédit peut vouloir s`engager dans l`exploration de données prédictive, pour dériver un modèle (formé) ou un ensemble de modèles (par exemple, les réseaux neuronaux, méta-apprenant) qui peuvent rapidement identifier les transactions qui ont une forte probabilité d`être frauduleux. D`autres types de projets d`exploration de données peuvent être de nature plus exploratoire (par exemple, pour identifier un groupe ou des segments de clients), auquel cas des méthodes descriptives et exploratoires seront appliquées. La réduction des données est un autre objectif possible pour l`exploration de données (par exemple, pour regrouper ou fusionner les informations dans des ensembles de données très volumineux en segments utiles et gérables). La tâche d`exploration de données réelle est l`analyse semi-automatique ou automatique de grandes quantités de données pour extraire des modèles précédemment inconnus et intéressants tels que des groupes d`enregistrements de données (analyse de clusters), des enregistrements inhabituels (détection d`anomalies) et des dépendances ( d`association, extraction de schémas séquentiels). Cela implique généralement l`utilisation de techniques de base de données telles que les indices spatiaux. Ces modèles peuvent ensuite être considérés comme une sorte de résumé des données d`entrée, et peuvent être utilisés dans une analyse plus approfondie ou, par exemple, dans l`apprentissage automatique et l`analytique prédictive.