prétraitement des données
Qu'est-ce que le prétraitement des données ?
Selon Techopedia , le prétraitement des données est une technique d'exploration de données qui consiste à transformer des données brutes en un format compréhensible. Les données du monde réel sont souvent incomplètes, incohérentes et/ou manquent de certains comportements ou tendances et sont susceptibles de contenir de nombreuses erreurs. Le prétraitement des données est une méthode éprouvée pour résoudre ces problèmes.
Suad A. Alasadi et Wesam S. Bhaya , dans leur journal, déclarent que le prétraitement des données est l'une des étapes les plus importantes du Data Mining qui traite de la préparation des données et de la transformation de l'ensemble de données et cherche en même temps à rendre la découverte des connaissances plus efficace.
En d'autres termes, nous pouvons dire que le prétraitement des données est une étape de l'exploration de données qui fournit des techniques qui peuvent nous aider à comprendre et à faire la découverte de connaissances sur les données en même temps.
Pourquoi avons-nous besoin du prétraitement des données ?
Mirela Danubianu , dans son journal, déclare que les données du monde réel ont tendance à être incomplètes, bruyantes et incohérentes. Cela peut conduire à une mauvaise qualité des données collectées et à une faible qualité des modèles construits sur ces données. Afin de résoudre ces problèmes, le prétraitement des données fournit des opérations qui peuvent organiser les données sous une forme appropriée pour une meilleure compréhension du processus d'exploration de données.
Quelles sont les techniques fournies dans le prétraitement des données ?
Il existe quatre méthodes de prétraitement des données qui sont expliquées par A. Sivakumar et R. Gunasundari dans leur journal. Il s'agit du nettoyage/nettoyage des données, de l'intégration des données, de la transformation des données et de la réduction des données.
1. Nettoyage/nettoyage des données
Les données du monde réel ont tendance à être incomplètes, bruyantes et incohérentes. Les routines de nettoyage/nettoyage des données tentent de remplir les valeurs manquantes, de lisser le bruit tout en identifiant les valeurs aberrantes et de corriger les incohérences dans les données.
Les données peuvent être bruyantes, ayant des valeurs d'attribut incorrectes. En raison de ce qui suit, les instruments de collecte de données utilisés peuvent être défectueux. Peut-être que des erreurs humaines ou informatiques se sont produites lors de la saisie des données. Des erreurs de transmission de données peuvent également se produire.
Des données « sales » peuvent semer la confusion dans la procédure de minage. Bien que la plupart des routines de minage aient certaines procédures, elles traitent des données incomplètes ou bruitées, qui ne sont pas toujours robustes. Par conséquent, une étape utile de prétraitement des données consiste à exécuter les données via certaines routines de nettoyage/nettoyage des données.
2. Intégration des données
L'intégration de données est impliquée dans une tâche d'analyse de données qui combine des données provenant de plusieurs sources dans un magasin de données cohérent, comme dans l'entreposage de données. Ces sources peuvent inclure plusieurs bases de données, cubes de données ou fichiers plats. Le problème à prendre en compte dans l'intégration de données est l'intégration de schéma. C'est délicat.
Comment les entités du monde réel provenant de plusieurs sources de données peuvent-elles être « mises en correspondance » ? C'est ce qu'on appelle un problème d'identification d'entité. Par exemple, comment un analyste de données peut-il être sûr que customer_id dans une base de données et cust_number dans une autre font référence à la même entité ? La réponse est les métadonnées. Les bases de données et les entrepôts de données contiennent généralement des métadonnées. Simplement, les métadonnées sont des données sur les données.
Les métadonnées sont utilisées pour aider à éviter les erreurs dans l'intégration du schéma. Un autre problème important est la redondance. Un attribut peut être redondant s'il est dérivé d'une autre table. Les incohérences dans la dénomination des attributs ou des dimensions peuvent également entraîner des redondances dans l'ensemble de données résultant.
3. Transformation des données
Les données sont transformées en formes d'exploration appropriées. La transformation des données implique les éléments suivants :
- Dans la normalisation, où les données d'attribut sont mises à l'échelle pour se situer dans une petite plage spécifiée, telle que -1,0 à 1,0 ou 0 à 1,0.
- Le lissage permet de supprimer le bruit des données. Ces techniques incluent le regroupement, le regroupement et la régression.
- Dans Agrégation, des opérations de synthèse ou d'agrégation sont appliquées aux données. Par exemple, les données de ventes quotidiennes peuvent être agrégées afin de calculer les montants totaux mensuels et annuels. Cette étape est généralement utilisée dans la construction d'un cube de données pour l'analyse des données à plusieurs granularités.
- Dans la généralisation des données, les données de bas niveau ou primitives/brutes sont remplacées par des concepts de niveau supérieur grâce à l'utilisation de hiérarchies de concepts. Par exemple, les attributs catégoriels sont généralisés à des concepts de niveau supérieur dans la ville ou le pays. De même, les valeurs des attributs numériques peuvent être mappées à des concepts de niveau supérieur tels que l'âge en jeune, d'âge moyen ou senior.
4. Réduction des données
L'analyse et l'exploration de données complexes sur d'énormes quantités de données peuvent prendre très longtemps, ce qui rend une telle analyse peu pratique ou irréalisable. Les techniques de réduction des données sont utiles pour analyser la représentation réduite de l'ensemble de données sans compromettre l'intégrité des données d'origine tout en produisant des connaissances qualitatives. Les stratégies de réduction des données comprennent les éléments suivants :
- Dans Data Cube Aggregation, les opérations d'agrégation sont appliquées aux données lors de la construction d'un cube de données.
- Dans la réduction de dimension, les attributs ou dimensions non pertinents, peu pertinents ou redondants peuvent être détectés et supprimés.
- Dans la compression de données, des mécanismes de codage sont utilisés pour réduire la taille de l'ensemble de données. Les méthodes utilisées pour la compression des données sont la transformation en ondelettes et l'analyse en composantes principales.
- Dans la réduction de la numérosité, les données sont remplacées ou estimées par des représentations de données alternatives et plus petites, telles que des modèles paramétriques (qui stockent uniquement les paramètres du modèle au lieu des données réelles, par exemple des modèles de régression et log-linéaires) ou des méthodes non paramétriques (par exemple, clustering, échantillonnage , et l'utilisation d'histogrammes).
- Dans Discrétisation et Génération de hiérarchie de concepts, les valeurs de données brutes pour les attributs sont remplacées par des plages ou des niveaux conceptuels supérieurs. Les hiérarchies de concepts permettent l'exploration de données à plusieurs niveaux d'abstraction et sont de puissants outils d'exploration de données.
Commentaires
Enregistrer un commentaire