prétraitement des données

 

Qu'est-ce que le prétraitement des données ?


Pourquoi avons-nous besoin du prétraitement des données ?

Mirela Danubianu , dans son journal, déclare que les données du monde réel ont tendance à être incomplètes, bruyantes et incohérentes. Cela peut conduire à une mauvaise qualité des données collectées et à une faible qualité des modèles construits sur ces données. Afin de résoudre ces problèmes, le prétraitement des données fournit des opérations qui peuvent organiser les données sous une forme appropriée pour une meilleure compréhension du processus d'exploration de données.

Quelles sont les techniques fournies dans le prétraitement des données ?

Il existe quatre méthodes de prétraitement des données qui sont expliquées par A. Sivakumar et R. Gunasundari dans leur journal. Il s'agit du nettoyage/nettoyage des données, de l'intégration des données, de la transformation des données et de la réduction des données.

1. Nettoyage/nettoyage des données



Nettoyage/nettoyage des données
Nettoyage des données "sales".

2. Intégration des données

Intégration de données
Combiner des données provenant de plusieurs sources.

3. Transformation des données

Construire un cube de données.
  1. Le lissage permet de supprimer le bruit des données. Ces techniques incluent le regroupement, le regroupement et la régression.
  2. Dans Agrégation, des opérations de synthèse ou d'agrégation sont appliquées aux données. Par exemple, les données de ventes quotidiennes peuvent être agrégées afin de calculer les montants totaux mensuels et annuels. Cette étape est généralement utilisée dans la construction d'un cube de données pour l'analyse des données à plusieurs granularités.
  3. Dans la généralisation des données, les données de bas niveau ou primitives/brutes sont remplacées par des concepts de niveau supérieur grâce à l'utilisation de hiérarchies de concepts. Par exemple, les attributs catégoriels sont généralisés à des concepts de niveau supérieur dans la ville ou le pays. De même, les valeurs des attributs numériques peuvent être mappées à des concepts de niveau supérieur tels que l'âge en jeune, d'âge moyen ou senior.

4. Réduction des données

Réduction de la représentation de l'ensemble de données.
  1. Dans la réduction de dimension, les attributs ou dimensions non pertinents, peu pertinents ou redondants peuvent être détectés et supprimés.
  2. Dans la compression de données, des mécanismes de codage sont utilisés pour réduire la taille de l'ensemble de données. Les méthodes utilisées pour la compression des données sont la transformation en ondelettes et l'analyse en composantes principales.
  3. Dans la réduction de la numérosité, les données sont remplacées ou estimées par des représentations de données alternatives et plus petites, telles que des modèles paramétriques (qui stockent uniquement les paramètres du modèle au lieu des données réelles, par exemple des modèles de régression et log-linéaires) ou des méthodes non paramétriques (par exemple, clustering, échantillonnage , et l'utilisation d'histogrammes).
  4. Dans Discrétisation et Génération de hiérarchie de concepts, les valeurs de données brutes pour les attributs sont remplacées par des plages ou des niveaux conceptuels supérieurs. Les hiérarchies de concepts permettent l'exploration de données à plusieurs niveaux d'abstraction et sont de puissants outils d'exploration de données.

Commentaires

Posts les plus consultés de ce blog

Comment fonctionne l'optimise d'Adam

RESEAU DE NEURONE CONVOLUTIF

Comment utiliser les diagrammes PlantUML dans Visual Studio Code pour Windows 10