Traitement de données avec Python

Ensemble cohérent de scripts Python visant à réaliser un traitement statistique à partir de données textuelles.

Ce projet consistait à produire des scripts Python permettant de réaliser un traitement statistique de données textuelles à partir de champs de données extraits de Tweets.
D’un point de vue pédagogique, le projet s’articulait autour de deux parties visant à acquérir les connaissances nécessaires pour maîtriser des structures de données spécifiques :

  1. Compréhension et manipulation des listes.
  2. Compréhension et manipulation des dictionnaires.

Les formats de données JavaScript Object Notation (JSON) et comma-separated values (CSV) furent notamment exploités, et des méthodes d’identification de données basées sur l’usage d’expressions régulières furent élaborées.

D’un point de vue personnel, cette expérimentation algorithmique me servit d’introduction concrète aux méthodes et opérations de traitement de données.
Je découvrais alors les principales étapes d’un procédé complet de traitement de données :

  1. Collecte des données brutes, lesquelles constituent les données fournies en entrée d’un traitement de données. Cette étape se traduit par une lecture des informations émises par une source de données, suivie d’une réorganisation des données identifiées et achevée par une sauvegarde des premières structures de données formées.
  2. Nettoyage des données, ce qui correspond à l’extraction des données jugées pertinentes dans le cadre du traitement de données entamé.
  3. Traitement effectif des données extraites, impliquant des études statistiques, des représentations vectorielles et autres méthodes de traitement.
  4. Représentation graphique des différentes études statistiques réalisées.
  5. Analyse et interprétation des résultats obtenus.

L’avancement du projet peut être suivi au travers des documents décrivant les attendus de chaque partie du projet. Aucun rapport ne fut demandé en fin de projet.


fr_FRFR