Traitement de données avec Python

* Période : Décembre 2022 - Janvier 2023
* Description :
  - Projet universitaire tutoré, avec production technique.
  - Ensemble cohérent de scripts Python visant à réaliser un traitement statistique à partir de données textuelles.
* Axes d'amélioration :
  - Approfondir ce projet en utilisant l'API de Twitter pour récupérer des données brutes de manière continue et dynamique.
  - Reprendre le projet en variant les sources de données utilisées et en ajoutant de nouvelles opérations de traitement.

Ce projet consistait à produire des scripts Python permettant de réaliser un traitement statistique de données textuelles à partir de champs de données extraits de Tweets.
D’un point de vue pédagogique, le projet s’articulait autour de deux parties visant à acquérir les connaissances nécessaires pour maîtriser des structures de données spécifiques :

Compréhension et manipulation des listes.
Compréhension et manipulation des dictionnaires.

Les formats de données JavaScript Object Notation (JSON) et comma-separated values (CSV) furent notamment exploités, et des méthodes d’identification de données basées sur l’usage d’expressions régulières furent élaborées.

D’un point de vue personnel, cette expérimentation algorithmique me servit d’introduction concrète aux méthodes et opérations de traitement de données.
Je découvrais alors les principales étapes d’un procédé complet de traitement de données :

Collecte des données brutes, lesquelles constituent les données fournies en entrée d’un traitement de données. Cette étape se traduit par une lecture des informations émises par une source de données, suivie d’une réorganisation des données identifiées et achevée par une sauvegarde des premières structures de données formées.
Nettoyage des données, ce qui correspond à l’extraction des données jugées pertinentes dans le cadre du traitement de données entamé.
Traitement effectif des données extraites, impliquant des études statistiques, des représentations vectorielles et autres méthodes de traitement.
Représentation graphique des différentes études statistiques réalisées.
Analyse et interprétation des résultats obtenus.

L’avancement du projet peut être suivi au travers des documents décrivant les attendus de chaque partie du projet. Aucun rapport ne fut demandé en fin de projet.

Documents et livrables

Première partie des programmes

Instructions de la première étape

Format de données brutes