Jump to content

Event:Atelier Extraction de données PDF

From Meta, a Wikimedia project coordination wiki
Participation optionsOnline event
Start and end time12:00, 15 March 2026 – 22:59, 15 April 2026
Timezone: +00:00
Number of participants11 participants
Edit-a-thons Wiki Wake Up Afrique 2026
Atelier Wikidata du 15 mars 2026

Le 15 mars 2026, Wiki Wake Up Afrique organise un atelier en ligne pratique sur l'Extraction de données des tableaux PDF, nettoyage avec OpenRefine et chargement dans Wikidata avec QuickStatements.

Cet atelier s’adresse aux wikimédien·ne·s, chercheur·e·s, étudiant·e·s, archivistes et toute personne intéressée par le travail avec des données en masse pour les projets Wikidata.

Objectifs de la formation

[edit]

À l’issue de la session, les participant·e·s seront capables de :

  • Extraire des tableaux à partir de fichiers PDF vers des formats tabulaires (CSV/Excel).
  • Nettoyer et harmoniser ces données avec OpenRefine (corrections, normalisation, détection de doublons, préparation des colonnes).
  • Construire un schéma OpenRefine adapté à Wikidata (items, propriétés, références).
  • Générer et utiliser des commandes QuickStatements pour charger en lot les données préparées dans Wikidata, en toute sécurité.

Contenu de l’atelier

[edit]

Introduction

[edit]
  • Rappel rapide : qu’est‑ce que Wikidata et pourquoi utiliser des imports en lot ?
  • Présentation du flux de travail

Extraction de données des tableaux PDF

[edit]
  • Présentation de quelques outils possibles (libres ou en ligne) pour extraire des tableaux vers CSV/Excel (exemples, bonnes pratiques, limites).
  • Démonstration d’extraction sur un exemple concret de tableau PDF (données administratives, listes, etc.).
  • Nettoyage et préparation avec OpenRefine
  • Import du fichier dans OpenRefine.
  • Opérations de base : filtrer, trier, modifier des cellules, normaliser des valeurs (capitalisation, formats de dates, etc.).
  • Utilisation de fonctions de clustering pour repérer et fusionner les doublons.
  • Préparation des colonnes pour Wikidata (labels, descriptions, propriétés, identifiants externes).

Du tableau à Wikidata avec QuickStatements

[edit]
  • Rappel : principe de QuickStatements et prérequis (compte Wikidata, autorisation OAuth).
  • Génération d’un fichier/texte QuickStatements à partir des données nettoyées.
  • Création d’un nouveau « batch » QuickStatements, lancement d’un test sur quelques lignes, puis chargement complet.
  • Bonnes pratiques : tester sur un petit échantillon, suivre le batch, corriger si nécessaire.

Questions/réponses et échanges sur les projets des participant·e·s

Outils

[edit]

Informations pratiques

[edit]
  • Date : 15 mars 2026
  • Heure : 14h UTC
  • Lieu : google meet
  • Langue de travail : Français

Organisateur

[edit]

Wiki Wake Up Afrique