ItWikiCon/2025/Programma/Proposte/Sessioni/Un'analisi della diversità delle pubblicazioni scientifiche in Wikidata/Report
- CRISTIAN
Su Wikidata ci sono vari item, 113 M di entità a maggio 2025. "Istanza di" articolo scientifico è circa il 39% (la più rappresentata sul progetto), non si riesce più a gestire il graph database. Per provare a risolvere si prova a usare un graph split. Ma essendo tante, abbiamo provato ad analizzare questi dati.
Obiettivi per ricerca: monitorare trend ricerca (chi pubblica, dove si pubblica, da dove vengono i ricercatori come ente o come nazionalità/cittadinanza, es. sapere quanti ricercatori sono affiliati a enti con nazionalità diverse dalla loro cittadinanza), è un proof-of-concept dell'utilizzo di WD per calcolo di indicatori di diversità, valutare efficacia di iniziative di promozione della diversità, equità e inclusione.
Obiettivi per comunità: valutare completezza dei dati su WD, evidenziare bias e lacune in raccolte dati, identificare dati inesatti e/o bug
Diversità cercate: anno di pubblicazione, genere ecc.
- ZENO
Raccolta dati: dump WD maggio 2025, fonti esterne bibliografiche (CrossRef, Open Alex, Scopus, Semantic Scholar [utile per analizzare ambiti di studio] ecc.)
Elaborazione dati: ricerca di corrispondenza tra elementi mediante identificativi, potenziamento dei dati, gestione dei dati RDF con Qlever (molto veloce)
Requisiti articoli analizzati:
- istanza di: Q13442814
- autori sono elementi (hanno proprietà su WD) e umani (no animali...)
- anno di pubblicazione chiaro
Articoli analizzati sono 1,4 M, scremato da 45 M, con circa 800K autori
- Risultati
Crescita esponenziale di articoli pubblicati ogni anno. Attenzione a finestra 2010-2024: picco al 2020 (Covid), poi calo dopo (perché comunità WD ha smesso di fare import per evitare di sovraccaricare).
Ambito di studio: medicina nettamente prevalente su 23 discipline tassonomiche (grazie a Semantic Scholar): Picco di informatica negli ultimi anni per studi sulle AI.
Lingue diverse dall'inglese più diffuse: cinese, poi romanze ed europee (fr, de, es, it).
Genere degli autori: controverso e complesso perché a partire dal nome non si riesce spesso a distinguere binari da non binari o altro.
Nazionalità usando solo WD: spicca Polonia, poi USA, poi Cina ed Europa. La maggior parte di autori sono stati identificatori tramite Genderize e non Wikidata. Usando questi dati, EUR > USA > Cina (EUR 300K vs USA 100K).
Concludendo, su WD: scienze dure, testi inglesi, genere maschile, nazionalità occidentali (con casi particolari tipo Polonia).
Limiti: qualità e disponibilità dei dati non sempre uniformi. Ambito scientifico troppo ampio per essere efficace.
- Discussione
JAQEN: Dati erano stati inseriti in automatico, e se sì da dove?
CRISTIAN e ZENO: non so con esattezza,sicuramente da un database, ma non so quali. Molta selezione con rischio di bias, ad esempio spesso c'era la proprietà "author string" invece di "author", molto utilizzata.
SANNITA: comunità di WD non ha gradito molto l'inserimento massivo per la mole di item, poi problema di mancanza di ORCID su tanti database.
IOPENSA: item sono scritti perché soggetto è noto, o perché il soggetto è amato dai contributori, o per iniziative di capitoli, concorsi ecc. Da capire in questo caso la proporzione tra queste.
CRISTIAN: fatto tanti tentativi per capire come associare un autore a un'affiliazione, non banale perché gli autori possono variare le affiliazioni nel corso della carriera e non è banale valutarle per ogni pubblicazione.
ELENA MARANGONI: converrebbe anche alle istituzioni avere dati ordinati anche per valutare il lavoro dei loro ricercatori
CRISTIAN: focalizzati dal 2010 anche per evitare casi complicati come sovietici, Regno d'Italia ecc.
HJFOCS: problema di base è stato inserire tutte queste pubblicazioni in WD invece che inserirle in un WikiBase apposito