Jump to content

Strategi/På tvers av generasjoner/Kunstig intelligens for bidragsytere

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Strategy/Multigenerational/Artificial intelligence for editors and the translation is 100% complete.

Dette strategidokumentet ble publisert i april 2025, og det er skrevet av Chris Albon og Leila Zia fra Wikimedia Foundation. Det er også tilgjengelig på Figshare og Wikimedia Commons.

Sammendrag

Bidragsyterne er den viktigste og mest unike suksessfaktoren bak Wikipedia – et ledende eksempel på ensyklopedisk kunnskapshåndtering på verdensbasis. I over et tiår har bidragsyterne og Wikimedia Foundation (WMF) utviklet og brukt kunstig intelligens (KI) til å drive botter, produkter og funksjonr.[1] Den todelte utviklingen med nylige gjennombrudd på KI-fronten og økende utfordringer med moderering av et komplekst økosystem for kunnskap motiverte oss til å utvikle en strategi for å dra mer nytte av potensialet i KI og minimere dens risiko for prosjektene. Denne strategien fokuserer på å bruke KI til å forbedre bidragsyterne arbid på områder der KI kan ha størst innvirkning på prosjektene: Ved å automatisere rutinemessige og repetitive oppgaver som ikke krever menneskelig skjønn eller diskusjon og å gi nye brukere innføring og veiledning, for å frigjøre bidragsyternes tid så de kan fokusere på lokal og spesialisert ensyklopedisk kunskap på tvers av språk, og prioritere tryggingen av kunnskapens integritet, samtidig som man bevarer den menneskelige faktoren. Ved å støtte bidragsyternes arbeid på disse områdene med KI har denne strategien som mål å bevare og berike Wikipedias posisjon som en pålitelig kunnskapskilde, drevet av felleskapet av bidragsytere i mange generasjoner framover.

Omfang

Denne strategien setter den overordnede retningen for utvikling, drifting og bruk av KI innen produkt, infrastruktur og forskning hos WMF for å komme Wikimedia-prosjektenes bidragsytere direkte til gode. Videre snevrer vi inn fokuset på Wikimedia-prosjekter som anses som viktige for å ta del i ensyklopedisk kunnskap.

Ved å vedta omfanget ovenfor ønsker vi å eksplisitt fremheve følgende saker som ikke inngår i strategien: 1) WMFs politiske påvirkning på KI, samt hva tilknyttede organisasjoner og frivillige velger å gjøre med KI; 2) KI-arbeid som WMF gjør utenfor Wikimedia-prosjektene og teknologiplattformer WMF eier; 3) Strategiske anbefalingr som gjelder hvordan WMF samhandler med teknologiselskaper som bruker Wikimedias innhold for å bygge sine egne KI-modeller; 4) WMFs interne bruk av KI.

Tidshorisont

Denne strategien har som mål å rettlede organisasjonen mellom 1. juli 2025 og 30. juni 2028, innenfor omfanget som fastsettes ovenfor.

Oppdateringshyppighet

Forskning og utvikling innen KI er et høyst dynamisk felt. Vi anbefaler at denne strategien gjennomgås årlig for å vurdere oppdateringer. Dersom det kommer store gjennombrudd vil vi gjennomgå strategien utenom den årlige syklusen.

Mål

KI åpner muligheter for mange aspekter ved Wikipedias erfaringer. Med denne strategien anbefaler vi at vi spesielt burde utvikle og drifte KI-dreven teknologi for å:

  • Få inn nye bidragsytere.
  • Motivere eksisterende bidragsytere til å fortsette å bidra med ensyklopedisk innhold ved å redusere arbeidsbelastningen deres og støtte dem til å bidra på de områdene de er best egnet til å bidra til.
  • Styrke Wikipedias posisjon som den mest pålitelige kilden til ensyklopedisk kunnskap på mange språk.
  • Etablere WMF som en ledende utvikler og bruker av KI med en tilnærming der mennesket settes først, ved å prioritere verktøy som beriker og ikke erstatter bidragsytere, beskytter fellesskapets verdier, og øker tilgangen til kunnskap.

Grunnspørsmål

  1. Hvilke ulike strategier kan WMF ta i bruk når det gjelder bruk av KI innen redigering (innholdsgenerering og -moderering)? Og hvilke avveininger må gjøres for hver av disse strategiene?
  2. Hvilken av strategiene bør vi forfølge?
  3. Hvordan vil vår utvikling, drifting og bruk av KI være i tråd med kjerneverdiene våre med denne strategien?
  4. Hvordan vil mennesker samhandle med KI med denne strategien?
  5. Hvordan skal vi ta i bruk KI i forbindelse med innholdsgenerering med denne strategien? Hvordan skal vi ta det i bruk i forbindelse med innholdsmoderering? Hvordan bør vi prioritere bruk av KI mellom forbedring av eksisterende innhold og generering av nye bidrag?
  6. Hvilke investeringer trengs for å lykkes med denne strategien? Hvilke investeringer bør endres eller avsluttes?

Nåværende status

I takt med hvordan internett endrer seg og bruken av KI øker forventer vi at økosystemet for kunnskap vil fortsette å forpestes med lavkvalitetsinnhold, feilinformasjon og desinformasjon. Vi håper at folk vil fortsette å bry seg om verifiserbar kunnskap med høy kvalitet, og at de vil fortsette å finne fakta,, og vi vedder på at de vil ønske å stole på virkelige mennesker som kunnskapsvoktere. Siden Wikipedia lages av menneskelige frivillige, tror vi at Wikipedia kan være en ryggrad for fakta som folk vender seg til, enten på Wikimedia-prosjektene eller via gjenbruk hos tredjeparter.

Wikipedias modell med kollektiv kunnskapsgenerering har demonstrert sin evne til å skape verifiserbar og nøytral ensyklopedisk kunnskap. Fellesskapet av Wikipedia-bidragsytere og WMF har lenge brukt KI for å støtte de frivilliges arbeid med menneskets rolle i sentrum. I dag bruker vi KI for å støtte bidragsytere til å oppdage vandalisme på alle Wikipedia-utgaver, oversette innhold for lesere, forutse artikkelkvalitet, tallfeste lesbarheten til artiklene, foreslå endringer for frivillige, og mer. Vi har gjort dette ved å følge Wikipedias verdier rundt selvstyring, åpenhet, støtte til menneskeretter, åpen kildekode og så videre. Når det er sagt har vi også tatt i bruk KI i modert grad for å forbedre redigeringsopplevelsen når mulighetene eller teknologien har vært til stede. Vi har imidlertid ikke gjort større forsøk på å forbedre redigeringsopplevelsen med KI, siden vi har valgt å ikke prioritere dette over andre muligheter.

Nylige fremskritt innen KI har ført til nye muligheter for skaping og forbruk av innhold. Store språkmodeller (LLM-er) som kan oppsummere og generere tekst med et naturlig språk er godt tilpasset Wikipedias fokus på skriftlig kunnskap. Det langsiktige potensialet for at denne teknologien kan skape skalerbare brukeropplevelser med høy kvalitet er betydelig, og fortjener nøye vurdering. Samtidig utgjør den samme teknologien risikoer for Wikimedia-prosjektene og arbeidsflyten til bidragsyterne. For eksempel kan enkeltpersoner og myndigheter verden over nå opprette tusenvis av Wikipedia-aktige artikler på noen minutter, som ser legitime ut, og det kan være vanskelig å oppdage at det er svindel. Selv om det å generere nytt innhold har blitt både billig og tilgjengelig, er det fortsatt tidkrevende og kostbart å verifisere slikt innhold. Verifiserbarhet er imidlertid en grunnstøtte i ensyklopedisk arbeid. Bidragsytere trenger betydelig støtte fra WMF for å best utnytte det KI kan tilby prosjektene i møte med disse mulighetene og utfordringene.

Mulige løsninger

Når vi utvklet denne strategien, utforsket vi flere alternativer og gjorde mange avveiinger. Målet vårt var å finne fram til den beste veien for å integrere KI i arbeidet vårt, samtidig som vi opprettholder verdiene våre og sørger for at bidragsyterne og fellesskapene fortsatt er kjernen av prosjektet.

Vi utforsket først alternativet om å støtte bidragsytere med KI indirekte. Dette alternativet er nærmest status quo for hvordan vi gjør forskning og utvikling. Vi investerer ressurser i KI, men ikke mye. Å velge denne veien innebærer at vi ikke responderer til et internett i endring,[2] til ugunst for prosjektene. Bidragsyterne vil da risikere høyere arbeidsbelastning og utbrenthet, gitt at det, som nevnt, er enkelt å skape mye innhold, men fortsatt tid- og arbeidskrevende å verifisere innholdet. Ved å beholde status quo risikerer vi at brukeropplevelsen på Wikipedia kommer på etterskudd av den opplevelsen moderne internettbrukere forventer, og dette gjelder særlig for nyere generasjoner. Wikipedia som plattform har tradisjonelt utviklet seg sakte, men det større internettlandskapet utvikler seg raskt, og setter nye standarder for brukervennlighet, design for mobil først, interaktivitet og tilgjengelighet. Hvis vi ikke imøtekommer disse forventningene risikerer vi å fremmedgjøre både nåværende og fremtidige brukere, og dermed minke Wikipedias verdi og relvans.

Den andre mulige strategien ville være å investere i kunnskapsgenerering med KI over menneskelig generering. Fremskritt innen KI gjør det klart at det i kommende år vil bli økte forsøk på å bruke KI til kunnskapsskaping og -kuratering, ved å direkte oppsummere primære, sekundære og tertiære kilder. For selskaper er det åpenbare fordeler ved denne framgangsmåten, som effektivitet og skalerbarhet. Men det er også ulemper, som begrenset menneskelig tilsyn, sårbarhet for systematiske skjevheter, hallusinering, potensial for spredning av feil- og desinformasjon, begrenset lokal kontekst, usynlig menneskelig arbeidskraft,[3] og dårlig evne til å håndtere nyanserte emner. Å velge denne strategien har også en mer omfattende og viktigere risiko. Siden frivillige utgjør et unikt kjerneelement for Wikimedi-prosjektenes suksess, kan denne strategien føre til at eksisterende bidragsytere mister motivasjonen.

Strategiene som drøftes ovenfor vil ikke la oss nå målene våre for at Wikipedia skal vare i generasjoner. Derfor anbefaler vi en tredje strategi: gjør en betydelig og målrettet investering i å støtte bidragsytere med KI. Der selskaper tenderer til å gå bort fra menneskeskapt kunnskap, bør vi heller støtte oss på bidragsyternes kollektive styrke, og bruke KI for å hjelpe dem. Mennesker som støttes av KI vil være i bedre stand til å generere kunnskap enn mennesker eller KI hver for seg. I tillegg foreslår vi bruk av KI på områder der KI er i best stand til å fremme Wikimedia-bevegelsens mål. En slik målrettet tilnærming er viktig fordi den lar oss oppnå høy innvirkning innenfor det som er realistisk med vårt budsjett og våre ressurser.

Prioritert strategi og avveiinger

Den prioriterte strategien vår er å investere i KI for å støtte bidragsytere på områder der KI kan ha unike fordeler over annen teknologi for å løse problemer med innvirkning og å prioritere bidragsyternes med selvbestemmelse i samhandling med KI. Mer spesifikt anbefaler vi å investere i KI for å støtte bidragsyterne med følgende:

Å prioritere KI-assistert arbeidsflyt for å støtte moderatorer og patruljører. Nylige framskritt innen KI, spesielt generativ KI, har gjort det mye enklere å generere innhold, og dette introduserer betydelig risiko for bidragsyterne og prosjektene når dette innholdet skal verifiseres. Tusenvis av falske oppføringer og annen slags feil- og disinformasjon kan produseres på minutter.[4] Derfor bør vi prioritere bruk av KI til å støtte kunnskapsintegritet og øke moderatorenes kapasitet til å ivareta Wikipedias kvalitet. Oppgaven med å behandle et storinntog av KI-assistert innhold medfører risiko for at bidragsyterne blir overbelastet, og setter Wikipedias kvalitet og eksistens i fare. Dette fokuset på arbeidsflyt for moderatorer og patruljører sikrer at Wikipedia forblir en pålitelig kilde, og lar bidragsyterne gjøre jobben sin på en effektiv måte.

Å frigi mer tid til redigering, menneskelig vurdering, diskusjon og skape konsensus. Bidragsyterne bruker mye tid før de kan redigere Wikipedia. Deler av denne tiden brukes på å finne informasjonen de trenger til redigeringen sin, diskutering eller å komme til enighet om ting. KI er bra til oppgaver som informasjonsinnhenting, oversettelse og mønstergjenkjenning. Ved å automatisere slike repetitive oppgaver frigir KI bidragsyternes tid til å fokusere på ensyklopedisk arbeid som krever menneskelig dømmekraft: redigering, diskutering, skaping av konsensus og å ta avgjørelser i komplekse saker med høy innsats og betydelige konsekvenser.

Frigi mer tid til at bidragsytere kan dele et lokalt perspektiv eller kontekst om saker. Bidragsytere fra underrepresenterte språk er under press for å skape mer innhold på sine lokale språk. Automatisering av oversettelse og tilpasning av generelle emner[5] lar bidragsyterne berike den ensyklopediske kunnskapen med kulturell og lokal kunnskap og nyanser som KI-modeller ikke kan tilby. Dette lar bidragsytere investere mer tid i å opprette innhold som styrker Wikipedia som et mangfoldig globalt leksikon.

Engasjere nye generasjoner av bidragsytere med veiledning, arbeidsflyt og assistanse. Bidragsyterne driver kunnskapskureringen og styringn. For at prosjektene skal vare i flere generasjoner må nye bidragsytere finne arbeidsflyter som svarer til forventningene deres og finne effektive måter å få hjelp på. KI gir muligheter for å generere verdifulle typer foreslåtte redigeringer som gir mening for en ny generasjon. Og spesielt generativ KI gir en lovende løsning på automatisk veiledning for nybegynnere. KI kan tilby personlig støtte, når det gjelder alt fra innhenting av informasjon til å forstå retningslinjer, gi tilbakemelding på redigeringer, og hjelper nybegynnere å få en mestringsfølelse.

Hvordan vi vil implementere denne strategien

Implementeringen vår av denne strategien formes av WMFs visjon, misjon, veiledende prinsipper, personvernerklæring, menneskerettserklæring, bevegelsens strategi for 2030 og grunnmuren for å vare i flere generasjoner. Nedenfor framhever vi kjerneprinsippene fra disse kildene som bør definere hvordan vi implementerer denne strategien.

  1. Vi tar en tilnærming der mennesket er i fokus. Vi styrker og engasjerer mennesker, og prioriterer menneskefaktoren.
  2. Vi prioriterer å bruke KI-teknologi med åpen kildekode eller åpen vekting, og utvikler kun KI med åpen kildekode.[6]
  3. Vår bruk av KI vil la bidragsytere fokusere mer på det de ønsker å oppnå, og ikke hvordan de skal oppnå det teknisk sett.
  4. Vi koordinerer med tilknyttede Wikimedia-organissjoner og invisterer i det distribuerte nettverket av folk, institusjoner og organisasjoner for å bidra til denne strategien.
  5. Vi prioriterer åpenhet.
  6. Vi prioriterer flerspråklighet på nyanserte måter.
  7. Vi fortsetter å tilby et rom der mennesker kan dele summen av all ensyklopedisk kunnskap uten frykt for forfølgelse eller sensur.

Avveiinger

For å komme fram til den prioriterte strategien måtte vi gjøre avveiinger og ta avgjørelser. Vi deler mer om dem nedenfor. Merk at implementering av denne strategien krever flere avveiinger og valg fra oss og andre beslutningstakere i WMF. Vi deler utkast til implementeringen i tilleggsstoffet.

Innholdsgenerering vs. innholdsintegritet. Ressursene våre er begrenset, og vi kan ikke støtte bidragsytere med innholdsgenerering og innholdsintegritet samtidig. Vi bestemte oss for å først prioritere å bruke KI til å støtte bidragsytere for å sikre innholdsintegritet. Ved å gjøre dette ønsker vi å sørge for at moderatorer og patruljører for nok støtte til å håndtere en bølge av nytt innhold på prosjektene. Argumentasjonen for dette er at ny ensyklopedisk kunnskap kun kan tilføyes Wikipedia i en viss mengde som defineres av eksisterende bidragsyteres kapasitet til å gå gjennom det innholdet. Hvi vi investerer i innholdsgenerering før moderering vil det nye innholdet overvelde kapasiteten til de som skal gå gjennom det. Denne balansen kan endre seg med tiden ettersom behovene for moderering og nytt innhold endrer seg.

Modeller med åpen kildekode vs. modeller med åpen vekting.[7] Vi forplikter oss til å bygge KI-modeller med åpen kildekode. Vi må imidlertid innse at ressursene våre er for begrenset til å utvikle en egen KI-modell, noe som ville kreve tusenvis av nye servere[8] og hundretusener av arbeidstimer fra maskinlæringsingeniører og forskere. Derfor har vi valgt å bruke modeller med åpen vekting når det er nødvendig for å bygge funksjoner som støtter bidragsyterne. Vi håper at grunnleggende modeller med åpen kildekode som kan yte like godt som andre slippes i fremtiden.

Bruk av KI mange steder vs. bruk av KI for spesifikke områder. Ressursene våre – også når vi tar de kollektive ressursene til felleskapet og hele økosystemet for fri kunnskap – er ikke tilstrekkelige (f.eks. ekspertise, penger til infrastruktur osv.) til å planlegge, utvikle, fininnstille og bruke KI for mange forskjellige bruksområder uten fokus. Med denne strategien har vi valgt å begrense oss til fire bruksområder. Vi anerkjenner at det er mye hype og oppstandelse rundt KI. Vi forventer at vi vil bli bedt om å ta i bruk KI på flere og flere bruksområder, som kan skape friksjon når vi sammenstiller nye forslag med den mer fokuserte tilnærmingen vår. Denne friksjonen kan skape frustrasjon blant de som vil ha inn flere bruksområder, og kan føre til at vi regelmessig må prioritere på nytt. Dette kan også gjøre at arbeidet med denne strategien blir mer tidkrevende.

Anerkjennelser

Dette strategidokumentet er mulig takket være bidrag og innspill fra mange personer vi har samarbeidet med mellom juni 2024 og februar 2025. Vi anerkjenner og takker dem nedenfor.

Gjennom hele prosessen har Selena Deckelmann og Marshall Miller støttet oss på mange måter, deriblant ved å beramme omfanget av arbeidet til å fokusere på bidragsytere, og de har gitt omfattende tilbakemeldinger, spesielt i tidlige faser av strategien. Nadee Gunasena har samarbeidet med Selena og oss for å skape rom og muligheter for at vi kunne engasjere og få tilbakemelding fra forskjellige grupper. Miriam Redi har hyppig gitt tilbakemelding i de tidlige fasene om hvordan vi tenker og arbeider. Disse samtalene hadde forskjellige dimensjoner: Fra viktigheten av å prioritere «åpent og fritt» til å prioritere en bærekraftig symbiose mellom Wikipedia og generativ KI. Vi ønsker også å takke Isaac Johnson for å ha støttet oss tidlig i arbeidet med å få en mer nyansert forståelse av generativ KI for Wikipedia og flerspråklighet, og for å ha foreslått et rammeverk der KI er i en bedre posisjon (sammenlignet med andre sosiale og tekniske løsninger som ikke er like skalerbare) for å støtte bidragsytere (f.eks. med fadderskap).

I juli–august 2024 holdt vi noen økter med WMFs øverste ledere for å lære mer om deres perspektiver og prioriteringer. Disse øktene var viktige for oss fordi vi ønsket at hele organisasjonen skulle dra i samme retning, og samarbeid med ledelsen er en viktig del av det. Vi takker (ordnet etter etternavn) Lane Becker, Nadee Gunasena, Maryana Iskander, Stephen LaPorte, Lisa Seitz Gruwell, Amy Tsay, Denny Vrandečić og Yael Weissburg for å fritt ha delt sine tanker og formeninger rundt disse spørsmålene.

I august holdt vi en økt med noen av de andre Wikimedia-organisasjonene og frivillige under Wikimania 2024. Vi takker de som tok del i den samtalen og delte sine perspektiver, og ga verdifulle tilbakemeldinger. En av lærdommene fra denne økten var at flere organisasjoner så fram til å få mer klarhet rundt hvordan vi vil implementere KI-strategien. Takket være disse samtalene har vi viet et avsnitt til det i dette strategidokumentet.

Til slutt ønsker vi å takke Pablo Aragón, Adam Baso, Suman Cherukuwada, Rita Ho, Caroline Myrick og Santhosh Thottingal for deres spørsmål, kommentarer og innspill som har hjulpet til å forbedre dette arbeidet.

Merknader

  1. Se ClueBot NG, en av de første KI-drevne bottene, og KI-modeller utviklet og driftet av WMF.
  2. Special:MyLanguage/Strategy/Multigenerational
  3. Humans in the AI loop: the data labelers behind some of the most powerful LLMs' training datasets
  4. Se Asaf Bartovs presentasjon fra CEE 2024 for eksempler.
  5. Eksempler på generelle emner inkluderer, men er ikke begrenset til, listen over artikler hver Wikipedia bør ha
  6. Merk at koden for de største LLM-teknologiene ikke er åpen for tiden. For noen av disse KI-modellene er vektingen åpen.
  7. Modeller med åpen kildekode gir tilgang til treningsdata og kode, mens åpen vekting kun tilbyr treningsparameterne (vektingen), ofte i Safetensors-formatet. Denne vektingen kan ligge på Wikimedias infrastruktur med programvarebiblioteker med åpen kildekode.
  8. Til sammenligning har Meta, i følge én kilde, 600 000 GPU-er for KI, mens Wikimedia Foundation for tiden har under 20.