Skanwiki/Skanwikiprojekt MT
Pan-Scandinavian_Machine-assisted_Content_Translation er eit Grants:IEG-støtta prosjekt for å utvida maskinomsetjingsstøtta i innhaldsomsetjing (Content Translation) til å omfatta alle moglege retningar mellom nynorsk/bokmål/svensk/dansk.
Denne sida vil gi jamnlege oppdateringar om status/framgang i prosjektet. Sjå søknaden på https://meta.wikimedia.org/wiki/Grants:IEG/Pan-Scandinavian_Machine-assisted_Content_Translation for søknaden, som gir ein generell introduksjon. På http://wiki.apertium.org/wiki/Scandinavian_MT_project er det meir intern Apertium-informasjon.
Bidra!
[edit]Viss du vil bidra, så er det fleire moglegheiter. Så snart første utgåve er lagt inn i Content Translation, så vil me gjerne ha tilbakemeldingar på kva som fungerer bra eller dårleg, og om viktige ord/frasar som manglar/blir feil. For no kan du testa dan→nno ved å lima inn tekst på apertium.org – etter kvart vil dette og andre språkpar bli lagt til i Content Translation-verktøyet.
Viss du vil involvera deg meir, så vil me gjerne ha folk til å bidra direkte til systemet. Ta kontakt på http://wiki.apertium.org/wiki/IRC og spør Unhammer eller spectre/spectie om korleis du kjem i gang med Apertium-utvikling :-)
Kort innføring i maskinomsetjing
[edit]Maskinomsetjingsplattforma er Apertium, og denne sida kjem nok til å innehalda litt maskinomsetjingsterminologi; legg gjerne inn ein kommentar på det som er uklart! Her kjem ei veldig kort innføring på korleis desse omsetjarsystema fungerer.
Arkitektur
[edit]Omsetjing skjer i ulike steg, frå analyse av ordformer på eitt språk, via ulike analysar og transformasjonar, til ordformer på eit anna språk, dei viktigaste er:
- morfologisk analyse: slå opp kvar ordform i ei svær ordbok, så t.d. «skaber» blir analysert som
skabe<vblex><pres><actv>/skaber<n><ut><sg><ind><nom>
- (dansk input-ordform står først, så dei to moglege analysane, skilt med /)
- morfologisk disambiguering: sjå på kontekst, og finn rett analyse av kvar ordform, t.d. etter ordet «vi» blir
skabe<vblex><pres><actv>/skaber<n><ut><sg><ind><nom>
tilskabe<vblex><pres><actv>
- først fjernar reglar ein del umoglege analysar; om det er gjenverande tvetydige analysar vil statistikk ta vekk resten
- ordomsetjing: slå opp utvetydige ordformer i ei omsetjingsordbok («bidix»), så t.d.
skabe<vblex><pres><actv>
blir tilskabe<vblex><pres><actv>/skape<vblex><pres><actv>/lage<vblex><pres><actv>
- (dansk input-analyse står først, så dei to moglege norske orda, skilt med /)
- lexical selection: vel rett ordomsetjing, der eitt analysert ord har fleire omsetjingar, ved å sjå på kontekst, så t.d.
skabe<vblex><pres><actv>/skape<vblex><pres><actv>/lage<vblex><pres><actv>
blir tilskabe<vblex><pres><actv>/skape<vblex><pres><actv>
- strukturell transfer: reglar for overføring av grammatikk/større strukturar, t.d. har dansk passiv preteritum som bør få hjelpeverb på norsk (forvandledes→ble forvandlet), og me må sørgja for at «artiklar» (determinativ) og adjektiv samsvarer i kjønn med substantiv osb.
- morfologisk generering: å gå frå ein analyse til ein bøygd ordform, t.d.
skape<vblex><pres>
tilskaper
- Viss ein eller fleire taggar er feil, så vil me ikkje få ut rett (eller nokon) ordform til slutt.
Evaluering
[edit]Me har ulike metodar for evaluering av kor godt maskinomsetjing fungerer.
Éin kjend metode, BLEU, samanliknar overlapp av n-gram (setningsfragment av t.d. 4 ord på rad) mellom maskinomsetjing og menneskeleg omsetjing over svære ferdigomsette tekstsamlingar, men dette krev at ein har tilgang på slike ferdige omsetjingar, og at dei er av høg kvalitet og liknar på det me planlegg å omsetja. Ein enklare metode, men som krev litt manuelt arbeid, er WER, kor me etterredigerer ein maskinomsett artikkel, og så ser på kor mange redigeringar som trengtest mellom maskinomsetjinga og den publiserbare artikkelen. Dette ser ut til å vera ein metode med god «økologisk gyldigheit», altså som ligg nært opp mot den praktiske situasjonen me er ute etter å måla, og det er denne metoden me hovudsakleg brukar i Apertium for språkpar som er meint å gi redigerbar tekst. (Det finst òg språkpar som berre er meint å gjera det mogleg å forstå ein tekst, ikkje nødvendigvis å redigera teksta for publisering, her bruker me andre evalueringsmetodar.) Meir info om evaluering finn du på http://wiki.apertium.org/wiki/Evaluation
2016-06-07
[edit]No er første offisielle utgåve av apertium-swe-nor ute, med støtte for nynorsk↔svensk↔bokmål! Sidan betaen har me mellom anna fått betre støtte for svensk supinum (som inte förts→som ikkje har blitt ført), og betre disambiguering av svensk, i tillegg til ein masse små feilrettingar rundt omkring (litt meir info på http://permalink.gmane.org/gmane.comp.nlp.apertium/5822 ). Det er allereie testbart på https://apertium.org – snart i Content Translation.
I dag kom det òg ein artikkel på Framtida om prosjektet: http://framtida.no/articles/snart-far-du-omsetjing-fra-nynorsk-til-svensk :)
Me skulle gjerne òg hatt hjelp til evaluering av dei ulike språkpara. Viss du har lyst til å hjelpa til ved å reinskriva litt maskinomsetjings-output, så kan du skriva wiki-brukarnamnet ditt ved sida eit filnamn på http://piratepad.net/gjnoBSPDuV – det hadde vore til stor hjelp!
2016-06-01
[edit]Nytt blogginnlegg frå Astrid Carlsen (WMNO) om prosjektet her: http://blog.wikimedia.org/2016/06/01/scandinavian-wikipedias-content-translation/ :)
(sjå òg tidlegare innlegg på http://blogg.wikimedia.no/2015/12/14/verktoy-for-tverrskandinavisk-maskinomsetjing/ ).
2016-05-17
[edit]Første beta 0.1.0 av apertium-swe-nor er ute, i anledning den norske grunnlovsdagen! Omsetjaren er ikkje 100 % ferdig (difor "beta"), men pakka er mogleg å testa på kommandolinja for spesielt interesserte. Pakka har omsetjing swe↔nno og swe↔nob, og har alle «features» frå dei andre omsetjarane (tristegstransfer, einspråkleg data frå separate pakker, samansetjingsanalyse, ein god del lexical selection-reglar) og ganske god dekning (mellom 87 og 89 % på Wikipedia-tekst). Meir informasjon på http://thread.gmane.org/gmane.comp.nlp.apertium/5809
2016-04-02
[edit]Ny utgåve 1.3.0 av apertium-dan-nor er gitt ut, no med nynorsk→dansk, og mogleg å testa på https://apertium.org fram til det kjem i Content Translation.
Offisielle utgjevingsnotat finst på http://thread.gmane.org/gmane.comp.nlp.apertium/5779 – den største endringa er at norsk (både nynorsk og bokmål) til dansk no har trestegstransfer, som tillet endringar med større kontekst; dette gir òg betre omsetjing av samansette ord. I tillegg er dekninga aukt, og det har vore ein del interne endringar i dei einspråklege ordbøkene for å fjerna unøvendig inkonsekvens, noko som bør gjera det enklare å begynna på siste steget av prosjektet: svensk-norsk.
2016-03-01
[edit]No er utgåve 0.7.0 av apertium-swe-dan gitt ut, for første gongen med støtte for dan→swe :-) Som før er språkparet mogleg å testa på apertium.org – det bør snart komma i Content Translation.
Det står litt om språkparet på http://article.gmane.org/gmane.comp.nlp.apertium/5613 – dette var eit litt «tungt» par å jobba med fordi det ikkje har sett noko særleg arbeid dei siste 7 åra (ei bittelita utgåve i 2013, men ingen større endringar sidan 2009), og me introduserte mykje nytt maskineri for å modernisera det slik at det fungerte nokolunde på nivå med seinare språkpar. T.d. har både dan→swe og swe→dan no støtte for dynamisk samansetjingsanalyse, lexical selection (val av ordomsetjing, sjå forklaringa over), handskrivne reglar for morfologisk disambiguering m.m. Det meste av dette er ting som ikkje var mogleg i Apertium for 7 år sidan, og som gir moglegheitar for mykje betre kvalitet. Språkparet kunne hatt godt av ei langt større omsetjingsordbok, men me får spara noko til neste utgåve :-)
I tillegg er ei ny utgåve 1.1.0 av apertium-nno-nob gitt ut, med fleire ord og betre disambigueringsreglar, hovudsakleg pga. tilbakemeldingar frå brukarar, tusen takk til alle som hjalp til :-)
2016-02-01
[edit]Ny utgåve 1.2.2 av apertium-dan-nor er gitt ut, no med støtte for dan→nob! Språkparet køyrer alt på apertium.org, me håper å snart få det ut i Content Translation.
- Sjå https://phabricator.wikimedia.org/T124137 for status på dette.
Som før er det òg nye utgåver av dei einspråklege pakkene dan/nno/nob og rettingar i alle retningar. Mellom anna fjernar me no komma frå konstruksjonar som «det antydes, at det er…», og genitivsomskrivinga er mindre aggressiv på nynorsk, så t.d. eigennamn får halda på -s-genitiven.
http://wiki.apertium.org/wiki/Scandinavian_MT_project er oppdatert med litt statistikk; spesielt interessant er kanskje evalueringsresultata i WER-kolonnen, kor låge tal er bra (færre endringar trengst før teksta er publiserbar). For historieartikkelen «Slaget om Henderson Field» var WER-resultatet nede i 10.87 % for dan→nob og 13.64 % for dan→nno, medan den meir litterære artikkelen «Peter Høeg» var oppe i 22.64 % for dan→nno; dette gir ein peikepinn på kor gode omsetjarane er. Det beste resultatet er altså samanliknbart med første utgåve av nob→nno (men den omsetjaren treng forøvrig ei ny evaluering, mykje har skjedd sidan 2009).
2015-12-29
[edit]Ny utgåve 1.1.0 av apertium-dan-nor er gitt ut, no med støtte for dan→nno!
Dette inkluderer òg nye utgåver av dei einspråklege pakkene dan/nno/nob, og ein masse utvidingar og rettingar til omsetjarane nno→dan og nob→dan.
Omsetjaren dan→nno treng enno arbeid, det finst mange enkle rettingar som kan auka kvaliteten, men me har prioritert å få ut ei køyrbar utgåve så fort som mogleg som me kan få inn i Content Translation. Dermed bør det vera mogleg for wikipedianarar å prøva ut systemet ganske snart, og gi tilbakemeldingar på ting som manglar slik at me kan prioritera arbeidet mot det som er nyttig for Wikipedia-omsetjing :-)
2015-12-29
[edit]Ny utgåve 1.1.0 av apertium-dan-nor er gitt ut, no med støtte for dan→nno!
Dette inkluderer òg nye utgåver av dei einspråklege pakkene dan/nno/nob, og ein masse utvidingar og rettingar til omsetjarane nno→dan og nob→dan.
Omsetjaren dan→nno treng enno arbeid, det finst mange enkle rettingar som kan auka kvaliteten, men me har prioritert å få ut ei køyrbar utgåve så fort som mogleg som me kan få inn i Content Translation. Dermed bør det vera mogleg for wikipedianarar å prøva ut systemet ganske snart, og gi tilbakemeldingar på ting som manglar slik at me kan prioritera arbeidet mot det som er nyttig for Wikipedia-omsetjing :-)
2015-12-23
[edit]Sidan 2015-12-05 har dette skjedd:
- dan→nno har ingen fleire ord-til-ord-feil, altså: alle ord i omsetjingsordboka går gjennom i alle bøyingar utan feil, men feil kan likevel skje i kombinasjonar av ord
- dan→nob er nede i 5119 ord-til-ord-feil
- retta ein del taggfeil i transferreglar og dårlege ordval i dan-nor
- lexical-selection oppdatert til å bruka vekting overalt
- Laga eit nytt skript for konvertering av den svenske SALDO-ordboka til Apertium-format; me byttar ut nesten heile den gamle Apertium-ordboka med SALDO.
- pronomen/determinativ treng litt arbeid enno, sidan me vil ha litt forskjellig analyse frå det SALDO har her
2015-12-05
[edit]Støtte frå Wikimedia er i boks![1]
Sidan 2015-10-04 har dette skjedd:
- apertium-dan-nor har fått transferreglar, utgangspunktet kopiert frå apertium-nno-nob
- Reglar for dan→nob er baserte på nno→nob, for dan→nno er baserte på nob→nno; dette sidan transfer hovudsakleg handlar om å gjera input om til noko som kan genererast. Det at nno ikkje liknar veldig på dan på input-sida er mindre farleg :)
- apertium-swe-nor har fått transferreglar, same prosedyre som med dan-nor
- lagt til starten på lexical selection-reglar for dan→nor og swe→nor
- Genereringsfeil i dan-nor er ned frå 11682→2130 (dan→nno) og 21472→6575 (dan→nob)
- pga. masse småfiksing i transferreglar og omsetjingsordboka (bidix), har òg til dels endra taggsettet i dei einspråklege ordbøkene til å bli meir like kvarandre
- Genereringsfeil må vera nede i 0 før me gir ut første utgåve (det er ein del andre ting som òg bør vera ferdig, men dette er eit absolutt krav)
- swe-nor og dan-nor har fått ein del testskript for å sjekka taggkonsekvens; har òg henta og reinska testkorpus frå Opus
- Begynt på å legga inn substantiv frå SALDO[2]
2015-10-04
[edit]Har fått støtte til deler av prosjektet frå Apertiums Project Management Committee :-)[3]