Leposlovje v strojni preobleki #2: 1Q84

Leposlovje v strojni preobleki #2: 1Q84

Strojni prevajalniki postajajo vse boljši in boljši. Kot smo videli v tem blogu, najboljše rezultate dobimo, če jih uporabljamo na primernih besedilih. Kako pa se obnašajo, ko se srečajo z besedili, ki niso najbolj primerna za strojno prevajanje, kot so literarna dela? Zanje velja prepričanje, da jih algoritmi za strojno prevajanje še dolgo ne bodo znali prevesti, vendar ali je to res? V Aikwitu smo se odločili, da preverimo te trditve!

ŽELIM VEČ INFORMACIJ

Pravila igre

Vsak teden ali dva bomo izbrali kratek odlomek nekega literarnega dela in ga strojno prevedli z nekaj najbolj uveljavljenimi brezplačnimi strojnimi prevajalniki. Prvo epizodo si lahko ogledate tukaj.

Tekmovalci so: Google Translate, Microsoft Bing Translator in strojni prevajalnik ruskega iskalnika Yandex Translate. Vsi štirje člani Aikwitove ekipe bomo strojne prevode ocenili z oceno od 1 do 5, kjer je 5 najvišja in 1 najnižja ocena. Tako bomo skozi čas dobili povprečno oceno kakovosti posameznega strojnega prevajalnika na področju prevajanja literature.

In še novost: tokrat smo vključili tudi “domači” strojni prevajalnik, ki so ga razvili v laboratoriju za umetno inteligenco na Institutu Jožefa Stefana.

Epizoda 2: 1Q84

Danes si bomo ogledali, kako so se strojni prevajalniki spopadli s prvima dvema odstavkoma kultnega romana 1Q84 japonskega pisatelja Harukija Murakamija, ki združuje elemente ljubezenske, kriminalne in znanstvenofantastične literature. Z našega vidika je posebnost tudi, da je bil roman napisan v japonščini in nato preveden v angleščino. V slovenščino ga je prevedel Aleksander Mermal, knjiga pa je izšla pri Mladinski knjigi.

Takole je videti v angleškem izvirniku:

The taxi’s radio was tuned to a classical FM broadcast. Janáček’s Sinfonietta—probably not the ideal music to hear in a taxi caught in traffic. The middle-aged driver didn’t seem to be listening very closely, either. With his mouth clamped shut, he stared straight ahead at the endless line of cars stretching out on the elevated expressway, like a veteran fisherman standing in the bow of his boat, reading the ominous confluence of two currents. Aomame settled into the broad back seat, closed her eyes, and listened to the music.
How many people could recognize Janáček’s Sinfonietta after hearing just the first few bars? Probably somewhere between “very few” and “almost none”. But for some reason, Aomame was one of the few who could.

Izvirno besedilo

In tako v slovenskem prevodu:

Iz radia v taksiju se je slišala klasična glasba z ukv-postaje. Vrtela se je Janáčkova Sinfonietta. Ne bi se moglo ravno reči, da je to primerna glasba za tičanje v taksiju, ki je obstal v prometnem zastoju. Tudi šofer ni bil videti, kot da prav zagreto posluša. Bil je možak srednjih let in kot kakšen prekaljen ribič, ki stoji na premcu in poskuša razbrati, kje je tista nevarna točka, kjer se morski tokovi lomijo, je molče zrl v neprekinjeno vrsto avtomobilov pred sabo. Aomame je sedela globoko v zadnjem sedežu in z rahlo priprtimi očmi poslušala glasbo. Koliko je ljudi na svetu, ki takoj, ko slišijo uvod v Janáčkovo Sinfonietto, vedo, kaj poslušajo? Odgovor mora biti nekje med »Ne prav veliko« in »Skoraj nihče«. Aomame pa je, ne točno vede kako, takoj vedela.

Slovenski prevod

Tako pa so videti strojni prevodi:

Radijski taksi je bil uglašen s klasično FM oddajo. Janáčekova Sinfonietta – verjetno ni idealna glasba, ki jo lahko slišite v taksiju, ujetem v prometu. Videti je tudi, da voznik srednjih let ni pozorno poslušal. Z zaprtimi usti je zagledal naravnost v neskončno vrsto avtomobilov, ki so se raztezali na visoki hitri cesti, kot veteran ribič, ki stoji na premcu čolna in bere zlovešno sotočje dveh tokov. Aomame se je umaknila v širok zadnji sedež, zaprla oči in poslušala glasbo.
Koliko ljudi je lahko prepoznalo Janáčekovo Sinfonietto, ko je slišalo samo prvih nekaj barov? Verjetno nekje med »zelo malo« in »skoraj nič«. Toda iz nekega razloga je bila Aomame ena od redkih, ki bi lahko.

Google Translate

Radio taksi je bil uglašen na klasično FM oddaja. Janáček ‘ s Sinfonietta-verjetno ni idealna glasba slišati v taksi ujete v prometu. V srednjih let voznika ni videti, da je zelo pozorno poslušanje. S svojo usta vpeti zaprta, je strmel naravnost naprej na neskončno linijo avtomobilov, ki se razteza na povišani Expressway, kot veteran ribič stoji v premcu svojega čolna, branje zlovešč sotočju dveh tokov. Aomame poravnajo v širšem zadnjem sedežu, zaprl oči, in poslušal glasbo.
Koliko ljudi bi lahko prepoznali Janáčeka ‘ s Sinfonietta po zaslišanju samo prvih nekaj barov? Verjetno nekje med “zelo malo” in “skoraj nič”. Ampak iz neznanega razloga, Aomame je bil eden od redkih, ki bi lahko.

Microsoft Bing

Taxi radio je bil uglašen na klasično FM oddajanje. Janacek Sinfonietta-verjetno ni idealna glasba, da bi jo slišali v taksiju, ki je obtičal v prometu. Tudi voznik srednjih let ni poslušal. Z njegovih ust vpet zaprta, je stared naravnost na neskončne vrstice avtomobilov razteza na dvignjenem hitre ceste, kot veteran ribič, ki stoji na premcu njegove čoln, branje zlovešč sotočju dveh tokov. Aomame se je naselila na širokem zadnjem sedežu, zaprla oči in poslušala glasbo.
Koliko ljudi bi prepoznalo Janaceka Sinfonietto po prvih nekaj barih? Verjetno nekje med “zelo malo” in “skoraj nič”. Toda iz nekega razloga je bila Aomame ena redkih, ki je lahko.

Yandex

Taksi-jev radio je bil vključen v klasično FM prenos. Janáček je v Sinfoniji, verjetno ni ravno idealna glasba za taksi, ki se je ujel v prometu. Voznik srednjih let ga ni dobro poslušal. Z zaprtimi usti je strmel v neskončno linijo avtomobilov, ki se raztezajo po dvignjeni avtocesti, kot nekakšen veteran, ki stoji na svoji ladji, ki bere zlovešče dveh tokov. Aomame se je namestila na zadnji sedež, zaprla oči in poslušala glasbo.
Koliko ljudi bi lahko spoznalo Janáčka, ko je slišal samo prvih nekaj barov? Verjetno nekje med “zelo malo” in “skoraj nič”, ampak iz nekega razloga je bil Aomame eden redkih, ki bi lahko.

IJS

Kaj lahko opazimo?

Vsi prevajalniki so narobe razumeli besedo “bar” v drugem odstavku, kar pa ni presenetljivo, če vemo, da najpogosteje uporablja kontekstu gostilne. Bing in Yandex sta tudi izbrisala šumnike iz imena skladatelja, medtem ko sta se Google in IJS-jev prevajalnik pri tem bolje odrezala. In še nekaj lahko opazimo: Aomame je ženska, Bing in IJS pa sta uporabila moški spol, kar je lep primer pristranskosti (glejte npr. Racial Bias and Gender Bias Examples in AI systems) v algoritmih za strojno učenje.

Ocene Aikwitove ekipe

Oglejmo si, kako smo v Aikwitu ocenili tri prevode na lestvici od 1 do 5. 1 pomeni povsem nerazumljiv prevod, 5 pa pomeni prevod, ki je po kakovosti enak uradnemu prevodu človeškega prevajalca.

 GoogleBingYandexIJS
Davorin2,511,52
Goran31,522,5
Damijan311,53
Andraž3222,5
Povprečje2,75 1,3751,752,5

Tokrat presenečenj na prvem mestu ni bilo, zmagovalec je Google, tesno pa mu sledi novinec IJS.

In še skupni rezultati:

 GoogleBingYandexIJS
Skupaj2,6861,6252,4382,5

ŽELIM VEČ INFORMACIJ