Kako dobri so strojni prevajalniki #1: Pravilnik o zasebnosti

Kako dobri so strojni prevajalniki #1: Pravilnik o zasebnosti

Nekajkrat smo že preverili (1, 2, 3, 4), kako dobro se strojni prevajalniki spopadejo z literarnimi besedili. Kljub velikemu skoku v kakovosti, do katerega je prišlo ob prehodu na algoritme nevronskih mrež (Strojno prevajanje je zanič, mar ne?), smo ugotovili, da je še precej prostora za napredek. Veliko je sicer odvisno od pričakovanj, saj so deli prevodov dobri, celota pa je še daleč od dobrega literarnega prevoda.

Toda strojni prevajalniki primarno niso namenjeni prevajanju literarnih besedil. Precej bolj realna je situacija, ko potrebujemo hiter prevod spletne strani, e-pošte ali dopisa. Pričakovali bi, da bo kakovost prevodov pri takih besedilih precej boljša, zato smo se odločili, da jo bolj natančno stestiramo. V tej seriji blogov bomo torej preizkušali strojne prevajalnike z besedili, s katerimi se največkrat srečujejo.

ŽELIM VEČ INFORMACIJ

Pravila igre

Vsak teden ali dva bomo izbrali kratko besedilo in ga strojno prevedli z nekaj najbolj uveljavljenimi brezplačnimi strojnimi prevajalniki.

Tekmovalci so: Google Translate, Microsoft Bing Translator, strojni prevajalnik ruskega iskalnika Yandex Translate in tekmovalec iz domačih logov, ki so ga razvili v laboratoriju za umetno inteligenco na Institutu Jožefa Stefana. Vsi štirje člani Aikwitove ekipe bomo strojne prevode ocenili z oceno od 1 do 5, kjer je 5 najvišja in 1 najnižja ocena. Tako bomo skozi čas dobili povprečno oceno kakovosti posameznega strojnega prevajalnika.

Epizoda 1: Pravilnik o zasebnosti

Začenjamo s pravilnikom o zasebnosti, ki ga mora objaviti vsako podjetje na spletu, ki zbira podatke o obiskovalcih spletne strani. Kot vzorec bomo uporabili prve tri odstavke pravilnika o zasebnosti podjetja Aikwit v angleščini, ki ga bomo prevedli v slovenščino:


Privacy statement
We respect your privacy and all private data is treated with the utmost confidentiality and the greatest care. While accessing this site, identification and related data (including IP address, date, time, accessed pages) is stored on our server. This data is solely used for internal statistical purposes and is anonymous. It assists us to tailor the information on our site to the specific needs of our customers. The data is never provided to any third party.

Data received by us via registration is handled confidentially and never supplied to any third party. Personal information (such as name or e-mail address) which we receive when we are contacted via e-mail, is solely used for correspondence in order to provide you with the requested information. We will not sell, trade or rent the information to any third party. Please note that it is impossible to guarantee that data transmitted via the internet will not be read or changed by an unauthorized party.

Company websites contain contact forms through which you can provide your information, including subscribing to e-mail notifications or applying for a business cooperation with the company. The personal information you provide to the company is used by the company to fulfill its obligations to you and to enable business with you and to ensure that you receive the notifications you have subscribed to.


Takole se je z besedilom spopadel Google:


Izjava o zasebnosti
Spoštujemo vašo zasebnost in vse zasebne podatke obravnavamo z največjo zaupnostjo in največjo skrbnostjo. Medtem ko dostopate do tega spletnega mesta, se identifikacijski in z njim povezani podatki (vključno z naslovom IP, datumom, uro, stranmi za dostop) shranijo na naš strežnik. Ti podatki se uporabljajo izključno za notranje statistične namene in so anonimni. Pomaga nam prilagajati podatke na svojem spletnem mestu specifičnim potrebam naših strank. Podatki niso nikoli posredovani nobeni tretji osebi.

Podatki, ki smo jih prejeli z registracijo, se obravnavajo zaupno in nikoli niso posredovani nobeni tretji osebi. Osebni podatki (na primer ime ali e-poštni naslov), ki jih dobimo ob stiku preko e-pošte, se uporabljajo izključno za korespondenco, da bi vam zagotovili zahtevane podatke. Podatkov ne bomo prodali, trgovali ali dajali v najem nobeni tretji osebi. Upoštevajte, da je nemogoče zagotoviti, da podatkov, ki jih pošlje po internetu, ne bo brala ali spreminjala nepooblaščena stranka.

Spletna mesta podjetja vsebujejo kontaktne obrazce, prek katerih lahko posredujete svoje podatke, vključno s prijavo na e-poštna obvestila ali s prošnjo za poslovno sodelovanje s podjetjem. Osebne podatke, ki jih posredujete podjetju, podjetje uporablja za izpolnitev svojih obveznosti do vas in za omogočanje poslovanja z vami ter za zagotovitev prejemanja obvestil, na katera ste naročeni.


Tako Bing:


Izjava o varstvu osebnih podatkov
Spoštujemo vašo zasebnost in vsi zasebni podatki se obravnavajo z največjo zaupnost in največjo skrbnostjo. Med dostopanjem do te spletne strani se identifikacija in sorodni podatki (vključno z naslovom IP, datumom, časom, dostopnimi stranmi) shranijo na našem strežniku. Ti podatki se uporabljajo izključno za interne statistične namene in so anonimni. Pomaga nam, da podatke na naši spletni strani prilagajamo specifičnim potrebam naših kupcev. Podatki niso nikoli predloženi nobeni tretji osebi.

Podatki, ki smo jih prejeli prek registracije, se obravnavajo zaupno in nikoli niso posredovani nobeni tretji osebi. Osebni podatki (na primer ime ali e-poštni naslov), ki jih prejmemo, ko se obrnete preko e-pošte, se uporabljajo izključno za korespondenco, da vam posredujejo zahtevane informacije. Ne bomo prodali, trgovali ali oddajali informacij nobeni tretji osebi. Prosimo, upoštevajte, da ni mogoče zagotoviti, da se podatki, posredovani prek spleta, ne bodo prebrali ali spremenili nepooblaščena stranka.

Spletne strani podjetja vsebujejo obrazce za stike, prek katerih lahko posredujete svoje podatke, vključno z naročanjem na e-poštna obvestila ali prijavo za poslovno sodelovanje s podjetjem. Osebne podatke, ki jih posredujete podjetju, družba uporablja za izpolnjevanje svojih obveznosti do vas in za omogočanje poslovanja z vami ter za zagotovitev, da prejmete obvestila, ki ste jih naročili.


Tako Yandex:


Izjava o zasebnosti
Spoštujemo vašo zasebnost in z vsemi zasebnimi podatki ravnamo strogo zaupno in zelo previdno. Medtem ko dostopamo do te strani, so identifikacijski in sorodni podatki (vključno z IP naslovom, datumom, časom, dostopnimi stranmi) shranjeni na našem strežniku. Ti podatki se uporabljajo samo za notranje statistične namene in so anonimni. Pomaga nam, da informacije na naši strani prilagodimo posebnim potrebam naših strank. Podatki se nikoli ne posredujejo nobeni tretji osebi.

Podatki, ki jih prejmemo z registracijo, se obravnavajo zaupno in se nikoli ne posredujejo nobeni tretji osebi. Osebne podatke (na primer ime ali e-poštni naslov), ki jih bomo prejeli, ko smo stopili v stik prek e-pošte, je zgolj uporablja za dopisovanje z namenom zagotavljanja zahtevane informacije. Ne bomo prodajali, trgovali ali oddajali informacij tretjim osebam. Upoštevajte, da ni mogoče zagotoviti, da nepooblaščena stranka ne bo brala ali spreminjala podatkov, poslanih prek interneta.

Spletne strani družbe vsebujejo kontaktne obrazce, preko katerih lahko zagotovi svoje podatke, vključno se naročite na e-poštna obvestila ali gre za poslovno sodelovanje s podjetjem. Osebne podatke, ki jih ponujajo podjetja, ki jih uporabljajo podjetja, da izpolni svoje obveznosti, vam pa omogočila poslovanje z vami in za zagotovitev, da boste prejeli obvestila, ki ste jih naročili.


In tako IJS:


Izjava o zasebnosti
Spoštujemo vašo zasebnost in vsi zasebni podatki se obravnavajo z največjo zaupnostjo in največjo oskrbo. Med dostopanjem do tega območja, identifikacijskih in sorodnih podatkov (vključno z IP naslovom, datumom, časom, dostopnimi stranmi) je shranjen na našem strežniku. Ti podatki se uporabljajo izključno za notranje statistične namene in je anonimen. To nam pomaga, da krojimo informacije, ki so na našem mestu, s posebnimi potrebami naših strank. Podatki se ne zagotovijo nobeni tretji stranki.

Podatki, ki smo jih prejeli prek registracije, se obravnavajo zaupno, nikoli pa se ne dobavljajo nobeni tretji osebi. Osebni podatki (kot so ime ali elektronski naslov), ki jih dobimo, ko smo v stiku preko e- pošte, se uporabljajo samo za dopisovanje z zahtevanimi informacijami. Ne bomo prodajali, trgovali ali izposojali informacij kateri koli tretji osebi. Prosimo, upoštevajte, da je nemogoče zagotoviti, da se podatki, ki se prenašajo preko interneta, ne bodo prebrali ali spremenili z nepooblaščeno stranko.

Spletne strani družb vsebujejo kontaktne oblike, skozi katere lahko zagotovite svoje
informacije, vključno z naročilom v elektronski pošti ali za sodelovanje v sodelovanju z družbo. Osebno informacijo, ki jo zagotavljate podjetju, uporablja podjetje, da izpolni svoje obveznosti do vas in da bi omogočili, da dobite uradna obvestila, na katera ste vpisani.


Kaj lahko opazimo?

V primerjavi s strojnimi prevodi literature se celotno sporočilo v glavnem ohrani, napake pa so v manjših enotah (Bing besedo “rent” prevede kot “oddajati”, Yandex kot “izposojati”, pravilni prevod v tem kontekstu pa je “dajati v najem”) ali na nivoju ujemanja v spolu, sklonu in številu (“identifikacijski in z njim povezani podatki” namesto “identifikacijski in z njimi povezani podatki”). Google Translate je pri tem besedilu korak pred konkurenco, napake so manjše in jih je mogoče odpraviti že z minimalnimi popravki. Ostali trije so nekaj slabši: vsi imajo stavke in odstavke, kjer so zelo dobri, pri nekaterih drugih stavkih pa so težave večje.

Eden od pomembnih razlogov za takšno kakovost strojnega prevoda je zagotovo dejstvo, da je na internetu zelo veliko takih besedil in njihovih prevodov, kar pomeni, da imajo strojni prevajalniki veliko materiala za učenje. Pri manj običajnih besedilih (kot smo videli pri literaturi) je kakovost slabša. In nenazadnje, rezultati vseeno niso dovolj dobri za objavo, ampak jih mora pred tem pogledati človek, ker gre vendarle za besedilo, ki ima posebno pravno težo.

Ocene Aikwitove ekipe

Oglejmo si, kako smo v Aikwitu ocenili tri prevode na lestvici od 1 do 5. 1 pomeni povsem nerazumljiv prevod, 5 pa pomeni prevod, ki je po kakovosti enak uradnemu prevodu človeškega prevajalca.

 GoogleBingYandexIJS
Davorin432,52
Goran42,532
Damijan422,52
Andraž42,52,52,5
Povprečje4,002,502,6252,125

Hvala za pozornost in se vidimo v naslednji epizodi!

ŽELIM VEČ INFORMACIJ