Povijest strojnog prevođenja od hladnog rata do dubokog učenja

Google Translate otvaram dvostruko češće od Facebooka i trenutni prijevod oznaka s cijenama za mene više nije cyberpunk. To nazivamo stvarnošću. Teško je zamisliti da je to rezultat stoljetne borbe za izgradnju algoritama strojnog prevođenja i da tijekom polovice tog razdoblja nije bilo vidljivog uspjeha.

Precizni događaji o kojima ću raspravljati u ovom članku postavljaju temelje svih suvremenih sustava za obradu jezika - od pretraživača do mikrovalnih pećnica s glasovnim upravljanjem. Govorim o evoluciji i strukturi internetskog prevođenja danas.

U početku

Priča započinje 1933. godine. Sovjetski je znanstvenik Peter Troyanskii Akademiji znanosti SSSR-a predstavio "stroj za odabir i ispis riječi pri prevođenju s jednog jezika na drugi". Izum je bio vrlo jednostavan - imao je kartice na četiri različita jezika, pisaću mašinu i filmsku kameru stare škole.

Operater je uzeo prvu riječ iz teksta, pronašao odgovarajuću karticu, fotografirao i na pisaći stroj otkucao njegove morfološke karakteristike (imenica, množina, genitiv). Tipke stroja kodirale su jednu od značajki. Traka i film kamere korišteni su istodobno, čineći niz okvira s riječima i njihovom morfologijom.

Unatoč svemu tome, kao što se često događalo u SSSR-u, izum se smatrao "beskorisnim". Trojanski je umro od Stenokardije nakon što je 20 godina pokušavao dovršiti svoj izum. Nitko na svijetu nije znao za stroj dok dva sovjetska znanstvenika nisu pronašla njegove patente 1956. godine.

Bilo je to na početku hladnog rata. 7. siječnja 1954. u sjedištu IBM-a u New Yorku započeo je eksperiment Georgetown – IBM. Računalo IBM 701 prvi je put u povijesti automatski prevelo 60 ruskih rečenica na engleski jezik.

“Djevojka koja nije razumjela ni riječ sovjetskog jezika izbacila je ruske poruke na IBM karticama. "Mozak" je svoje prijevode na engleski izbacio na automatskom pisaču vratolomnom brzinom od dvije i pol linije u sekundi “, - izvijestilo je IBM-ovo priopćenje.

Međutim, pobjedonosni naslovi skrivali su jedan mali detalj. Nitko nije spomenuo da su prevedeni primjeri pažljivo odabrani i testirani kako bi se isključila bilo kakva dvosmislenost. Za svakodnevnu uporabu taj sustav nije bio ništa bolji od džepnog rječnika. Ipak, pokrenuta je ova vrsta utrke u naoružanju: Kanada, Njemačka, Francuska, a posebno Japan, sve su se pridružile utrci za strojno prevođenje.

Utrka za strojno prevođenje

Uzaludne borbe za poboljšanje strojnog prevođenja trajale su četrdeset godina. Godine 1966. američki odbor ALPAC u svom poznatom izvješću nazvao je strojno prevođenje skupim, nepreciznim i neperspektivnim. Umjesto toga preporučili su da se usredotoče na razvoj rječnika, koji je američke istraživače eliminirao iz utrke gotovo desetljeće.

Unatoč tome, osnovu za suvremenu obradu prirodnog jezika stvorili su samo znanstvenici i njihovi pokušaji, istraživanja i razvoj. Sve današnje tražilice, filtri za neželjenu poštu i osobni asistenti pojavili su se zahvaljujući hrpi zemalja koje su špijunirale jedna drugu.

Strojno prevođenje na temelju pravila (RBMT)

Prve ideje oko strojnog prevođenja temeljenog na pravilima pojavile su se 70-ih. Znanstvenici su nadzirali rad tumača, pokušavajući natjerati silno troma računala da ponove te radnje. Ti su se sustavi sastojali od:

  • Dvojezični rječnik (RU -> EN)
  • Skup jezičnih pravila za svaki jezik (Na primjer, imenice koje se završavaju u određenim sufiksima kao što su -heit, -keit, -ung ženskog su roda)

To je to. Ako je potrebno, sustavi bi se mogli nadopuniti hakovima, poput popisa imena, ispravljača pravopisa i transliteratora.

PROMPT i Systran najpoznatiji su primjeri RBMT sustava. Dovoljno je pogledati Aliexpress da osjetite tihi dah ovog zlatnog doba.

Ali čak su i oni imali neke nijanse i podvrste.

Izravno strojno prevođenje

Ovo je najjednostavnija vrsta strojnog prevođenja. Tekst dijeli na riječi, prevodi ih, malo ispravlja morfologiju i usklađuje sintaksu kako bi cijela stvar, više ili manje, zvučala ispravno. Kad sunce zađe, obučeni lingvisti zapisuju pravila za svaku riječ.

Izlaz vraća neku vrstu prijevoda. Obično je prilično usrano. Čini se da su lingvisti uzalud trošili vrijeme.

Suvremeni sustavi uopće ne koriste ovaj pristup, a moderni su lingvisti zahvalni.

Strojno prevođenje na osnovi prijenosa

Za razliku od izravnog prevođenja, prvo se pripremamo određivanjem gramatičke strukture rečenice, kako su nas učili u školi. Tada poslije manipuliramo čitavim konstrukcijama, a ne riječima. To pomaže u sasvim pristojnoj konverziji reda riječi u prijevodu. U teoriji.

U praksi je to još uvijek rezultiralo doslovnim prijevodima i iscrpljivanjem lingvista. S jedne strane, donio je pojednostavljena opća gramatička pravila. Ali s druge strane, postalo je složenije zbog povećanog broja konstrukcija riječi u usporedbi s pojedinačnim riječima.

Međujezično strojno prevođenje

U ovoj se metodi izvorni tekst pretvara u posredni prikaz i objedinjava se za sve svjetske jezike (interlingua). To je ista ona interlingua o kojoj je Descartes sanjao: meta-jezik, koji slijedi univerzalna pravila i pretvara prijevod u jednostavan zadatak "naprijed-nazad". Dalje, interlingua će se pretvoriti u bilo koji ciljni jezik, i tu je bila singularnost!

Zbog pretvorbe, Interlingua se često miješa sa sustavima temeljenim na prijenosu. Razlika su u lingvističkim pravilima specifičnim za svaki pojedini jezik i međujezik, a ne u jezičnim parovima. To znači da u sustav interlingua možemo dodati treći jezik i prevoditi između sva tri. To ne možemo učiniti u sustavima temeljenim na prijenosu.

Izgleda savršeno, ali u stvarnom životu nije. Bilo je izuzetno teško stvoriti takav univerzalni interlingua - puno znanstvenika radilo je na njemu cijeli život. Nisu uspjeli, ali zahvaljujući njima sada imamo morfološku, sintaktičku, pa čak i semantičku razinu reprezentacije. Ali jedina teorija teksta značenja košta bogatstvo!

Vratit će se ideja srednjeg jezika. Pričekajmo malo.

Kao što vidite, svi RBMT-ovi su glupi i zastrašujući, i to je razlog zašto se rijetko koriste, osim u određenim slučajevima (poput prijevoda vremenskog izvještaja i tako dalje). Među prednostima RBMT-a često se spominju njegova morfološka točnost (ne zbunjuje riječi), ponovljivost rezultata (svi prevoditelji dobivaju isti rezultat) i sposobnost prilagođavanja predmetnom području (kako bi podučavali ekonomiste ili pojmove na primjer specifični za programere).

Čak i kad bi netko uspio stvoriti idealan RBMT, a lingvisti ga poboljšali svim pravopisnim pravilima, uvijek bi postojale neke iznimke: svi nepravilni glagoli na engleskom, odvojivi prefiksi na njemačkom, sufiksi na ruskom i situacije kada ljudi samo reci drugačije. Svaki pokušaj da se uzmu u obzir sve nijanse izgubio bi milijune radnih sati.

I ne zaboravite na homonime. Ista riječ može imati različito značenje u drugom kontekstu, što dovodi do različitih prijevoda. Koliko značenja ovdje možete uhvatiti: vidio sam čovjeka na brdu s teleskopom ?

Jezici se nisu razvili na temelju fiksnih skupova pravila - činjenica koju lingvisti vole. Na njih je mnogo više utjecala povijest invazija u posljednjih tristo godina. Kako biste to mogli objasniti stroju?

Četrdeset godina hladnog rata nije pomoglo u pronalaženju jasnog rješenja. RBMT je bio mrtav.

Primjer strojnog prevođenja (EBMT)

Japan je bio posebno zainteresiran za borbu za strojno prevođenje. Nije bilo hladnog rata, ali postojali su razlozi: vrlo je malo ljudi u zemlji znalo engleski. Obećalo je da će to biti prilično važno na predstojećoj stranci globalizacije. Tako su Japanci bili izuzetno motivirani pronaći radnu metodu strojnog prevođenja.

Engleski-japanski prijevod zasnovan na pravilima izuzetno je složen. Jezična je struktura potpuno drugačija i gotovo sve riječi moraju se preurediti i dodati nove. 1984. godine Makoto Nagao sa Sveučilišta Kyoto došao je na ideju da koristi gotove fraze umjesto ponovljenog prevođenja .

Zamislimo da moramo prevesti jednostavnu rečenicu - "Idem u kino". I recimo da smo već preveli još jednu sličnu rečenicu - "Idem u kazalište" - a riječ "kino" možemo pronaći u rječniku.

Sve što trebamo je shvatiti razliku između dvije rečenice, prevesti riječ koja nedostaje i onda je ne zeznuti. Što više primjera imamo, to je bolji prijevod.

Fraze na nepoznatim jezicima gradim na potpuno isti način!

EBMT je svjetlost dana ukazao znanstvenicima iz cijelog svijeta: ispada da stroj možete samo hraniti postojećim prijevodima i ne trošiti godine oblikujući pravila i iznimke. Još nije revolucija, ali očito je prvi korak ka tome. Revolucionarni izum statističkog prevođenja dogodio bi se za samo pet godina.

Statistički strojni prijevod (SMT)

Početkom 1990. u IBM-ovom istraživačkom centru prvi je put prikazan sustav za strojno prevođenje koji nije znao ništa o pravilima i lingvistici u cjelini. Analizirala je slične tekstove na dva jezika i pokušala razumjeti obrasce.

Ideja je bila jednostavna, ali lijepa. Identična rečenica na dva jezika podijeljena je u riječi, koje su se nakon toga podudarale. Ova se operacija ponovila oko 500 milijuna puta kako bi se, na primjer, prebrojalo koliko je puta riječ "Das Haus" prevedena kao "kuća" u odnosu na "zgradu" u odnosu na "izgradnju", i tako dalje.

Ako se većinu vremena izvorna riječ prevodila kao „kuća“, stroj je to koristio. Imajte na umu da nismo postavili nikakva pravila niti koristili bilo kakve rječnike - svi zaključci vršeni su strojno, vođeni statistikom i logikom da "ako ljudi tako prevode, i ja ću." I tako se rodio statistički prijevod.

Metoda je bila mnogo učinkovitija i točnija od svih prethodnih. I nisu bili potrebni jezikoslovci. Što smo više tekstova koristili, to smo dobili bolji prijevod.

Preostalo je još jedno pitanje: kako bi stroj povezao riječ "Das Haus" i riječ "zgrada" - i kako bismo znali da su to pravi prijevodi?

Odgovor je bio da ne bismo znali. Na početku je stroj pretpostavio da je riječ "Das Haus" podjednako povezana s bilo kojom riječi iz prevedene rečenice. Dalje, kad bi se "Das Haus" pojavio u drugim rečenicama, povećao bi se broj korelacija s "kućom". To je "algoritam za poravnavanje riječi", tipičan zadatak za strojno učenje na sveučilišnoj razini.

Stroju su trebali milijuni i milijuni rečenica na dva jezika kako bi prikupio relevantne statistike za svaku riječ. Kako smo ih dobili? Pa, odlučili smo uzeti sažetke sa sastanaka Europskog parlamenta i Vijeća sigurnosti Ujedinjenih naroda - bili su dostupni na jezicima svih zemalja članica, a sada su dostupni za preuzimanje na UN Corpora i Europarl Corpora.

Riječ-temeljen SMT

U početku su prvi statistički prijevodni sustavi djelili dijeljenjem rečenice na riječi, budući da je ovaj pristup bio izravan i logičan. Prvi IBM-ov model statističkog prevođenja nazvan je Model jedan. Sasvim elegantno, zar ne? Pogodite kako su zvali drugu?

Model 1: "vreća riječi"

Prvi se model služio klasičnim pristupom - dijelio se na riječi i brojao statistiku. Red riječi nije uzet u obzir. Jedini trik bio je prevođenje jedne riječi u više riječi. Na primjer, "Der Staubsauger" mogao bi se pretvoriti u "Usisavač", ali to nije značilo da će ispasti obrnuto.

Evo nekoliko jednostavnih implementacija u Pythonu: shawa / IBM-Model-1.

Model 2: razmatranje reda riječi u rečenicama

Nedostatak znanja o redoslijedu riječi u jezicima postao je problem za model 1, a u nekim je slučajevima vrlo važan.

Model 2 se time pozabavio: zapamtio je uobičajeno mjesto koje riječ zauzima u izlaznoj rečenici, a riječi je promiješao radi prirodnijeg zvuka u među koraku. Stvari su se popravile, ali i dalje su bile nekako usrane.

Model 3: dodatna plodnost

U prijevodu su se često pojavljivale nove riječi, poput članaka na njemačkom jeziku ili korištenja "do" kada se negira na engleskom. “Ich keine Persimonen” → “ Ne želim Persimmons.” Kako bi se riješili, u model 3 dodana su još dva koraka.

  • Umetanje NULL tokena, ako stroj smatra potrebnim novu riječ
  • Odabir prave gramatičke čestice ili riječi za svako poravnanje žetonske riječi

Model 4: poravnanje riječi

Model 2 razmatrao je poravnanje riječi, ali nije znao ništa o preuređivanju. Na primjer, pridjevi bi često mijenjali mjesta uz imenicu i bez obzira koliko je redoslijed dobro zapamćen, to ne bi poboljšalo izlaz. Stoga je Model 4 uzeo u obzir takozvani "relativni poredak" - model je naučio ako su se dvije riječi uvijek mijenjale.

Model 5: ispravci programskih pogrešaka

Ovdje nema ništa novo. Model 5 dobio je još neke parametre za učenje i riješio problem s oprečnim položajima riječi.

Unatoč svojoj revolucionarnoj prirodi, sustavi zasnovani na riječi još uvijek se nisu bavili slučajevima, rodom i homonimijom. Svaka je riječ prevedena na jedan istinit način, prema stroju. Takvi se sustavi više ne koriste jer su zamijenjeni naprednijim metodama temeljenim na frazama.

SMT na bazi fraza

Ova se metoda temelji na svim načelima prevođenja zasnovanim na riječima: statistika, preuređivanje i leksički hakovi. Iako je za učenje podijelio tekst ne samo na riječi već i na fraze. Točnije su to bili n-grami, koji su bili neprekidni slijed od n riječi u nizu.

Dakle, stroj je naučio prevesti stabilne kombinacije riječi, što je osjetno poboljšalo točnost.

Trik je bio u tome što fraze nisu uvijek bile jednostavne sintaksne konstrukcije, a kvaliteta prijevoda značajno je padala ako se miješao netko tko je bio svjestan lingvistike i strukture rečenica. Frederick Jelinek, pionir računalne lingvistike, jednom se tome našalio: "Svaki put kad otpustim lingvista, performanse prepoznavača govora se povećavaju."

Osim poboljšanja točnosti, prijevod temeljen na frazama pružio je više mogućnosti u odabiru dvojezičnih tekstova za učenje. Za prijevod zasnovan na riječima, točno podudaranje izvora bilo je kritično, što je isključilo bilo kakav književni ili besplatni prijevod. Prijevod zasnovan na frazama nije imao problema učiti od njih. Da bi poboljšali prijevod, istraživači su u tu svrhu čak počeli analizirati web stranice s vijestima na različitim jezicima.

Počevši od 2006. godine, svi su počeli koristiti ovaj pristup. Google Translate, Yandex, Bing i drugi visokokvalitetni mrežni prevoditelji radili su kao fraze sve do 2016. Svatko od vas vjerojatno se može prisjetiti trenutaka kada je Google rečenicu preveo besprijekorno ili je rezultirao potpunom glupošću, zar ne? Besmislice su dolazile od značajki temeljenih na frazama.

Dobri stari pristup zasnovan na pravilima dosljedno je pružao predvidljiv, ali užasan rezultat. Statističke metode bile su iznenađujuće i zagonetne. Google Translate bez imalo oklijevanja pretvara "tristo" u "300". To se naziva statistička anomalija.

Prevođenje temeljeno na frazama postalo je toliko popularno, da kad čujete "statistički strojni prijevod", na to se zapravo i misli. Sve do 2016. godine sve su studije hvalile prijevod temeljen na frazama kao najsuvremenije. Tada nitko nije ni pomislio da Google već potpiruje vatru, spremajući se promijeniti cijelu našu sliku strojnog prevođenja.

SMT zasnovan na sintaksi

Ukratko treba spomenuti i ovu metodu. Mnogo godina prije pojave neuronskih mreža, prijevod temeljen na sintaksi smatrao se "budućnošću ili prijevodom", ali ideja nije uzela maha.

Pristalice prijevoda temeljenog na sintaksi vjerovali su da ga je moguće spojiti s metodom koja se temelji na pravilima. Potrebno je napraviti prilično preciznu sintaksnu analizu rečenice - odrediti subjekt, predikat i druge dijelove rečenice, a zatim izgraditi stablo rečenica. Pomoću nje stroj uči pretvarati sintaktičke jedinice između jezika, a ostatak prevodi riječima ili frazama. To bi jednom zauvijek riješilo pitanje usklađivanja riječi.

Problem je u tome što sintaktičko raščlanjivanje djeluje strašno, unatoč činjenici da ga već neko vrijeme smatramo riješenim (jer imamo gotove biblioteke za mnoge jezike). Pokušao sam koristiti sintaktičko drveće za zadatke malo složenije nego za raščlanjivanje subjekta i predikata. I svaki put sam odustao i koristio drugu metodu.

Obavijestite me u komentarima ako ga uspijete barem jednom upotrijebiti.

Neuralno strojno prevođenje (NMT)

Prilično zabavan rad o korištenju neuronskih mreža u strojnom prijevodu objavljen je 2014. Internet to uopće nije primijetio, osim Googlea - izvadili su lopate i počeli kopati. Dvije godine kasnije, u studenom 2016., Google je objavio promjenu igre.

Ideja je bila bliska prenošenju stila između fotografija. Sjećate se aplikacija poput Prisme, koja je poboljšala slike u stilu nekog poznatog umjetnika? Nije bilo čarolije. Neuronska mreža naučena je prepoznavati umjetnikove slike. Zatim su uklonjeni posljednji slojevi koji sadrže odluku mreže. Rezultirajuća stilizirana slika bila je samo srednja slika koju je mreža dobila. To je fantazija mreže i mi je smatramo lijepom.

Ako stil možemo prenijeti na fotografiju, što ako pokušavamo izvornom tekstu nametnuti drugi jezik? Tekst bi bio taj precizni "umjetnikov stil", a mi bismo ga pokušali prenijeti zadržavajući suštinu slike (drugim riječima, bit teksta).

Zamislite da pokušavam opisati svog psa - prosječne veličine, oštrog nosa, kratkog repa, uvijek laje. Da sam vam dao ovaj skup značajki psa i ako je opis bio precizan, mogli biste ga nacrtati, iako ga nikada niste vidjeli.

Sada, zamislite da je izvorni tekst skup specifičnih značajki. U osnovi to znači da ga kodirate i dopustite drugoj neuronskoj mreži da ga dekodira natrag u tekst, ali na drugom jeziku. Dekoder zna samo svoj jezik. Nema pojma o podrijetlu značajki, ali ih može izraziti na, primjerice, španjolskom. Nastavljajući analogiju, nije važno kako nacrtati psa - bojicama, akvarelom ili prstom. Bojiš je kako možeš.

Još jednom - jedna neuronska mreža može samo kodirati rečenicu prema određenom skupu značajki, a druga ih može samo dekodirati natrag u tekst. Oboje nemaju pojma jedno o drugome i svatko od njih zna samo svoj jezik. Sjećate se nečega? Interlingua se vratila. Ta-da.

Pitanje je, kako možemo pronaći te značajke? Očito je kad govorimo o psu, ali kako se nositi s tekstom? Prije trideset godina znanstvenici su već pokušali stvoriti univerzalni jezični kod, a završio je potpunim neuspjehom.

Unatoč tome, sada duboko učimo. I to je njegov osnovni zadatak! Primarna razlika između dubokog učenja i klasičnih neuronskih mreža leži upravo u sposobnosti traženja tih specifičnih značajki, bez ikakve ideje o njihovoj prirodi. Ako je neuronska mreža dovoljno velika, a pri ruci je nekoliko tisuća grafičkih kartica, te je značajke moguće pronaći i u tekstu.

Teoretski, značajke dobivene od neuronskih mreža možemo prenijeti lingvistima, tako da oni sebi mogu otvoriti hrabre nove horizonte.

Pitanje je, koju vrstu neuronske mreže treba koristiti za kodiranje i dekodiranje? Konvolucijske neuronske mreže (CNN) savršeno se uklapaju u slike jer rade s neovisnim blokovima piksela.

Ali u tekstu nema nezavisnih blokova - svaka riječ ovisi o svojoj okolini. Tekst, govor i glazba uvijek su dosljedni. Dakle, ponavljajuće neuronske mreže (RNN) bile bi najbolji izbor za rukovanje njima, jer se sjećaju prethodnog rezultata - prethodne riječi, u našem slučaju.

Sada se RNN koriste svugdje - Sirijevo prepoznavanje govora (raščlanjivanje slijeda zvukova, pri čemu sljedeći ovisi o prethodnom), savjeti tipkovnice (zapamtite prethodnika, pogodite sljedećeg), generacija glazbe, pa čak i chatbotovi.

Za štrebere poput mene: zapravo se arhitektura neuronskih prevoditelja jako razlikuje. U početku je korišten redoviti RNN, a zatim je nadograđen na dvosmjerni, gdje je prevoditelj razmatrao ne samo riječi prije izvorne riječi, već i sljedeću riječ. To je bilo puno učinkovitije. Zatim je uslijedio tvrdi višeslojni RNN s LSTM jedinicama za dugoročno pohranjivanje prijevodnog konteksta.

U dvije su godine neuronske mreže nadmašile sve što se pojavilo u posljednjih 20 godina prevođenja. Neuralni prijevod sadrži 50% manje pogrešaka u redoslijedu riječi, 17% manje leksičkih pogrešaka i 19% manje gramatičkih pogrešaka. Neuronske su mreže čak naučile uskladiti rod i slučaj na različitim jezicima. I nitko ih tome nije naučio.

Najuočljivija poboljšanja dogodila su se na poljima gdje se izravni prijevod nikada nije koristio. Statističke metode strojnog prevođenja uvijek su radile koristeći engleski kao ključni izvor. Dakle, ako ste preveli s ruskog na njemački, stroj je prvo preveo tekst na engleski, a zatim s engleskog na njemački, što dovodi do dvostrukog gubitka.

Neuralnom prijevodu to nije potrebno - potreban je samo dekoder da bi mogao raditi. Tada je prvi put omogućen izravan prijevod između jezika bez uobičajenog rječnika.

Google prevoditelj (od 2016.)

Google je 2016. godine uključio neuronski prijevod za devet jezika. Razvili su svoj sustav nazvan Google Neural Machine Translation (GNMT). Sastoji se od 8 slojeva enkodera i 8 dekodera RNN-ova, kao i veze pažnje iz mreže dekodera.

Nisu podijelili samo rečenice, već i riječi. Tako su rješavali jedno od glavnih pitanja NMT-a - rijetke riječi. NMT-i su bespomoćni kad riječ nije u njihovom leksikonu. Recimo, “Vas3k”. Sumnjam da je itko naučio neuronsku mrežu prevesti moj nadimak. U tom slučaju GMNT pokušava riječi rastaviti na dijelove riječi i oporaviti njihov prijevod. Pametan.

Savjet: Google prevoditelj koji se koristi za prijevod web stranica u pregledniku i dalje koristi stari algoritam zasnovan na frazama. Google ga nekako nije nadogradio, a razlike su prilično primjetne u odnosu na internetsku verziju.

Google u internetskoj inačici koristi mehanizam za crowdfucing. Ljudi mogu odabrati verziju koju smatraju najispravnijom, a ako se sviđa puno korisnika, Google će uvijek prevesti ovu frazu na taj način i označiti je posebnom značkom. Ovo fantastično djeluje za kratke svakodnevne fraze poput: "Idemo u kino" ili "Čekam te". Google zna razgovorni engleski jezik bolje od mene :(

Microsoftov Bing radi točno kao Google Translate. Ali Yandex je drugačiji.

Yandex Translate (od 2017.)

Yandex je lansirao svoj sustav neuronskog prevođenja 2017. Njegova glavna značajka, kako je deklarirano, bila je hibridnost. Yandex kombinira neuronski i statistički pristup prevođenju rečenice, a zatim odabire najbolji sa svojim omiljenim CatBoost algoritmom.

Stvar je u tome što neuronsko prevođenje često ne uspijeva prilikom prevođenja kratkih fraza, jer koristi kontekst za odabir prave riječi. Bilo bi teško kada bi se riječ pojavila vrlo malo puta u podacima o treningu. U takvim slučajevima jednostavan statistički prijevod brzo i jednostavno pronalazi pravu riječ.

Yandex ne dijeli detalje. Bori nas s marketinškim priopćenjima. U REDU.

Čini se da Google koristi SMT za prijevod riječi i kratkih fraza. To ne spominju ni u jednom članku, ali sasvim je uočljivo ako pogledate razliku između prijevoda kratkih i dugih izraza. Osim toga, SMT se koristi za prikaz statistike riječi.

Zaključak i budućnost

Svi su još uvijek uzbuđeni zbog ideje o „babeljskoj ribi“ - trenutnom prijevodu govora. Google je napravio korake ka tome sa svojim Pixel Buds, ali zapravo to još uvijek nije ono o čemu smo sanjali. Trenutni prijevod govora razlikuje se od uobičajenog prijevoda. Morate znati kada početi prevoditi, a kada šutjeti i slušati. Još nisam vidio prikladne pristupe da to riješim. Osim ako, možda, Skype ...

I evo još jednog praznog područja: svo učenje je ograničeno na skup paralelnih blokova teksta. Najdublje neuronske mreže još uvijek uče u paralelnim tekstovima. Ne možemo poučavati neuronsku mrežu bez da joj pružimo izvor. Ljudi umjesto toga svoj leksikon mogu nadopuniti čitanjem knjiga ili članaka, čak i ako ih ne prevode na svoj materinji jezik.

Ako to ljudi mogu učiniti, u teoriji to može učiniti i neuronska mreža. Pronašao sam samo jedan prototip koji pokušava potaknuti mrežu koja poznaje jedan jezik da čita tekstove na drugom jeziku kako bi stekao iskustvo. I sam bih probao, ali sam blesav. Ok, to je to.

Ova je priča izvorno napisana na ruskom, a zatim je na Vas3k.com na Vas3k.com preveo Vasily Zubarev. On mi je prijatelj s olovkom i prilično sam sigurna da bi njegov blog trebalo širiti.

Korisni linkovi

  • Philipp Koehn: Statistički strojni prijevod. Najkompletnija zbirka metoda koje sam pronašao.
  • Moses - popularna knjižnica za stvaranje vlastitih statističkih prijevoda
  • OpenNMT - još jedna knjižnica, ali za neuronske prevoditelje
  • Članak jednog od mojih najdražih blogera koji objašnjava RNN i LSTM
  • Video "Kako napraviti prevoditelja za jezik", smiješan momak, uredno objašnjenje. Još uvijek nije dovoljno.
  • Tekstualni vodič iz TensorFlowa o stvaranju vlastitog neuronskog prevoditelja za one koji žele još primjera i isprobavanje koda.

Ostali članci s Vas3k.com

Kako funkcioniraju Ethereum i pametni ugovori

Distribuirani Turingov stroj s blockchain zaštitom vas3k.com Blockchain iznutra: kako Bitcoin djeluje

Jednom zauvijek jednostavnim riječima vas3k.com

Još jedna stvar…

Ako vam se svidio ovaj članak, kliknite ? ispod i podijelite ga s drugim ljudima kako bi i oni mogli uživati.