Jak odpowiedzieć na pytanie, czy system tłumaczenia automatycznego spełnia swoje zadanie, czyli tłumaczy teksty poprawnie, zachowując znaczenie oryginału? Jak porównać jakość dwóch systemów translacji, by wybrać do swych potrzeb ten lepszy? Na te pytania postaram się odpowiedzieć na niniejszym blogu.
Tłumaczenie może zostać ocenione przez człowieka. Stosuje się w takim przypadku pewną z góry zadaną skalę jakości – najczęściej pięciostopniową, na której ocena 5 oznacza jakość najwyższą. Tłumaczenie każdego zdania oceniane jest wtedy oddzielnie. Ostatecznie oblicza się średnią arytmetyczną ocen dla kompletu zdań. Często rozróżnia się przy tej okazji dwie składowe jakości: wierność tłumaczenia w stosunku do oryginału oraz poprawność/płynność tekstu wyjściowego.
Ocena ludzka jest jednak zadaniem pracochłonnym i kosztownym, a do tego ma ona subiektywny charakter. Znacznie tańsza, a przy tym niezależna od nastawienia człowieka, jest natomiast ocena automatyczna. Oceniany przekład porównywany jest z tzw. „złotym wzorcem”, czyli tłumaczeniem idealnym, opracowanym przez specjalistów. W wieku XX popularną miarą takiej oceny był współczynnik błędu WER (ang. Word Error Rate). W mierze tej oblicza się liczbę zmian: wstawienie, usunięcie lub zastąpienie wyrazu, które należy wykonać na zdaniu proponowanym przez system, aby uzyskać „złote” zdanie, a następnie dzieli się ją przez całkowitą liczbę wyrazów tłumaczonego zdania.
Przeanalizujmy powyższą metodę na konkretnym przykładzie:
Zdanie do tłumaczenia: Prawo zaskarżania nie przysługuje byłym członkom zarządu spółki.
„Złote tłumaczenie”: The right to appeal shall not be granted to former members of the management board.
Tłumaczenie proponowane przez system: The right of appeal is not available to former members of the management board.
Aby otrzymać „złote tłumaczenie” na podstawie tłumaczenia zwróconego przez system, trzeba dokonać zastąpienia trzech wyrazów: „of” → „to”, „is” → „be”, „available” → „granted” oraz wstawienia jednego wyrazu („shall”). Długość „złotego tłumaczenia” wynosi 15 wyrazów, a zatem wartość WER dla powyższego tłumaczenia dostarczonego przez system wynosi 4/15. Im wyższa wartość miary WER, tym oczywiście niższa jakość tłumaczenia.
Współcześnie najczęściej stosuje się miarę oceny BLEU (ang. Bilingual Evaluation Understudy), zaproponowaną w roku 2002 przez firmę IBM. Jej wartość jest wprost proporcjonalna do jakości tłumaczenia. Miara ta informuje, jaka część tłumaczenia systemu pokrywa się z tzw. „złotym wzorcem”. Na przykład w przedstawionym powyżej przykładzie pokrywają się fragmenty: „The right” oraz „to former members of the management board”, natomiast nie pokrywają się pozostałe elementy tłumaczenia. Wartość metryki BLEU zawiera się zawsze w granicach od 0 do 1 i często podawana jest w punktach procentowych.
Poniżej zaprezentowano tabele wyników konkursów na tłumaczenie wiadomości prasowych z warsztatu WMT (Workshop for Machine Translation) z lat 2017 i 2018. Na ich przykładzie zaobserwować można gwałtowny skok jakości systemów na przestrzeni jednego roku.
System | Miara BLEU |
---|---|
uedim-nmt | 37,00 |
KIT | 36,48 |
RWTH-nmt-ensemble | 35,09 |
online-A | 34,97 |
SYSTRAN | 34,88 |
online-B | 34,37 |
LIUM-NMT | 31,75 |
C-3MA | 30,64 |
online-G | 30,09 |
TALP-UPC | 29,95 |
online-F | 19,49 |
System | Miara BLEU |
---|---|
RWTH | 50,17 |
UCAM | 49,88 |
NTT | 48,71 |
JHU | 47,57 |
MLLP-UPV | 47,51 |
uedin | 45,87 |
Ubiqus-NMT | 45,57 |
online-B | 45,47 |
online-A | 43,34 |
LMU-nmt | 43,17 |
online-Y | 41,69 |
NJUNMT-private | 39,72 |
online-G | 36,39 |
online-F | 23,86 |
RWTH-UNSUPER | 20,35 |
LMU-unsup | 19,12 |
W roku 2018 grupa badaczy z Uniwersytetu im. Adama Mickiewicza w Poznaniu we współpracy z firmą POLENG przeprowadziła dwa eksperymenty, których celem była ocena jakości tłumaczenia z języka polskiego i na ten język tekstów z określonej dziedziny.
W przypadku pierwszego eksperymentu dziedzina tłumaczenia określona została w sposób ogólnikowy, a liczba tekstów uczących dostarczonych przez klienta była stosunkowo niewielka. Inżynierowie firmy POLENG samodzielnie zebrali teksty niezbędne do uzupełnienia zestawu uczącego na potrzeby wytrenowania systemu.
Ostatecznie w zestawie uczącym znalazło się:
System wytrenowano w kierunkach: polsko-angielskim oraz angielsko-polskim, a wyniki eksperymentu w punktach procentowych miary BLEU zawiera poniższa tabela:
tłumaczenie polsko-angielskie | tłumaczenie angielsko-polskie |
---|---|
35,80 | 39,90 |
Efekty tłumaczenia poddano ponadto ocenie ludzkiej, w ramach której na skali od 1 do 5 oceniono ok. 500 zdań, biorąc pod uwagę dwa aspekty: wierność przekładu oraz jego poprawność. Uzyskano następujące rezultaty:
aspekt | tłumaczenie polsko-angielskie | tłumaczenie angielsko-polskie |
---|---|---|
wierność | 4,23 | 3,90 |
poprawność | 3,94 | 3.74 |
Zauważmy, że automatyczna miara BLEU wyżej oceniła tłumaczenie w kierunku angielsko-polskim, a człowiek – w kierunku odwrotnym. Mogło to wynikać z faktu, że oceny dokonywała osoba narodowości polskiej, która bardziej krytycznie podchodziła do tłumaczeń w języku rodzimym.
Drugi z eksperymentów przeprowadzono na zestawie uczącym o rozmiarze 1,2 mln zdań – dostarczonych wyłącznie przez klienta. W ramach powyższego eksperymentu porównano z kolei działanie dwóch translatorów: neuronowego oraz statystycznego dla kierunku angielsko-polskiego. Podobnej oceny dokonano poza tym dla systemu Google Translate, przeznaczonego do tłumaczenia tekstów ogólnych. Celem badania było sprawdzenie, która z metod tłumaczenia zapewnia lepsze efekty w przypadku stosunkowo niewielkiej bazy tekstów trenujących.
Otrzymano następujące wyniki:
system | wynik wg metryki BLEU |
---|---|
statystyczny | 55,23 |
neuronowy | 51,66 |
Google Translate | 21,37 |
Oba systemy wytrenowane na tekstach specjalistycznych zapewniły przeszło dwukrotnie lepszy wynik od rezultatu uzyskanego w przypadku systemu przeznaczonego do tłumaczenia ogólnego. Wyniki osiągnięte w oparciu o niewielki korpus specjalistyczny okazały się ponadto lepsze od rezultatów uzyskanych w poprzednim z opisywanych eksperymentów – na potrzeby którego system wyuczono z zastosowaniem obszerniejszego zestawu uczącego tekstów z szerzej określonej dziedziny.
Zaskakujący był przy okazji fakt uzyskania lepszego wyniku przez system statystyczny w porównaniu z rezultatami działania systemu neuronowego. Wobec powyższego postanowiono przeprowadzić dodatkową ocenę ludzką. W jej ramach dwoje niezależnych weryfikatorów dokonało porównania wyników translacji dostarczonych przez oba systemy – bez świadomości, który z systemów wygenerował poszczególne przekłady. Dla każdej spośród 4 000 par tłumaczeń weryfikator wskazywał zwycięski przekład lub też orzekał remis. W efekcie otrzymano następujące rezultaty:
zwycięzca | liczba zdań | procentowo |
---|---|---|
tłumaczenie statystyczne | 829 | 20,73% |
tłumaczenie neuronowe | 1248 | 31,20% |
remisy | 1923 | 48,08% |
W ocenie ludzkiej metoda neuronowa wyraźnie pokonała metodę statystyczną. Okazuje się zatem, że metoda neuronowa daje w ocenie ludzkiej lepsze efekty, niż wskazywałaby na to automatyczna miara BLEU. Ten znany już wcześniej fakt tłumaczony jest specyficzną konstrukcją miary BLEU, która faworyzuje tłumaczenia „poprawne lokalnie”. Tłumaczenie neuronowe nastawione jest natomiast bardziej na analizę powiązań pomiędzy wyrazami od siebie odległymi.
Jakość tłumaczenia automatycznego cały czas wzrasta. Można więc spodziewać się, że translacja automatyczna będzie zdobywać coraz większą część rynku. Tłumaczenie automatyczne stosowane będzie przede wszystkim do przekładu tekstów dziedzinowych i specjalistycznych. Człowiek pozostanie natomiast niezastąpiony w tłumaczeniu tekstów ogólnych lub różnorodnych. W przypadku tłumaczenia specjalistycznego człowiek koncentrować będzie się raczej na post-edycji tekstów zaproponowanych przez komputer.
Technologią dominującą przynajmniej przez kilka następnych lat pozostanie tłumaczenie neuronowe, a ciągły postęp osiągany będzie dzięki dalszemu rozwojowi architektury sieci neuronowych.