Wysokiej jakości tłumaczenie maszynowe, dostępne dzięki COMET

Wysokiej jakości tłumaczenie maszynowe, dostępne dzięki COMET

Ludzkie języki są tak różnorodne i złożone, jak ich jest mnóstwo, z ponad 6900 różnymi językami używanymi na całym świecie. Subtelności i niuanse różnych języków - od czasu przez ton po idiom - sprawiają, że tłumaczenie między nimi jest jednym z największych i najciekawszych wyzwań, jakie podjęliśmy jako gatunek.

Ta złożoność jest również powodem, dla którego wielu od dawna wierzy, że tłumaczenie maszynowe po prostu nigdy nie sprosta wymaganiom jakości ludzkiej, a nawet nie zbliży się do tego tłumaczenia.

Spędziłem kilka ostatnich dziesięcioleci studiując przetwarzanie języka naturalnego. Zbadałem i opracowałem algorytmy obliczeniowe i procesy tworzenia automatycznych systemów tłumaczeniowych oraz oceny ich dokładności i wydajności. Te doświadczenia pozwoliły mi zrozumieć, że rynek potrzebuje nowej struktury i miernika do automatycznej oceny tłumaczenia maszynowego.

Zawsze będziemy potrzebować ludzi do pomocy w tworzeniu i trenowaniu systemów tłumaczenia maszynowego, identyfikowaniu i poprawianiu błędów oraz wprowadzaniu korekt do danych i algorytmów używanych do ich szkolenia i udoskonalania. Jednak nasz najnowszy projekt COMET (Crosslingual Optimized Metric for Evaluation of Translation) oferuje nowe podejście do pomiaru i poprawy jakości MT w czasie. Właśnie przedstawiliśmy artykuł badawczy opisujący naszą innowacyjną pracę na konferencji EMNLP-2020 w listopadzie. Nasze wyniki w artykule wykazały, że COMET jest obecnie najnowocześniejszy. COMET został również niedawno zatwierdzony jako miernik o najwyższej wydajności podczas piątej konferencji poświęconej tłumaczeniu maszynowemu w 2020 r. (WMT20).

W tym poście wyjaśnię, dlaczego to ma znaczenie, podzielę się tym, jak działa COMET i przekonam, że wysokiej jakości MT jest nie tylko teoretycznie możliwe, ale jest bliższe rzeczywistości niż kiedykolwiek.

Jakość tłumaczenia ma znaczenie, ponieważ liczą się klienci

Jakość MT ma znaczenie, ponieważ liczą się klienci - czyli ludzie. Każda firma, która chce przetrwać i prosperować w 2020 roku i później, musi rozważyć, w jaki sposób będzie docierać do klientów i wspierać ich w ich ojczystych językach. W końcu 40 procent klientów nie kupi w innych językach. 96% klientów na całym świecie twierdzi, że obsługa klienta jest kluczowym czynnikiem przy wyborze marek, które preferują i którym są lojalni w zakresie swoich produktów i usług.

Umożliwienie globalnego biznesu i zapewnienie wysokiej jakości obsługi klienta bez względu na język, którym mówią, jest racją bytu Brutalk. Nasz ostateczny cel? Pokonaj globalne bariery językowe i kulturowe i stań się światową warstwą tłumaczeniową.

Może się to wydawać wyniosłe, ale to misja, w którą wierzymy.

Jak więc osiągnąć wysoką jakość MT? Zaczyna się od skutecznego sposobu pomiar dokładność i jakość każdego tłumaczenia. Jak mówi dobrze znane przysłowie: „nie możesz poprawić tego, czego nie możesz zmierzyć”.

Oczywiście jednym z wielu wyzwań związanych z mierzeniem jakości tłumaczenia jest to, że język jest niejednoznaczny i subiektywny. Nie oznacza to jednak, że jakości tłumaczenia nie można zmierzyć.

Powszechnym podejściem do ilościowego określania dokładności tłumaczenia jest poproszenie tłumaczy i osób dwujęzycznych o identyfikację i ocenę błędów w tłumaczeniu na podstawie ich wagi.

Na przykład:

  • Drobne problemy: Nie wpływają na cel ani na zrozumiałość, ale mogą sprawić, że treść będzie mniej atrakcyjna lub natywna.
  • Główne kwestie: Wpływają na cel lub zrozumiałość, ale podstawowe znaczenie i ogólny cel tekstu źródłowego są zachowane po przetłumaczeniu.
  • Krytyczne problemy: Powodują poważne zmiany lub pominięcia o zasadniczym znaczeniu i niosą ze sobą ryzyko negatywnych skutków, które mogą mieć konsekwencje dla zdrowia, bezpieczeństwa, prawne lub finansowe.

W ostatnich latach pojawił się jeden dobrze rozwinięty model kategoryzacji i punktacji błędów tłumaczenia, znany jako „Wielowymiarowe wskaźniki jakości (MQM)”. Mając takie podstawowe ramy, możemy zacząć mierzyć jakość tłumaczenia, nawet uznając, że sam język jest subiektywny i zazwyczaj nie ma jednego prawidłowego „złotego standardu” w tłumaczeniu. MQM jest niezwykle przydatne do wykrywania i kwantyfikacji błędów, ale wymaga przeszkolonych ekspertów. Dlatego jest powolny i drogi. Oznacza to, że ma ograniczoną wartość jako narzędzie pomiaru i kierowania szkoleniem i rozwojem nowoczesnych systemów tłumaczenia maszynowego o wysokiej dokładności. W tym celu potrzebujemy automatycznego miernika jakości tłumaczenia, który może generować oceny jakości, które dokładnie korelują z ocenami ekspertów, takimi jak MQM.

Tam, gdzie obecne wskaźniki jakości tłumaczenia maszynowego są niewystarczające

W ciągu ostatnich 20 lat opracowano kilka różnych zautomatyzowanych metryk do pomiaru jakości tłumaczenia maszynowego, z różnym skutkiem. Powszechnie stosowane wskaźniki, takie jak BLEU, chrF i METEOR - ten ostatni, który sam wymyśliłem około 16 lat temu - zostały dogłębnie zbadane i ulepszone. Chociaż wskaźniki te są bardzo przydatne na wcześniejszych etapach MT, są obecnie w dużej mierze przestarzałe i mają ograniczoną wartość przy obecnej technologii sztucznej inteligencji, która napędza MT.

Więc gdzie im się nie udało? Do tej pory miary oceny jakości MT opierały się na ocenie podobieństwa między tłumaczeniem generowanym maszynowo a tłumaczeniem odniesienia generowanym przez człowieka. Skupili się na podstawowych funkcjach na poziomie leksykalnym. Zasadniczo oznacza to zliczanie pasujących znaków, słów lub fraz między MT a tłumaczeniem referencyjnym. Jednak z założenia w dużej mierze nie potrafią rozpoznać i uchwycić podobieństwa semantycznego poza poziomem leksykalnym.

Podstawowym problemem jest to, że te podejścia nie wychwytują semantycznego podobieństwa między tłumaczeniem generowanym przez MT a tłumaczeniem odniesienia przez człowieka na poziomie wystarczającym do dokładnego dopasowania ilościowych ocen ludzkich ekspertów (takich jak MQM). Teraz, gdy nasze systemy MT są znacznie lepsze niż wcześniej, te wcześniejsze wskaźniki często nie rozróżniają już poprawnie lepszych i gorszych tłumaczeń, a co za tym idzie, lepszych i gorszych systemów translacji.

Ścieżka COMET i dlaczego ją uruchomiliśmy

COMET to nowa struktura neuronowa (czyli zestaw algorytmów) do uczenia i uruchamiania wielojęzycznych modeli oceny MT. To fajny sposób na powiedzenie, że jest to nowy system, który może pomóc w ocenie i przewidywaniu jakości tłumaczeń generowanych maszynowo na wiele różnych języków.

Oto, co sprawia, że ​​jest nowy i inny: COMET został zaprojektowany, aby się tego nauczyć przewidywać ludzkie osądy jakości MT. Czyni to za pomocą systemu neuronowego, aby najpierw odwzorować tłumaczenie wygenerowane przez MT, tłumaczenie odniesienia i tekst w języku źródłowym na neuronowe reprezentacje znaczenia. Następnie wykorzystuje te reprezentacje, aby nauczyć się przewidywać wynik jakości, który jest wyraźnie zoptymalizowany pod kątem korelacji z ludzkimi ocenami jakości tłumaczenia.

Powstały model neuronowy może być następnie użyty jako miara do oceny jakości dowolnego konkretnego silnika MT i automatyzacji procesu oceny jakości (zamiast wymagać od eksperta człowieka do dodawania adnotacji do każdego tłumaczenia). Uzupełniamy to podejście o okresowe adnotacje dotyczące ludzkich wielowymiarowych metryk jakości (MQM) w celu walidacji jakości oraz potwierdzania i ulepszania przewidywań COMET w czasie. Jak powiedziałem wcześniej, ludzie zawsze będą na bieżąco - i to nie jest złe!

COMET nie był wcześniej możliwy. Wykorzystuje niedawne przełomy w wielkoskalowym międzyjęzykowym modelowaniu języków neuronowych, czego wynikiem są wielojęzyczne i adaptowalne modele oceny MT, niepodobne do niczego, co dotychczas widział świat.

COMET stosuje również unikalne podejście polegające na włączeniu informacji zarówno z tekstu źródłowego, jak i tłumaczenia referencyjnego na język docelowy, aby dokładniej przewidzieć jakość MT. Podczas naszej oceny COMET stwierdziliśmy, że nasze modele wyszkolone w ramach platformy znacznie przewyższały wszystkie inne metryki pod względem ich korelacji z ocenami ludzkimi. COMET można również dostosować i zoptymalizować, aby uwzględnić różne rodzaje ocen jakości MT (takich jak wyniki MQM lub odległość po edycji).

Innymi słowy, jesteśmy coraz bliżej możliwości dokładnej oceny jakości tłumaczenia zarówno przy użyciu maszyny, jak i człowieka.

Jedną z najfajniejszych rzeczy w COMET jest to, że pomaga nam zrozumieć, które modele MT działają najlepiej. Nawet najnowsze informacje na temat oceny MT mają trudności z rozróżnieniem systemów o najwyższej wydajności. COMET może dokładnie zidentyfikować lepszy system, nawet jeśli wydajność obu systemów jest bardzo podobna. Zapewni to bardzo przydatne narzędzie do ciągłego ulepszania MT, ponieważ możemy teraz łatwo rozróżnić modele i wybrać lepszy.

Jak zdobyć COMET

Właśnie wydaliśmy wersję open source platformy COMET i wyszkoliliśmy modele, aby przynosić korzyści szerszej społeczności MT, i będziemy nadal rozwijać i ulepszać te modele przez następny rok. Kod jest dostępny pod adresem https://github.com/Brutalk/COMET. Jest łatwy w instalacji i uruchomieniu, zachęcamy wszystkich programistów i użytkowników MT do samodzielnego wypróbowania!

Klienci Brutalk odniosą bezpośrednie korzyści z COMET, ponieważ będziemy go używać do udoskonalania modeli i systemów, z których korzystamy z biegiem czasu, oraz do ciągłego doskonalenia jakości naszych tłumaczeń dla zespołów obsługi klienta. (Tak, tutaj jemy własną karmę dla psów!)

Mamy nadzieję, że COMET stanie się nowym standardowym miernikiem do pomiaru jakości modeli MT.

Tak jak my to widzimy, kiedy próbujesz zestrzelić METEOR - możesz po prostu wylądować na KOMETZE.

Może Cię również zainteresować:

Możesz być również zainteresowany