If you're seeing this message, it means we're having trouble loading external resources on our website.

Jeżeli jesteś za filtrem sieci web, prosimy, upewnij się, że domeny *.kastatic.org i *.kasandbox.org są odblokowane.

Główna zawartość

Stronniczość w tłumaczeniach językowych

Złożoność ludzkiego języka zawsze stanowiła wyzwanie dla informatyków zainteresowanych rozpoznawaniem mowy, rozumieniem tekstu, tłumaczeniem i generowaniem tekstów w języku naturalnym.
Rozważmy problem tłumaczenia: na świecie jest prawie 200 krajów i tysiące języków, którymi posługują się ich obywatele. Już teraz, kiedy żyjemy w globalnej gospodarce, bardzo byśmy chcieli, żeby komputery potrafiły przynajmniej tłumaczyć pomiędzy pięcioma najpopularniejszymi językami.

Przed uczeniem maszynowym

Poszukiwania algorytmów tłumaczeniowych rozpoczęły się w latach 60 od Rule-Based Machine Translation. Algorytmy RBMT opierają się na gramatyce opisującej strukturę każdego języka oraz na słowniku słów. Aby przetłumaczyć zdanie, starają się przeanalizować je na podstawie gramatyki danego języka, przekształcić strukturę gramatyczną na język docelowy i przetłumaczyć słowa przy użyciu słownika.
Diagram of two parse trees for the same sentence across English and French. The English tree starts with a node labeled "NP" ("Noun Phrase"), which has three child nodes labeled "DET" ("Determiner"), "ADJ" ("Adjective"), and "N" ("Noun"). The "DET" node ends in the word "the", the "ADJ" node ends in the word "red", and the "N" node ends in the word "house". The French tree also starts with a node labeled "NP" which three child nodes. The first node is "DET", the second node is "N", and the third node is "ADJ". "DET" ends in the word "la", "N" ends in "maison", and "ADJ" ends in "rouge".
Tłumaczenie krótkiego zdania z angielskiego na francuski za pomocą RBMT.
Algorytmy RBMT wymagają pracy doświadczonych lingwistów przy analizie gramatyki, jednak ich tłumaczenia wciąż nie oddają złożoności ludzkiego języka. Naukowcy szukali lepszych opcji.
W latach 90 komputery nagle uzyskały dostęp do znacznie większej ilości danych w językach naturalnych. Zdigitalizowano miliony dokumentów tekstowych, jak książki i wiadomości, a wiele z nich zostało przetłumaczonych na wiele języków.
Przygody Harrego Pottera zostały przetłumaczone na ponad 70 języków, więc komputery mogły poznać tłumaczenie słowa „sowa” tylko poprzez porównanie tych tłumaczeń.
angielskipolski
We await your owl by no later than July 31.Na Twoją sowę czekamy najpóźniej do 31 lipca.
"What does it mean, they want my owl?"„Co to znaczy, że chcą mojej sowy?”
Wszystkie te nowe dane umożliwiły powstanie podejścia zwanego Statistical Machine Translation. Algorytmy SMT dzielą zdanie na mniejsze segmenty, szukają istniejących tłumaczeń tych segmentów i proponują najbardziej prawdopodobne tłumaczenie pełnego zdania.
Diagram of a statistically translated sentence. The Spanish phrase "Quiero ver la película" is displayed on top. Underneath "Quiero" are three English phrases "I want", "I love", and "I like". Underneath "ver" are three English infinitives "to see", "to watch", and "to meet". Underneath "la película" are three English phrases "the film", "the movie", and "the motion picture." A line goes from "I want" to "to watch" to "the movie".
Tłumaczenie krótkiego zdania z języka hiszpańskiego na angielski z wykorzystaniem SMT.
Przy małym zestawie danych treningowych, algorytmy SMT dają gorsze wyniki niż algorytmy RBMT. Jednakże, z dużymi zbiorami danych, algorytmy SMT mogą produkować dość płynne zdania, lub przynajmniej płynne frazy w zdaniach.

Podejście oparte na uczeniu maszynowym

W ostatnich latach popularność zdobył algorytm Neural Machine Translation. NMT to algorytm uczenia maszynowego, który trenuje sieci neuronowe na ogromnych ilościach danych. Kiedy są dobrze wyszkolone i mają wystarczająco dużo danych, te algorytmy mogą nauczyć się, jak produkować zdania, które są płynne od początku do końca.
Diagram of a neural network, with circles representing each neuron and lines representing connections between neurons. The network starts on the left with a column of 3 neurons labeled with words from an English phrase: "Let's", "go", and "dancing". Those neurons are connected to another column of 4 neurons, which itself connects to another column of 4, and those neurons are labeled "Hidden layers". The second hidden layer of neurons is connected to a column of 3 neurons labeled with Spanish words: "Vamos", "a", "bailar".

Tendencyjność tłumaczeń

Ponieważ NMT jest szkolony na przykładach, które mogą być tendencyjne, może odzwierciedlać te uprzedzenia w swoich tłumaczeniach. Kiedy Google Translate zaczął używać NMT, użytkownicy zauważyli stronniczość podczas tłumaczenia z języków niegenderowych na genderowe. 1
Przykład tłumaczenia czterech neutralnych pod względem płci zwrotów z języka tureckiego na język angielski:
Zrzut ekranu Google Translate UI z tłumaczeniem czterech neutralnych pod względem płci fraz z języka tureckiego na angielski. Angielskie frazy to: „Ona jest kucharzem”, „On jest inżynierem”, „On jest lekarzem” i „Ona jest pielęgniarką”.
Algorytm tłumaczący po prostu używał zaimków, które najczęściej kojarzyły się z danym zawodem, nie zdając sobie sprawy, że w ten sposób nauczył się seksistowskiego spojrzenia na świat.
Inżynierowie Google zmienili interfejs w taki sposób, aby zawsze pokazywał tłumaczenia z zaimkami żeńskimi i męskimi:
Zrzut ekranu Google Translate UI tłumaczenie „o bir doktor” z języka tureckiego na angielski. Tłumaczenia na język angielski sugerują zarówno „Ona jest lekarzem”, jak i „On jest lekarzem”.
Dzięki uczeniu maszynowemu możemy już tłumaczyć o wiele bardziej złożone frazy niż kiedykolwiek wcześniej, ale musimy również pamiętać, że dane szkoleniowe zawierają wszystkie uprzedzenia z naszej teraźniejszości i przeszłości. Twórcy systemów tłumaczeniowych mogą szukać sposobów na zwalczanie stronniczości algorytmów, natomiast użytkownicy tych systemów powinni patrzeć na wyniki krytycznym okiem.

🙋🏽🙋🏻‍♀️🙋🏿‍♂️Masz pytania związane z tym zagadnieniem? Możesz zadać swoje pytanie poniżej!

Chcesz dołączyć do dyskusji?

Na razie brak głosów w dyskusji
Rozumiesz angielski? Kliknij tutaj, aby zobaczyć więcej dyskusji na angielskiej wersji strony Khan Academy.