Główna zawartość
Podstawy informatyki - program rozszerzony
Kurs: Podstawy informatyki - program rozszerzony > Rozdział 5
Lekcja 3: Stronniczność w uczeniu maszynowymStronniczość w tłumaczeniach językowych
Złożoność ludzkiego języka zawsze stanowiła wyzwanie dla informatyków zainteresowanych rozpoznawaniem mowy, rozumieniem tekstu, tłumaczeniem i generowaniem tekstów w języku naturalnym.
Rozważmy problem tłumaczenia: na świecie jest prawie 200 krajów i tysiące języków, którymi posługują się ich obywatele. Już teraz, kiedy żyjemy w globalnej gospodarce, bardzo byśmy chcieli, żeby komputery potrafiły przynajmniej tłumaczyć pomiędzy pięcioma najpopularniejszymi językami.
Przed uczeniem maszynowym
Poszukiwania algorytmów tłumaczeniowych rozpoczęły się w latach 60 od Rule-Based Machine Translation. Algorytmy RBMT opierają się na gramatyce opisującej strukturę każdego języka oraz na słowniku słów. Aby przetłumaczyć zdanie, starają się przeanalizować je na podstawie gramatyki danego języka, przekształcić strukturę gramatyczną na język docelowy i przetłumaczyć słowa przy użyciu słownika.
Algorytmy RBMT wymagają pracy doświadczonych lingwistów przy analizie gramatyki, jednak ich tłumaczenia wciąż nie oddają złożoności ludzkiego języka. Naukowcy szukali lepszych opcji.
W latach 90 komputery nagle uzyskały dostęp do znacznie większej ilości danych w językach naturalnych. Zdigitalizowano miliony dokumentów tekstowych, jak książki i wiadomości, a wiele z nich zostało przetłumaczonych na wiele języków.
Przygody Harrego Pottera zostały przetłumaczone na ponad 70 języków, więc komputery mogły poznać tłumaczenie słowa „sowa” tylko poprzez porównanie tych tłumaczeń.
angielski | polski |
---|---|
We await your owl by no later than July 31. | Na Twoją sowę czekamy najpóźniej do 31 lipca. |
"What does it mean, they want my owl?" | „Co to znaczy, że chcą mojej sowy?” |
Wszystkie te nowe dane umożliwiły powstanie podejścia zwanego Statistical Machine Translation. Algorytmy SMT dzielą zdanie na mniejsze segmenty, szukają istniejących tłumaczeń tych segmentów i proponują najbardziej prawdopodobne tłumaczenie pełnego zdania.
Przy małym zestawie danych treningowych, algorytmy SMT dają gorsze wyniki niż algorytmy RBMT. Jednakże, z dużymi zbiorami danych, algorytmy SMT mogą produkować dość płynne zdania, lub przynajmniej płynne frazy w zdaniach.
Podejście oparte na uczeniu maszynowym
W ostatnich latach popularność zdobył algorytm Neural Machine Translation. NMT to algorytm uczenia maszynowego, który trenuje sieci neuronowe na ogromnych ilościach danych. Kiedy są dobrze wyszkolone i mają wystarczająco dużo danych, te algorytmy mogą nauczyć się, jak produkować zdania, które są płynne od początku do końca.
Tendencyjność tłumaczeń
Ponieważ NMT jest szkolony na przykładach, które mogą być tendencyjne, może odzwierciedlać te uprzedzenia w swoich tłumaczeniach. Kiedy Google Translate zaczął używać NMT, użytkownicy zauważyli stronniczość podczas tłumaczenia z języków niegenderowych na genderowe. start superscript, 1, end superscript
Przykład tłumaczenia czterech neutralnych pod względem płci zwrotów z języka tureckiego na język angielski:
Algorytm tłumaczący po prostu używał zaimków, które najczęściej kojarzyły się z danym zawodem, nie zdając sobie sprawy, że w ten sposób nauczył się seksistowskiego spojrzenia na świat.
Inżynierowie Google zmienili interfejs w taki sposób, aby zawsze pokazywał tłumaczenia z zaimkami żeńskimi i męskimi:
Dzięki uczeniu maszynowemu możemy już tłumaczyć o wiele bardziej złożone frazy niż kiedykolwiek wcześniej, ale musimy również pamiętać, że dane szkoleniowe zawierają wszystkie uprzedzenia z naszej teraźniejszości i przeszłości. Twórcy systemów tłumaczeniowych mogą szukać sposobów na zwalczanie stronniczości algorytmów, natomiast użytkownicy tych systemów powinni patrzeć na wyniki krytycznym okiem.
🙋🏽🙋🏻♀️🙋🏿♂️Masz pytania związane z tym zagadnieniem? Możesz zadać swoje pytanie poniżej!
Chcesz dołączyć do dyskusji?
Na razie brak głosów w dyskusji