Skip to main content

23.05.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Karolina Stańczak (Uniwersytet Kopenhaski)


Streszczenie (autorskie):

Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności