13.06.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Michał Ulewicz

Streszczenie (autorskie):

Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności