13.06.2022 - Seminarium "Przetwarzania Języka Naturalnego" - Instytut Podstaw Informatyki Polskiej Akademii Nauk

13.06.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Michał Ulewicz

+ - Semantic Role Labeling – dane i modele Click to collapse

Materiał wideo z seminarium

Otwórz wideo na YouTube "Seminarium instytutowe IPI PAN - Michał Ulewicz" (nowe okno)

Streszczenie (autorskie):

Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.

Seminaria w Instytucie Podstaw Informatyki PAN

Seminarium Instytutowe (Poniedziałki, o godz 12:00)

Inne seminaria:

Najbliższe seminaria:

13.06.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Michał Ulewicz