16.05.2022 - Seminarium "Przetwarzania Języka Naturalnego" - Instytut Podstaw Informatyki Polskiej Akademii Nauk

16.05.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Inez Okulska, Anna Zawadzka, Michał Szczyszek, Anna Kołos (NASK)

+ - Efekt(ywność) stylu, czyli jak i po co kodować wskaźniki morfosyntaktyczne całych dokumentów Click to collapse

Materiał wideo z seminarium

Otwórz wideo na YouTube "Seminarium instytutowe IPI PAN - Inez Okulska, Anna Zawadzka, Michał Szczyszek, Anna Kołos (NASK)" (nowe okno)

Streszczenie (autorskie):

A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.

Seminaria w Instytucie Podstaw Informatyki PAN

Seminarium Instytutowe (Poniedziałki, o godz 12:00)

Inne seminaria:

Najbliższe seminaria:

16.05.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Inez Okulska, Anna Zawadzka, Michał Szczyszek, Anna Kołos (NASK)