13.11.2023 - Seminarium Instytutowe — godz. 12:00

Łukasz Dębowski (Zespół Analizy i Modelowania Statystycznego IPI PAN)

Odnośnik do spotkania w MS Teams (nowe okno)

Streszczenie (autorskie):

Prawo Zipfa to najsłynniejsze prawo językoznawstwa ilościowego (lingwistyki kwantytatywnej). Głosi ono, że n-te co do częstości słowo w tekście pojawia się około n razy rzadziej niż słowo najczęstsze. Prawo Heapsa to pokrewne prawo empiryczne, które głosi, że liczba różnych słów w tekście rośnie w przybliżeniu jak potęga długości tekstu. Prawo Heapsa powinno być wnioskiem z prawa Zipfa, ale nim nie jest! Odstępstwa danych empirycznych od praw Zipfa i Heapsa są jednak systematyczne i dają się opisać przez dobrze znany nieparametryczny model urnowy. Mianowicie rozkład brzegowy słów w tekście wygląda, jakby słowa były losowane na ślepo bez zwracania z pewnej urny ze słowami. W swoim wystąpieniu przedstawię stosunkowo proste a zarazem dość dokładne parametryczne modele brzegowego rozkładu częstości słów w tekstach dowolnej długości. Pomysł oparty jest na modelowaniu frakcji hapaksów, czyli udziału słów, które pojawiają się jeden raz. Rozkład brzegowy uzyskujemy przez całkowanie i różniczkowanie tej funkcji.

13.11.2023 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Piotr Rybak (Instytut Podstaw Informatyki PAN)

Odnośnik do spotkania w MS Teams (nowe okno)


Streszczenie (autorskie):

Mimo że odpowiadanie na pytania (ang. Question Answering) jest jednym z popularniejszych zagadnień przetwarzania języka naturalnego, to do niedawna było ono praktycznie nieobecne w polskim środowisku naukowym. Ostatnie lata przyniosły jednak rozkwit prac związanych z tym tematem. Podczas tego wystąpienia opowiem na czym polega zagadnienie odpowiadania na pytania, jak działają obecne systemy rozwiązujące ten problem, a także jakie zbiory danych oraz modele są dostępne dla języka polskiego. W szczególności opowiem o zasobach tworzonych w IPI PAN, czyli zbiorach danych !PolQA i !MAUPQA, oraz modelu Silver Retriever. Na koniec wskażę dalsze kierunki prac, które wciąż pozostają otwarte jeśli chodzi o odpowiadanie na pytania w języku polskim.

30.10.2023 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Agnieszka Faleńska (Uniwersytet w Stuttgarcie)

Odnośnik do spotkania w MS Teams (nowe okno)


Streszczenie (autorskie):

Dla wielu, systemy przetwarzania języka naturalnego (NLP) stały się codziennością. Ich zastosowania sięgają od automatycznego tłumaczenia dokumentów po asystentów osobistych obsługiwanych głosem. W ostatnich latach, ten rosnący wpływ narzędzi AI na życie ludzi wywołuje znaczące obawy dotyczące możliwych szkód, jakie mogą one wyrządzić.

W tej prezentacji rozpocznę od przedstawienia kilku przykładów takich szkodliwych zachowań i omówię ich potencjalne źródła. Będę argumentować, że problemy związane z uprzedzeniami w modelach NLP powinny być rozwiązywane poprzez rozwijanie naszego zrozumienia ich źródeł językowych. Następnie prezentacja skoncentruje się na trzech powszechnie używanych źródłach danych: Wikipedii, tekstach instruktażowych i forum dyskusyjnym. Poprzez te przykłady pokażę, że niezależnie od perspektywy (czy mówimy o kimś, do kogoś, czy jako ktoś), subtelne uprzedzenia są obecne we wszystkich tych zbiorach danych i mogą przyczynić się do szkodliwych efektów modeli NLP.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności