13.11.2023 - Seminarium Instytutowe — godz. 12:00

Łukasz Dębowski (Zespół Analizy i Modelowania Statystycznego IPI PAN)

Odnośnik do spotkania w MS Teams (nowe okno)

Streszczenie (autorskie):

Prawo Zipfa to najsłynniejsze prawo językoznawstwa ilościowego (lingwistyki kwantytatywnej). Głosi ono, że n-te co do częstości słowo w tekście pojawia się około n razy rzadziej niż słowo najczęstsze. Prawo Heapsa to pokrewne prawo empiryczne, które głosi, że liczba różnych słów w tekście rośnie w przybliżeniu jak potęga długości tekstu. Prawo Heapsa powinno być wnioskiem z prawa Zipfa, ale nim nie jest! Odstępstwa danych empirycznych od praw Zipfa i Heapsa są jednak systematyczne i dają się opisać przez dobrze znany nieparametryczny model urnowy. Mianowicie rozkład brzegowy słów w tekście wygląda, jakby słowa były losowane na ślepo bez zwracania z pewnej urny ze słowami. W swoim wystąpieniu przedstawię stosunkowo proste a zarazem dość dokładne parametryczne modele brzegowego rozkładu częstości słów w tekstach dowolnej długości. Pomysł oparty jest na modelowaniu frakcji hapaksów, czyli udziału słów, które pojawiają się jeden raz. Rozkład brzegowy uzyskujemy przez całkowanie i różniczkowanie tej funkcji.

Read more: 13.11.2023 - Seminarium Instytutowe


© 2021 INSTITUTE OF COMPUTER SCIENCE POLISH ACADEMY OF SCIENCES | Privacy policy | Accessibility declaration