Skip to main content

Seminaria ogólnoinstytutowe:

Informacje:

Poniedziałki, o godz. 12:00
Miejsce seminarium: sala seminaryjna IPI PAN
ul. Jana Kazimierza 5
e-mail: seminarium@ipipan.waw.pl

Archiwum Seminarium Ogólnoinstytutowego

06.02.2017 - Seminarium Instytutowe - godz. 13:00, Łukasz Dębowski (IPI PAN) 

20170206 Debowski

Maksymalne powtórzenie w tekście to maksymalna długość powtarzającego się podsłowa. Ta prosta statystyka jest przedmiotem zainteresowania probabilistów od roku 1970 i informatyków od roku 1999. Maksymalne powtórzenie można obliczyć w czasie liniowym w długości tekstu i, jak pokażę w moim referacie, z tempa wzrostu maksymalnego powtórzenia można wnioskować o intensywności entropii Renyiego ewentualnego procesu stochastycznego odpowiedzialnego za produkcję tekstów. Tezę tę zilustruję na przykładzie tekstów w języku naturalnym. Maksymalne powtórzenie w tekstach w języku naturalnym rośnie w przybliżeniu jak sześcian logarytmu długości tekstu. Z tej prostej obserwacji empirycznej wynika między innymi, że proces generowania tekstów w języku naturalnym ma zerową intensywność warunkowej entropii kolizji i nie może być ukrytym procesem Markowa, czyli nie zawiera się w klasie modeli powszechnie używanych w lingwistyce komputerowej. Skonstruuję alternatywne procesy stochastyczne, procesy RHA (random hierarchical association), dla których maksymalne powtórzenie rośnie jak w języku naturalnym. Modele te cechują się jednak zerową intensywnością entropii Shannona i z tego powodu nie mogą być dobrymi modelami języka. Problem ulepszenia statystycznych modeli języka stosowanych w lingwistyce komputerowej pozostaje zatem otwarty.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności