06.02.2017 - Seminarium Instytutowe - godz. 13:00, Łukasz Dębowski (IPI PAN)
Maksymalne powtórzenie w tekście to maksymalna długość powtarzającego się podsłowa. Ta prosta statystyka jest przedmiotem zainteresowania probabilistów od roku 1970 i informatyków od roku 1999. Maksymalne powtórzenie można obliczyć w czasie liniowym w długości tekstu i, jak pokażę w moim referacie, z tempa wzrostu maksymalnego powtórzenia można wnioskować o intensywności entropii Renyiego ewentualnego procesu stochastycznego odpowiedzialnego za produkcję tekstów. Tezę tę zilustruję na przykładzie tekstów w języku naturalnym. Maksymalne powtórzenie w tekstach w języku naturalnym rośnie w przybliżeniu jak sześcian logarytmu długości tekstu. Z tej prostej obserwacji empirycznej wynika między innymi, że proces generowania tekstów w języku naturalnym ma zerową intensywność warunkowej entropii kolizji i nie może być ukrytym procesem Markowa, czyli nie zawiera się w klasie modeli powszechnie używanych w lingwistyce komputerowej. Skonstruuję alternatywne procesy stochastyczne, procesy RHA (random hierarchical association), dla których maksymalne powtórzenie rośnie jak w języku naturalnym. Modele te cechują się jednak zerową intensywnością entropii Shannona i z tego powodu nie mogą być dobrymi modelami języka. Problem ulepszenia statystycznych modeli języka stosowanych w lingwistyce komputerowej pozostaje zatem otwarty.