27.06.2016 - Seminarium Instytutowe - godz. 13:30, prof. dr hab. Jan Mielniczuk (IPI PAN)
Dla przypadku danych wysokowymiarowych, dla których liczba predyktorów jest większa od liczby obserwacji, rozważymy problem konstrukcji rzadkiego modelu predykcyjnego, czyli prostej i jednocześnie silnej zależności między małą liczbą predyktorów a zmienną zależną y.
Istotną trudnością jest tu złe uwarunkowanie problemu oraz częste wzajemne skorelowanie predyktorów, co powoduje, że filtracje oparte na sile zależności indywidualnych predyktorów z y nie prowadzą do satysfakcjonujących rozwiązań.
Jedną z możliwości stanowią metody wykorzystujące maksymalizację funkcji wiarogodności z karą indukującą rzadkość, takie, jak LASSO. Obecnie wiadomo, że LASSO wybiera zbyt duży zbiór zmiennych aktywnych, oraz że zmienne nieaktywne mogą być włączane do modelu przed zmiennymi aktywnymi. Problem ten usiłuje się rozwiązać przy użyciu innych kar, w tym kar quasi-wypukłych FCP.
W referacie przedstawię podejście SOS (Screening-Ordering-Selection), oparte na wstępnym wyborze zmiennych przy użyciu LASSO, dopasowaniu małego modelu używającego wybranych zmiennych, oraz wyborze ostatecznego zbioru zmiennych, które wykorzystuje uogólnione kryteria informacyjne.
Skupię się przede wszystkim na omówieniu zależności liniowych i odpowiedzi ilościowej, omawiając jednak krótko sytuację odpowiedzi binarnej i złej specyfikacji modelu.
Omawiane wyniki pochodzą z wspólnych prac z Piotrem Pokarowskim, Pawłem Teisseyre i Mariuszem Kubkowskim.
Transmisja dostępna online: (od godz. 13:30 - 27.06.2016)
Link bezpośredni: https://www.youtube.com/watch?v=0o_dgXFNhns