22.03.2021 - Seminarium Instytutowe - godz. 12:00 seminarium on-line
Streszczenie (autorskie):
Referat będzie poświęcony problemowi klasyfikacji z niepełną obserwowalnością zmiennej odpowiedzi typu PU (positive and unlabelled). W tradycyjnym problemie klasyfikacji binarnej, celem jest zbudowanie modelu który przypisuje obserwacji jedną z dwóch klas: pozytywną lub negatywną na podstawie cech opisujących daną obserwację. Zakłada się że zbiór uczący, na podstawie którego dopasowuje się model, zawiera obserwacje pozytywne oraz negatywne. W problemie PU, zbiór danych uczących zawiera obserwacje które mają przypisaną etykietę pozytywną, zaś pozostałe obserwacje nie mają przypisanej etykiety. Na przykład w zastosowaniach medycznych, obserwacje niemające przypisanej klasy, mogą odpowiadać pacjentom u których nie zdiagnozowano choroby. Brak diagnozy nie oznacza jednak że choroba nie występuje. Podczas prezentacji przedstawię formalny opis problemu, podstawowe definicje i fakty oraz interesujące wyzwania związane z danymi PU. Pokażę w jaki sposób można zaadoptować popularny model regresji logistycznej dla danych PU.