Skip to main content

Zamówienia Publiczne Instytutu Podstaw Informatyki PAN

Nowe metody klasyfikacji dla danych z niepełną obserwowalnością


Zespół Analizy i Modelowania Statystycznego osiągnął istotne wyniki dotyczące dwóch nowych metod uczenia maszynowego dla danych z niepełną dostępnością etykiet (dane typu Positive Unlabeled) w istotnym dla zastosowań przypadku, gdy ich dostępność jest zależna od charakterystyk badanych jednostek. W pierwszej zaproponowanej metodzie badano nowy parametryczny model generacji tego typu danych i iteracyjną procedurę estymacji jego parametrów. Druga metoda bazuje na koncepcji wariacyjnych autoenkoderów w połączeniu z technikami wykrywania obserwacji odstających. Poza teoretycznym uzasadnieniem metod, pokazano eksperymentalnie istotnie lepszą jakość wynikowych klasyfikatorów dla danych tabularycznych i obrazowych.

Obie metody zostały przedstawione na międzynarodowej konferencji European Conference on Artificial Intelligence, ECAI 2023, która odbyła się w Krakowie w dniach 30.09-04.10.2023.

Nowe metody klasyfikacji dla danych z niepełną obserwowalnością


Zespół Analizy i Modelowania Statystycznego osiągnął istotne wyniki dotyczące dwóch nowych metod uczenia maszynowego dla danych z niepełną dostępnością etykiet (dane typu Positive Unlabeled) w istotnym dla zastosowań przypadku, gdy ich dostępność jest zależna od charakterystyk badanych jednostek.

Praca "Double logistic regression approach to biased positive-unlabeled data" dotyczy metod wnioskowania w problemie klasyfikacji z niepełną obserwowalnością (positive-unlabeld data), w której tylko część obserwacji z klasy pozytywnej jest etykietowana, pozostałe natomiast nie są etykietowane. Tego typu dane są często spotykane w biologii, medycynie, systemach rekomendacyjnych oraz problemie tagowania stron internetowych. W zastosowaniach szczególne znaczenie ma sytuacja rozważana w pracy, gdy etykietowanie zależy od charakterystyk obiektu. Koncepcja wykorzystuje podejście parametryczne do problemu, w którym zarówno prawdopodobieństwo aposteriori klasy dodatniej jak i funkcja skłonności do etykietowania są modelowane przy użyciu modelu logistycznego. W pracy rozstrzygnięto kwestię identyfikowalności parametrów takiego modelu, zaproponowano metodę ich estymacji oraz pokazano, że jest ona skuteczna w praktyce.

W pracy "One-class classification approach to variational learning from biased positive unlabelled data" rozważano inne podejście do tego samego problemu oparte na minimalizacji ryzyka empirycznego i nie wymagające jawnego modelowania funkcji skłonności do etykietowania. Metoda opiera się na wykorzystaniu uczenia wariacyjnych autoenkoderów w połączeniu z metodami detekcji obserwacji odstających, co pozwala wyróżnić w grupie obserwacji nietykietowanych obserwacje, które z dużym prawdopodobieństwem pochodzą z klasy dodatniej. Zaimplementowana metoda daje dużą poprawę działania wynikowych klasyfikatorów w stosunku do poprzednio zaproponowanych metod, szczególnie dla niskich prawdopodobieństw etykietowania.

Obie metody zostały przedstawione na międzynarodowej konferencji European Conference on Artificial Intelligence (ECAI) i opublikowane w jej materiałach:


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności