Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

Maksymalizacja informacji, minimalizacja kosztów: Optymalna selekcja zmiennych w klasyfikacji wieloetykietowej


W czasopiśmie Pattern Recognition ukazał się artykuł współautorstwa Tomasza Kloneckiego, studenta Szkoły Doktorskiej TIB PAN, dra Pawła Teisseyre z Instytutu Podstaw Informatyki PAN oraz Prof. Jaesunga Lee (Chung-Ang University, Rebublic of Korea), pt. "Cost-constrained feature selection in multilabel classification using an information-theoretic approach".

W pracy autorzy zaproponowali nową metodę doboru zmiennych do modelu klasyfikacji wieloetykietowej. Klasyfikacja wieloetykietowa dotyczy sytuacji w której przewiduje się wiele zmiennych celu jednocześnie (na przykład różne choroby u pacjenta) na podstawie zmiennych objaśniających. W przeciwieństwie do istniejących podejść, opisana metoda umożliwia uwzględnienie informacji o kosztach związanych z pozyskaniem wartości zmiennych. Algorytm opiera się na wykorzystaniu aparatu teorii informacji do zdefiniowania miary istotności.

Opisany w pracy problem selekcji zmiennych z uwzględnieniem informacji o ich kosztach ma duże znaczenie praktyczne, szczególnie w zastosowaniach medycznych gdzie pozyskanie wartości zmiennych wiąże się często z bardzo dużymi kosztami (wykonanie testów lub badań diagnostycznych). Przedstawiona metoda może być zastosowana w połączeniu z dowolnym modelem klasyfikacji (klasyfikatory liniowe, sieci neuronowe). Może być rekomendowana w sytuacji kiedy budżet na pozyskanie wartości zmiennych jest ograniczony.

Praca podsumowuje część badań prowadzonych przez Tomasza Kloneckiego w ramach przygotowania pracy doktorskiej.

Artykuł jest dostępny na stronach wydawnictwa Elsevier: doi: 10.1016/j.patcog.2023.109605.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności