Automatyczne generowanie wielu etykietowanych zestawów danych testowych
W czasopiśmie Machine Learning ukazał się artykuł współautorstwa prof. Mieczysława Kłopotka z Instytutu Podstaw Informatyki PAN, pt. "On the Discrepancy between Kleinberg’s Clustering Axioms and k-Means Clustering Algorithm Behavior".
Zbadano, przyczyny niezgodności algorytmu k-średnich z aksjomatami Kleinberga analizy skupień. Powodem jest niezgodność między nieformalnymi intuicjami a formalnymi sformułowaniami tych aksjomatów. W artykule pokazano sposób pogodzenia k-średnich z wymogiem spójności Kleinberga poprzez wprowadzenie spójności centrycznej, która nie jest ani podzbiorem, ani nadzbiorem spójności Kleinberga, ale raczej specyficzną adaptacją do modelu k-średnich ogólnej idei kurczenia skupień. Co więcej, jeśli aksjomaty mają być stosowane w sposób ciągły, to spójność centryczna jest znacznie mniej restrykcyjnym wymaganiem dla algorytmów grupowania niż spójność Kleinberga.
Wkładem pracy z teoretycznego punktu widzenia jest stworzenie solidnego systemu aksjomatycznego dla k-średnich i ich pochodnych (w tym z adaptacyjnym k). Z praktycznego punktu widzenia stworzona została dla generatora danych testowych dla implementacji algorytmów tej klasy. Mianowicie z jednego etykietowanego zestawu danych testowego można – za pomocą centrycznej transformacji spójności – stworzyć automatycznie wiele różnych etykietowanych zestawów danych.
Artykuł jest dostępny na licencji Open Access na stronach wydawnictwa Springer: doi: 10.1007/s10994-023-06308-x.