Skip to main content

Seminaria ogólnoinstytutowe:

Informacje:

Poniedziałki, o godz. 12:00
Miejsce seminarium: sala seminaryjna IPI PAN
ul. Jana Kazimierza 5
e-mail: seminarium@ipipan.waw.pl

21.05.2018 - Seminarium Instytutowe - godz. 13:00, Piotr Borkowski (IPI PAN) 

W przygotowywanej pracy doktorskiej zatytułowanej „Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych” zaproponowano oraz zbadano nowy algorytm semantycznej kategoryzacji dokumentów. Na jego podstawie opracowano nowy algorytm agregacji kategorii, rodzine algorytmów semantycznych klasyfikatorów a takze heterogeniczny komitet klasyfikatorów (łaczacy algorytm semantycznej kategoryzacji i znanych dotad klasyfikatorów). Wramach referatu przedstawie pokrótce ich koncepcje oraz wyniki badan ich skutecznosci.

Algorytm semantycznej kategoryzacji działa bez koniecznosci posiadania specjalnie przygotowanego zbioru uczacego – w jego przypadku wykorzystywane sa juz istniejace zasoby np Wikipedii lub inne dane tego typu, jak np angielskojezyczna struktura taksonomii biomedycznej MeSH. Struktury takie tworzone sa przez ludzi przy okazji innych zastosowan, tak wiec z tego punktu widzenia, nie potrzeba dodatkowo tworzyc specjalnych danych uczacych.

Na potrzeby konstrukcji algorytmu zaadaptowano miary semantycznego podobienstwa, które moga byc uzywane w tego rodzaju zasobach, w szczególnosci słuzyc do opracowanej na ich podstawie metody ujednoznaczniania. Stworzono algorytm do agregacji adaptacyjnej, który pozwala w sposób nienadzorowany rzutowac wyniki kategoryzacji do zbioru kategorii bardziej spójnego z punktu widzenia percepcji uzytkownika. Zaproponowano algorytm klasyfikacji semantycznej bazujacy na metodzie kategoryzacji. Poniewaz opiera sie on na semantyce tekstu, dobrze działa w przypadku tworzenia komitetów, jako dodatek do klasyfikatorów działajacych w oparciu o podejscie typu „worka słów”, szczególnie zas dobrze sprawdza sie w przypadku tekstów z luka semantyczna.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności