11.01.2016 - Seminarium Instytutowe i Seminarium Przetwarzanie języka naturalnego -godz. 13:00, Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (IPI PAN)
Na seminarium Autorzy omówią zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawią program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach stosują oni metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów Autorzy zaproponowali metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami.