11.01.2016 - Institute Seminar and Natural Language Processing Seminar - 13:00, Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik (ICS PAS)

11 01 2016 marciniak

Na seminarium Autorzy omówią zagadnienia ekstrakcji terminologii z korpusów tekstów w języku polskim oraz przedstawią program TermoPL, w którym zaimplementowane zostały zaproponowane rozwiązania. W omawianych pracach stosują oni metodę C-value, która ustala istotność terminów na podstawie ich częstości i liczby kontekstów. Metoda ta uwzględnia terminy zagnieżdżone – czyli takie, które są zawarte w dłuższych terminach. Niekiedy prowadzi to do ekstrakcji niepoprawnych semantycznie fraz (np. 'giełda papierów', 'USG jamy'). W celu eliminacji tego typu terminów Autorzy zaproponowali metodę, która w procesie wyodrębniania zagnieżdżonych fraz kieruje się siłą powiązań między słowami.

ATTENTION! This site uses cookies and similar technologies.

If you do not change your browser settings, you automatically agree to this.

I understand