Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

COMBO – system do przetwarzania języka naturalnego dla ponad 40 języków




Artykuł pt. "COMBO: State-of-the-Art Morphosyntactic Analysis" ukazał się w materiałach konferencji Empirical Methods in Natural Language Processing, która odbyła się w listopadzie 2021 roku. Artykuł przedstawia COMBO – system do przetwarzania języka naturalnego, oparty o sieci neuronowe i służący do tagowania częściami mowy, analizy morfologicznej, lematyzacji i parsowania zależnościowego. System nie tylko przewiduje wartości kategorii gramatycznych, ale jednocześnie umożliwia zwracanie ich reprezentacji wektorowych. COMBO jest łatwym do zainstalowania pakietem w języku Python, który umożliwia trenowanie własnych modeli wstępnego przetwarzania języka albo automatyczne pobieranie pretrenowanych modeli dla ponad 40 języków. System był optymalizowany pod kątem zachowania balansu pomiędzy wydajnością a jakością. Jako rozwiązanie typu ,,end-to-end”, gdzie moduły są uczone w sposób łączny, COMBO oferuje szybki czas trenowania modelu dla danego języka z jednoczesnym zachowaniem jakości predykcji nierzadko przewyższającej konkurencyjne rozwiązania.

Biblioteka jest dostępna pod linkiem: https://gitlab.clarin-pl.eu/syntactic-tools/combo. Udostępniliśmy również webową wersję demonstracyjną COMBO: http://combo-demo.nlp.ipipan.waw.pl/combo-pl.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności