CLARIN-PL finansowany z FENG - Instytut Podstaw Informatyki Polskiej Akademii Nauk

Podpisanie umowy na realizację CLARIN-PL w ramach finansowania FENG

Z przyjemnością informujemy, że 31 stycznia 2025 roku została podpisana umowa na realizację projektu „CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna”, który uzyskał dofinansowanie w ramach 2. Priorytetu Programu Fundusze Europejskie dla Nowoczesnej Gospodarki 2021–2027 (FENG). Całkowita wartość projektu wynosi 61 141 241,03 zł, wysokość wkładu Funduszy Europejskich to 48 669 499,44 zł. Projekt jest realizowany w okresie od 1 stycznia 2025 r. do 31 grudnia 2027 r. Wartość zadań realizowanych przez Instytut Podstaw Informatyki PAN wynosi 3 667 490,19 zł dofinansowania z Programu FENG.

Projekt ma za zadanie rozwój narzędzi i rozwiązań wspierających naukowców i przedsiębiorców w dostępie do zaawansowanych zasobów językowych i technologicznych. Głównym celem niniejszego projektu jest rozszerzenie infrastruktury badawczej CLARIN-PL w stosunku do stanu na koniec roku 2023 (czyli ukończenia projektu CLARIN-PL-Biz z POIR 4.2. oraz projektów CLARIN-PL I-IV jak również planowanych rezultatów CLARIN-PL V w zakresie:

poprawy możliwości wspierania badań naukowych i działań innowacyjnych w obszarach analityki zbiorów,
danych językowych i dostępu do zgromadzonej w nich wiedzy,
wydobywania informacji,
rozwiązań spersonalizowanych uwzględniających różne perspektywy postrzegania oraz
rozwiązań dla naturalnej i efektywnej komunikacji w języku naturalnym.

Zespół Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN realizuje w projekcie kilka zadań wykorzystujących nowoczesne technologie do głębszego zrozumienia języka i poprawy jakości komunikacji w świecie cyfrowym.

Tworzenie korpusów językowych

Zadania korpusowe obejmują budowę specjalistycznych zbiorów tekstów, takich jak korpusy relacji międzyzdaniowych, korpusy danych publicznych (np. stenogramy posiedzeń samorządów), korpusy terminologii dziedzinowej oraz korpus struktur predykatowo-argumentowych. Korpusy te mogą być wykorzystane do dalszych badań lingwistycznych, trenowania modeli językowych oraz analizie semantycznej tekstu.

Analiza kontekstowa opinii i wykrywanie mowy nienawiści

Zadania te skupiają się na zaawansowanej analizie tekstu, wykorzystując uczenie maszynowe i sieci neuronowe. Pierwsze z nich bada wydźwięk opinii w konkretnych kontekstach, np. jakości, ceny czy bezpieczeństwa produktów. Drugie skupia się na identyfikacji mowy nienawiści i treści obraźliwych.

Narzędzia do przetwarzania języka naturalnego

Zadania narzędziowe mają na celu automatyczne przetwarzanie tekstu w wielu aspektach, takich jak wykrywanie wyrażeń terminologicznych, analiza składniowo-semantyczna oraz integracja z platformą Korpusomat. Do realizacji tych zadań wykorzystywane są nowoczesne metody, w tym modele neuronowe.

Zastosowania praktyczne

Opracowywane narzędzia i zasoby mogą znaleźć zastosowanie w wielu dziedzinach, od komercyjnych, takich jak analiza opinii klientów, poprzez nauki społeczne (badanie polaryzacji opinii), administrację (przetwarzanie dokumentów publicznych) czy edukację (wykorzystanie zasobów językowych w nauczaniu).

Aktualności Instytutu Podstaw Informatyki PAN

Podpisanie umowy na realizację CLARIN-PL w ramach finansowania FENG