Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

28.04.2025 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Manfred Stede (Uniwersytet Poczdamski)

Odnośnik do spotkania w MS Teams (nowe okno)


Streszczenie (autorskie):

The talk gives a brief introduction to Rhetorical Structure Theory (RST, Mann/Thompson 1988) and then explains the design decisions for the Potsdam Commentary Corpus (PCC), which brings together RST, coreference, and other annotation layers on 175 German news editorials. After illustrating cross-layer queries on the corpus in the ANNIS linguistic database, we turn to the intricacies of manual RST annotation. I will give an overview of the annotation guidelines and their motivations, and present results from an (ongoing) study on annotator disagreements, from which we derive ideas for redesigning the annotation scheme (and potentially the underlying theory), with a comparison to the recent proposal of "eRST" by Zeldes et al. (2025). In the last part of the talk, I outline our results on automatic parsing using the system by Ji and Eisenstein (2014).

Więcej…28.04.2025 - Seminarium "Przetwarzania Języka Naturalnego"

Zapytanie ofertowe nr EZ.26.6.2025
Projekt księgi identyfikacji wizualnej Dariah-hub
oraz projekt strony internetowej i innych grafik


Barwy KPO, flaga RP, NextGenerationEU
Przedmiot zamówienie finansowany z projektu:
„Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL”
w ramach Inwestycji A2.4.1 Inwestycje w rozbudowę potencjału badawczego Krajowego Planu Odbudowy i Zwiększania Odporności,
umowa nr KPOD.01.18-IW.03-0013/23.

Więcej…Zapytanie ofertowe nr EZ.26.6.2025

Zapytanie ofertowe nr EZ.26.8.2025
Opracowanie drzew składniowych dla 2000 zdań polskich
na podstawie rozbiorów wygenerowanych automatycznie


Barwy KPO, flaga RP, NextGenerationEU
Przedmiot zamówienie finansowany z projektu:
„Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL”
w ramach Inwestycji A2.4.1 Inwestycje w rozbudowę potencjału badawczego Krajowego Planu Odbudowy i Zwiększania Odporności,
umowa nr KPOD.01.18-IW.03-0013/23.

Więcej…Zapytanie ofertowe nr EZ.26.8.2025

Zapytanie ofertowe nr EZ.26.7.2025
Dostawa laptopów oraz monitorów – terminale dostępu
do infrastruktury DARIAH-PL


Barwy KPO, flaga RP, NextGenerationEU
Przedmiot zamówienie finansowany z projektu:
„Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL”
w ramach Inwestycji A2.4.1 Inwestycje w rozbudowę potencjału badawczego Krajowego Planu Odbudowy i Zwiększania Odporności,
umowa nr KPOD.01.18-IW.03-0013/23.

Więcej…Zapytanie ofertowe nr EZ.26.7.2025

Polski otwarty wielki model językowy (PLLuM) gotowy do działania


PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. Modele stworzone przez polskich ekspertów i ekspertki z dziedziny IT i lingwistyki, wesprą rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie. Ministerstwo Cyfryzacji zaprezentowało polski model językowy PLLuM oraz plan jego rozwoju. Od dziś model dostępny jest dla każdego.

Polski model językowy jest elastyczny i skalowalny – wykorzystuje od 8 do 70 miliardów parametrów. Pozwala na precyzyjne generowanie treści w języku polskim. Mniejsze wersje dobrze sprawdzają się w szybkich zadaniach, podczas gdy większe modele oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego. W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze MoE (ang. Mixture of Experts) ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).

Bazuje na etycznym pozyskiwaniu danych – wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum, a także zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu. Modele naukowe (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.

Dostrajany na autorskich zbiorach danych, czyli dziesiątkach tysięcy tzw. instrukcji – pobudzeń (promptów) i oczekiwanych odpowiedzi modelu – oraz preferencji – pobudzeń i różnych odpowiedzi modeli ocenionych pod kątem jakościowym – tworzonych przez zespół ponad 50 specjalistów i specjalistek.

Budowanie ekosystemu polskich modeli językowych. Wspólnie z modelem Bielik mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by #AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. Projekt realizowany był do tej pory przez konsorcjum sześciu podmiotów:

  • Politechnika Wrocławska (lider projektu)
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
  • Ośrodek Przetwarzania Informacji (OPI-PIB)
  • Uniwersytet Łódzki

Więcej…Polski otwarty wielki model językowy (PLLuM) gotowy do działania


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności