Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

Instytut na 3 Kongresie "Nauka dla społeczeństwa"


Kongres Nauka dla Społeczeństwa - logo

3. Kongres Nauka dla Społeczeństwa 

Podczas 3. Kongresu "Nauka dla społeczeństwa" organizowanego w dniach 27-28 maja na Politechnice Warszawskiej pracownicy Instytutu Podstaw Informatyki Polskiej Akademii Nauk zaprezentowali swoje osiągnięcia badawcze, które mają duży potencjał wdrożeniowy:

  • PLLuM (Polish Large Language Model) – rodzina polskich modeli językowych dla sektora publicznego i prywatnego
  • MCFS-ID: Ranking, identyfikacja istotnych cech i analiza współzależności w danych molekularnych o wysokim wymiarze
  • ANSI – sztuczna inteligencja w wykrywaniu podwójnej jakości produktów

Za ww. wdrożenia Instytut został uhonorowany wyróżnieniami otrzymanymi z rąk Dr Karoliny Zioło-Pużuk, Wiceminister Nauki i Szkolnictwa Wyższego.

Więcej…Instytut na 3 Kongresie "Nauka dla społeczeństwa"

Rusza rekrutacja do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych PAN


16 czerwca rusza rekrutacja do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych Instytutów PAN (TIBPAN). TIBPAN prowadzi kształcenie interdyscyplinarne przygotowujące do uzyskania stopnia doktora w następujących dyscyplinach:

  • informatyka techniczna i telekomunikacja,
  • inżynieria biomedyczna,
  • nauki medyczne.

Termin nadsyłania zgłoszeń na adres Instytutu Podstawowych Problemów Techniki PAN mija 27 czerwca 2025 r.

Więcej…Szkoła Doktorska TIB PAN - rekrutacja 2025

Warsztaty krajowe LDS w Polsce


Black ribbon  

European Language Data Space oraz Institute of Computer Science, Polish Academy of Sciences zapraszają do udziału w warsztacie o europejskim rynku danych językowych i roli danych w rozwijaniu sztucznej inteligencji w Polsce.

Kiedy? 📆 29 maja (czwartek) w godz. 🕙 10:00–14:30
Gdzie? 🏢 Przedstawicielstwo Komisji Europejskiej W Polsce, 🗺️ ul. Jasna 14/16 Warszawa

O czym będziemy rozmawiać? Przede wszystkim o polskim spojrzeniu na europejski rynek danych, uwarunkowaniach prawnych i powstawaniu modeli i narzędzi AI w oparciu o dane.

Liczba miejsc ograniczona – zapraszamy do zgłaszania chęci uczestnictwa osoby zainteresowane tematem.

Wystąpią: Dariusz Standerski, PhD, Pamela Krzypkowska, Edouard Geoffrois, Wojciech Wysocki, Mateusz S., Katrin Marheinecke, Maciej Ogrodniczuk, Jakub Turowski, Aleksandra Tomaszewska, Adam Polanowski, Michał Nowakowski, PhD, Katarzyna Z. Staroslawska. Panel dyskusyjny poprowadzi Anna Wittenberg.

Link do agendy i rejestracji tutaj.

Polski otwarty wielki model językowy (PLLuM) gotowy do działania


PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. Modele stworzone przez polskich ekspertów i ekspertki z dziedziny IT i lingwistyki, wesprą rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie. Ministerstwo Cyfryzacji zaprezentowało polski model językowy PLLuM oraz plan jego rozwoju. Od dziś model dostępny jest dla każdego.

Polski model językowy jest elastyczny i skalowalny – wykorzystuje od 8 do 70 miliardów parametrów. Pozwala na precyzyjne generowanie treści w języku polskim. Mniejsze wersje dobrze sprawdzają się w szybkich zadaniach, podczas gdy większe modele oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego. W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze MoE (ang. Mixture of Experts) ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).

Bazuje na etycznym pozyskiwaniu danych – wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum, a także zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu. Modele naukowe (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.

Dostrajany na autorskich zbiorach danych, czyli dziesiątkach tysięcy tzw. instrukcji – pobudzeń (promptów) i oczekiwanych odpowiedzi modelu – oraz preferencji – pobudzeń i różnych odpowiedzi modeli ocenionych pod kątem jakościowym – tworzonych przez zespół ponad 50 specjalistów i specjalistek.

Budowanie ekosystemu polskich modeli językowych. Wspólnie z modelem Bielik mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by #AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. Projekt realizowany był do tej pory przez konsorcjum sześciu podmiotów:

  • Politechnika Wrocławska (lider projektu)
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
  • Ośrodek Przetwarzania Informacji (OPI-PIB)
  • Uniwersytet Łódzki

Więcej…Polski otwarty wielki model językowy (PLLuM) gotowy do działania

Podpisanie umowy na realizację CLARIN-PL w ramach finansowania FENG


Black ribbon  

Black ribbon  

Z przyjemnością informujemy, że 31 stycznia 2025 roku została podpisana umowa na realizację projektu „CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna”, który uzyskał dofinansowanie w ramach 2. Priorytetu Programu Fundusze Europejskie dla Nowoczesnej Gospodarki 2021–2027 (FENG). Całkowita wartość projektu wynosi 61 141 241,03 zł, wysokość wkładu Funduszy Europejskich to 48 669 499,44 zł. Projekt jest realizowany w okresie od 1 stycznia 2025 r. do 31 grudnia 2027 r. Wartość zadań realizowanych przez Instytut Podstaw Informatyki PAN wynosi 3 667 490,19 zł dofinansowania z Programu FENG. 

Projekt ma za zadanie rozwój narzędzi i rozwiązań wspierających naukowców i przedsiębiorców w dostępie do zaawansowanych zasobów językowych i technologicznych. Głównym celem niniejszego projektu jest rozszerzenie infrastruktury badawczej CLARIN-PL w stosunku do stanu na koniec roku 2023 (czyli ukończenia projektu CLARIN-PL-Biz z POIR 4.2. oraz projektów CLARIN-PL I-IV jak również planowanych rezultatów CLARIN-PL V w zakresie:

  • poprawy możliwości wspierania badań naukowych i działań innowacyjnych w obszarach analityki zbiorów,
  • danych językowych i dostępu do zgromadzonej w nich wiedzy,
  • wydobywania informacji,
  • rozwiązań spersonalizowanych uwzględniających różne perspektywy postrzegania oraz
  • rozwiązań dla naturalnej i efektywnej komunikacji w języku naturalnym.

Zespół Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN realizuje w projekcie kilka zadań wykorzystujących nowoczesne technologie do głębszego zrozumienia języka i poprawy jakości komunikacji w świecie cyfrowym.

Tworzenie korpusów językowych

Zadania korpusowe obejmują budowę specjalistycznych zbiorów tekstów, takich jak korpusy relacji międzyzdaniowych, korpusy danych publicznych (np. stenogramy posiedzeń samorządów), korpusy terminologii dziedzinowej oraz korpus struktur predykatowo-argumentowych. Korpusy te mogą być wykorzystane do dalszych badań lingwistycznych, trenowania modeli językowych oraz analizie semantycznej tekstu.

Analiza kontekstowa opinii i wykrywanie mowy nienawiści

Zadania te skupiają się na zaawansowanej analizie tekstu, wykorzystując uczenie maszynowe i sieci neuronowe. Pierwsze z nich bada wydźwięk opinii w konkretnych kontekstach, np. jakości, ceny czy bezpieczeństwa produktów. Drugie skupia się na identyfikacji mowy nienawiści i treści obraźliwych.

Narzędzia do przetwarzania języka naturalnego

Zadania narzędziowe mają na celu automatyczne przetwarzanie tekstu w wielu aspektach, takich jak wykrywanie wyrażeń terminologicznych, analiza składniowo-semantyczna oraz integracja z platformą Korpusomat. Do realizacji tych zadań wykorzystywane są nowoczesne metody, w tym modele neuronowe.

Zastosowania praktyczne

Opracowywane narzędzia i zasoby mogą znaleźć zastosowanie w wielu dziedzinach, od komercyjnych, takich jak analiza opinii klientów, poprzez nauki społeczne (badanie polaryzacji opinii), administrację (przetwarzanie dokumentów publicznych) czy edukację (wykorzystanie zasobów językowych w nauczaniu).


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności