Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

Polski otwarty wielki model językowy (PLLuM) gotowy do działania


PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. Modele stworzone przez polskich ekspertów i ekspertki z dziedziny IT i lingwistyki, wesprą rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie. Ministerstwo Cyfryzacji zaprezentowało polski model językowy PLLuM oraz plan jego rozwoju. Od dziś model dostępny jest dla każdego.

Polski model językowy jest elastyczny i skalowalny – wykorzystuje od 8 do 70 miliardów parametrów. Pozwala na precyzyjne generowanie treści w języku polskim. Mniejsze wersje dobrze sprawdzają się w szybkich zadaniach, podczas gdy większe modele oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego. W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze MoE (ang. Mixture of Experts) ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).

Bazuje na etycznym pozyskiwaniu danych – wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum, a także zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu. Modele naukowe (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.

Dostrajany na autorskich zbiorach danych, czyli dziesiątkach tysięcy tzw. instrukcji – pobudzeń (promptów) i oczekiwanych odpowiedzi modelu – oraz preferencji – pobudzeń i różnych odpowiedzi modeli ocenionych pod kątem jakościowym – tworzonych przez zespół ponad 50 specjalistów i specjalistek.

Budowanie ekosystemu polskich modeli językowych. Wspólnie z modelem Bielik mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by #AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. Projekt realizowany był do tej pory przez konsorcjum sześciu podmiotów:

  • Politechnika Wrocławska (lider projektu)
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
  • Ośrodek Przetwarzania Informacji (OPI-PIB)
  • Uniwersytet Łódzki

Więcej…Polski otwarty wielki model językowy (PLLuM) gotowy do działania

Podpisanie umowy na realizację CLARIN-PL w ramach finansowania FENG


Black ribbon  

Black ribbon  

Z przyjemnością informujemy, że 31 stycznia 2025 roku została podpisana umowa na realizację projektu „CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna”, który uzyskał dofinansowanie w ramach 2. Priorytetu Programu Fundusze Europejskie dla Nowoczesnej Gospodarki 2021–2027 (FENG). Całkowita wartość projektu wynosi 61 141 241,03 zł, wysokość wkładu Funduszy Europejskich to 48 669 499,44 zł. Projekt jest realizowany w okresie od 1 stycznia 2025 r. do 31 grudnia 2027 r. Wartość zadań realizowanych przez Instytut Podstaw Informatyki PAN wynosi 3 667 490,19 zł dofinansowania z Programu FENG. 

Projekt ma za zadanie rozwój narzędzi i rozwiązań wspierających naukowców i przedsiębiorców w dostępie do zaawansowanych zasobów językowych i technologicznych. Głównym celem niniejszego projektu jest rozszerzenie infrastruktury badawczej CLARIN-PL w stosunku do stanu na koniec roku 2023 (czyli ukończenia projektu CLARIN-PL-Biz z POIR 4.2. oraz projektów CLARIN-PL I-IV jak również planowanych rezultatów CLARIN-PL V w zakresie:

  • poprawy możliwości wspierania badań naukowych i działań innowacyjnych w obszarach analityki zbiorów,
  • danych językowych i dostępu do zgromadzonej w nich wiedzy,
  • wydobywania informacji,
  • rozwiązań spersonalizowanych uwzględniających różne perspektywy postrzegania oraz
  • rozwiązań dla naturalnej i efektywnej komunikacji w języku naturalnym.

Zespół Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN realizuje w projekcie kilka zadań wykorzystujących nowoczesne technologie do głębszego zrozumienia języka i poprawy jakości komunikacji w świecie cyfrowym.

Tworzenie korpusów językowych

Zadania korpusowe obejmują budowę specjalistycznych zbiorów tekstów, takich jak korpusy relacji międzyzdaniowych, korpusy danych publicznych (np. stenogramy posiedzeń samorządów), korpusy terminologii dziedzinowej oraz korpus struktur predykatowo-argumentowych. Korpusy te mogą być wykorzystane do dalszych badań lingwistycznych, trenowania modeli językowych oraz analizie semantycznej tekstu.

Analiza kontekstowa opinii i wykrywanie mowy nienawiści

Zadania te skupiają się na zaawansowanej analizie tekstu, wykorzystując uczenie maszynowe i sieci neuronowe. Pierwsze z nich bada wydźwięk opinii w konkretnych kontekstach, np. jakości, ceny czy bezpieczeństwa produktów. Drugie skupia się na identyfikacji mowy nienawiści i treści obraźliwych.

Narzędzia do przetwarzania języka naturalnego

Zadania narzędziowe mają na celu automatyczne przetwarzanie tekstu w wielu aspektach, takich jak wykrywanie wyrażeń terminologicznych, analiza składniowo-semantyczna oraz integracja z platformą Korpusomat. Do realizacji tych zadań wykorzystywane są nowoczesne metody, w tym modele neuronowe.

Zastosowania praktyczne

Opracowywane narzędzia i zasoby mogą znaleźć zastosowanie w wielu dziedzinach, od komercyjnych, takich jak analiza opinii klientów, poprzez nauki społeczne (badanie polaryzacji opinii), administrację (przetwarzanie dokumentów publicznych) czy edukację (wykorzystanie zasobów językowych w nauczaniu).

Rusza rekrutacja uzupełniająca do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych PAN na rok akademicki 2024/2025


10 lutego rusza rekrutacja uzupełniająca do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych Instytutów PAN (TIBPAN) na rok akademicki 2024-2025. TIBPAN prowadzi kształcenie interdyscyplinarne przygotowujące do uzyskania stopnia doktora w następujących dyscyplinach:

  • informatyka techniczna i telekomunikacja,
  • inżynieria biomedyczna,
  • nauki medyczne.

Termin nadsyłania zgłoszeń na adres Instytutu Podstawowych Problemów Techniki PAN mija 14 lutego 2025 r.

Więcej…Szkoła Doktorska TIB PAN - rekrutacja uzupełniająca 2024/2025

2 stycznia 2025 r. zmarł profesor Józef Winkowski


awieczorek 1949 2018   

Z głębokim żalem zawiadamiamy, że 2 stycznia 2025 r. zmarł profesor Józef Winkowski, długoletni, zasłużony pracownik Instytutu Podstaw Informatyki Polskiej Akademii Nauk, wybitny matematyk i informatyk, zajmujący się modelowaniem matematycznym i symulacjami komputerowym. Pod koniec swojej pracy naukowej Profesor zajmował się również modelami matematycznymi współbieżnych i rozproszonych procesów przetwarzania informacji.

Józef Winkowski urodził się 16 marca 1934 roku. Swoją działalność naukowa zaczynał jako asystent na Politechnice Warszawskiej. Od 1955 roku był pracownikiem naukowo badawczym w Instytucie Maszyn Matematycznych, a od 1971 był pracownikiem naukowo badawczym w Instytucie Podstaw Informatyki PAN (dawniej Centrum Obliczeniowym PAN). W IPI PAN pełnił obowiązki Z-cy Dyrektora ds. Naukowych w latach 1980-1981, a od roku 1998 aż do 2014 roku Instytutowego Koordynatora Programów Doktoranckich. W latach 1999-2006 był Przewodniczącym Rady Naukowej IPI PAN. W 2017 roku otrzymał tytuł honorowy Profesor Emeritus IPI PAN.

Dyrekcja i pracownicy IPI PAN składają Rodzinie i wszystkim bliskim wyrazy głębokiego współczucia z powodu śmierci Profesora.

Nagroda Komitetu Językoznawstwa PAN dla Prof. Hajnicz z Zespołem za Słownik walencyjny j. polskiego Walenty


Nagroda Komitetu Językoznawstwa PAN dla Słownika Walenty

25 listopada 2024 roku w Pałacu Staszica w Warszawie odbyło się posiedzenie plenarne Komitetu Językoznawstwa PAN, poświęcone wręczeniu nagród naukowych Komitetu za wybitne osiągnięcie z dziedzinie językoznawstwa w roku 2023. Jednym z tegorocznych laureatów w kategorii wytworzenia zasobów lub narzędzi językowych (ex aequo z bazą „Apokryfy staropolskie”) jest zespół „Słownika walencyjnego języka polskiego Walenty”. W jego imieniu nagrodę z rąk dziekana Wydziału I Nauk Humanistycznych i Społecznych PAN prof. Dariusza Jemielniaka odebrała kierowniczka zespołu słownika prof. Elżbieta Hajnicz.

W dalszej części posiedzenia laureaci przedstawiali nagrodzone prace. W imieniu zespołu Słownika wystąpiła Prof. Hajnicz z referatem pt. „Słownik walencyjny języka polskiego Walenty i jak się go je?”.

Słownik walencyjny języka polskiego Walenty to elektroniczny słownik ram podkategorii dla polskich czasowników i quasi-czasowników. Link do słownika: https://walenty.ipipan.waw.pl/

Więcej…Nagroda Komitetu Językoznawstwa PAN dla zespołu prof. Hanicz za Słownik Walenty


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności