Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

Polski otwarty wielki model językowy (PLLuM) gotowy do działania


PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. Modele stworzone przez polskich ekspertów i ekspertki z dziedziny IT i lingwistyki, wesprą rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie. Ministerstwo Cyfryzacji zaprezentowało polski model językowy PLLuM oraz plan jego rozwoju. Od dziś model dostępny jest dla każdego.

Polski model językowy jest elastyczny i skalowalny – wykorzystuje od 8 do 70 miliardów parametrów. Pozwala na precyzyjne generowanie treści w języku polskim. Mniejsze wersje dobrze sprawdzają się w szybkich zadaniach, podczas gdy większe modele oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego. W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze MoE (ang. Mixture of Experts) ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).

Bazuje na etycznym pozyskiwaniu danych – wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum, a także zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu. Modele naukowe (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.

Dostrajany na autorskich zbiorach danych, czyli dziesiątkach tysięcy tzw. instrukcji – pobudzeń (promptów) i oczekiwanych odpowiedzi modelu – oraz preferencji – pobudzeń i różnych odpowiedzi modeli ocenionych pod kątem jakościowym – tworzonych przez zespół ponad 50 specjalistów i specjalistek.

Budowanie ekosystemu polskich modeli językowych. Wspólnie z modelem Bielik mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by #AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. Projekt realizowany był do tej pory przez konsorcjum sześciu podmiotów:

  • Politechnika Wrocławska (lider projektu)
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
  • Ośrodek Przetwarzania Informacji (OPI-PIB)
  • Uniwersytet Łódzki

Więcej…Polski otwarty wielki model językowy (PLLuM) gotowy do działania

Rusza rekrutacja uzupełniająca do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych PAN na rok akademicki 2024/2025


10 lutego rusza rekrutacja uzupełniająca do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych Instytutów PAN (TIBPAN) na rok akademicki 2024-2025. TIBPAN prowadzi kształcenie interdyscyplinarne przygotowujące do uzyskania stopnia doktora w następujących dyscyplinach:

  • informatyka techniczna i telekomunikacja,
  • inżynieria biomedyczna,
  • nauki medyczne.

Termin nadsyłania zgłoszeń na adres Instytutu Podstawowych Problemów Techniki PAN mija 14 lutego 2025 r.

Więcej…Szkoła Doktorska TIB PAN - rekrutacja uzupełniająca 2024/2025

2 stycznia 2025 r. zmarł profesor Józef Winkowski


awieczorek 1949 2018   

Z głębokim żalem zawiadamiamy, że 2 stycznia 2025 r. zmarł profesor Józef Winkowski, długoletni, zasłużony pracownik Instytutu Podstaw Informatyki Polskiej Akademii Nauk, wybitny matematyk i informatyk, zajmujący się modelowaniem matematycznym i symulacjami komputerowym. Pod koniec swojej pracy naukowej Profesor zajmował się również modelami matematycznymi współbieżnych i rozproszonych procesów przetwarzania informacji.

Józef Winkowski urodził się 16 marca 1934 roku. Swoją działalność naukowa zaczynał jako asystent na Politechnice Warszawskiej. Od 1955 roku był pracownikiem naukowo badawczym w Instytucie Maszyn Matematycznych, a od 1971 był pracownikiem naukowo badawczym w Instytucie Podstaw Informatyki PAN (dawniej Centrum Obliczeniowym PAN). W IPI PAN pełnił obowiązki Z-cy Dyrektora ds. Naukowych w latach 1980-1981, a od roku 1998 aż do 2014 roku Instytutowego Koordynatora Programów Doktoranckich. W latach 1999-2006 był Przewodniczącym Rady Naukowej IPI PAN. W 2017 roku otrzymał tytuł honorowy Profesor Emeritus IPI PAN.

Dyrekcja i pracownicy IPI PAN składają Rodzinie i wszystkim bliskim wyrazy głębokiego współczucia z powodu śmierci Profesora.

Nagroda Komitetu Językoznawstwa PAN dla Prof. Hajnicz z Zespołem za Słownik walencyjny j. polskiego Walenty


Nagroda Komitetu Językoznawstwa PAN dla Słownika Walenty

25 listopada 2024 roku w Pałacu Staszica w Warszawie odbyło się posiedzenie plenarne Komitetu Językoznawstwa PAN, poświęcone wręczeniu nagród naukowych Komitetu za wybitne osiągnięcie z dziedzinie językoznawstwa w roku 2023. Jednym z tegorocznych laureatów w kategorii wytworzenia zasobów lub narzędzi językowych (ex aequo z bazą „Apokryfy staropolskie”) jest zespół „Słownika walencyjnego języka polskiego Walenty”. W jego imieniu nagrodę z rąk dziekana Wydziału I Nauk Humanistycznych i Społecznych PAN prof. Dariusza Jemielniaka odebrała kierowniczka zespołu słownika prof. Elżbieta Hajnicz.

W dalszej części posiedzenia laureaci przedstawiali nagrodzone prace. W imieniu zespołu Słownika wystąpiła Prof. Hajnicz z referatem pt. „Słownik walencyjny języka polskiego Walenty i jak się go je?”.

Słownik walencyjny języka polskiego Walenty to elektroniczny słownik ram podkategorii dla polskich czasowników i quasi-czasowników. Link do słownika: https://walenty.ipipan.waw.pl/

Więcej…Nagroda Komitetu Językoznawstwa PAN dla zespołu prof. Hanicz za Słownik Walenty

Aleksandra Tomaszewska o etycznym pozyskiwaniu danych tekstowych na współKongresie Kultury w PKiN


AI @ wspolKongres Kultury A. Tomaszewska

Na współKongresie Kultury, organizowanym w Pałacu Kultury i Nauki w dniach 7-9 listopada br., w panelu dotyczącym prawnych i etycznych aspektów tworzenia sztucznej inteligencji, Aleksandra Tomaszewska z Instytutu Podstaw Informatyki PAN opowiedziała o tym, jak pozyskiwane są dane do tworzonego w ramach konsorcjum PLLuM otwartego polskiego modelu AI, który będzie wsparciem m.in. dla nauki, mediów i administracji publicznej.

Aleksandra Tomaszewska podkreśliła, że cały zespół PLLuM od początku przykłada dużą wagę do etycznego pozyskiwania wartościowych i przede wszystkim polskojęzycznych danych. Szczególnie ważna jest współpraca z wydawnictwami. Model językowy, aby mógł skutecznie działać, potrzebuje dostępu do wielu polskich tekstów z różnych dziedzin, od literatury pięknej, przez artykuły naukowe, prasę codzienną, aż po teksty poradnikowe czy urzędowe.

Z zainteresowanymi wydawcami za każdym razem podpisywane są umowy licencyjne, które określają zasady korzystania z przekazanych danych, w tym pola ich eksploatacji. Co ważne, dane używane są wyłącznie do trenowania modelu PLLuM i nie są nigdy udostępniane na zewnątrz.

Więcej…Aleksandra Tomaszewska o etycznym pozyskiwaniu danych tekstowych na Współkongresie w PKiN


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności