Skip to main content

Aktualności Instytutu Podstaw Informatyki PAN

Polski, wielki, otwarty i inteligentny – jaki naprawdę będzie PLLuM?


Z pracującymi nad stworzeniem polskiego, wielkiego modelu językowego PLLuM specjalistkami i specjalistami rozmawiamy o szczegółach tego projektu.

Czym będzie PLLuM i dlaczego konsorcjum polskich uczelni zdecydowało się na jego stworzenie?

Zaczniemy od wyjaśnienia samej nazwy, bo ona w pewnym stopniu odpowiada już na postawione pytanie. PLLuM (Polish Large Language Model) to polski wielki model językowy, czyli odmiana bardzo popularnej ostatnio sztucznej inteligencji, której najsłynniejszymi przedstawicielami są ChatGPT, Claude, Gemini czy Mistral.

PLLuM powstaje w ramach współpracy wiodących jednostek naukowych z obszaru AI, ale warto podkreślić, że są to nie tylko uczelnie. Konsorcjum tworzą: Politechnika Wrocławska (lider projektu), Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN.

Najciekawsza jest jednak oczywiście odpowiedź na drugą część pytania – dlaczego powstaje? Przede wszystkim dlatego, że narodowe wielkie modele językowe są pod wieloma względami korzystne dla rozwoju krajów, które zdecydowały się na ich stworzenie. Z jednej strony jesteśmy świadkami wyścigu polegającego na budowie nowych modeli komercyjnych przez największe firmy technologiczne, takie jak OpenAI czy Google, i wiemy, że działają one również w języku polskim. Są to jednak modele wielojęzyczne z preferencjami, a nawet wiedzą bazującą na języku angielskim i kulturze krajów anglosaskich. W większości takich wielojęzycznych modeli korpusy opierają się w co najmniej 90% na danych anglojęzycznych, a język polski jest tam reprezentowany w bardzo niewielkim zakresie. My natomiast chcemy, by generowane treści formułowane były w dobrej, płynnej polszczyźnie i jak najlepiej odzwierciedlały polskie realia społeczno-kulturowe, ekonomiczne czy prawne.

Z drugiej strony, mamy świadomość, że tego typu inicjatywa musi być w naszym kraju realizowana przez instytucje publiczne, ponieważ dla globalnych graczy rynkowych stworzenie otwartego modelu nie jest priorytetem, zaś polskie podmioty prywatne zazwyczaj nie dysponują odpowiednimi zasobami. Właśnie dlatego powstał PLLuM.

Więcej…Polski, wielki, otwarty i inteligentny – jaki naprawdę będzie PLLuM? (ITwiz)

Polskie Powroty NAWA dla dra Andrzeja Lieberta w IPI PAN


Miło nam poinformować, że wniosek dra Andrzeja Lieberta znalazł się na liście wniosków zaakceptowanych do finansowania Polskie Powroty NAWA w naborze 2023. Istotą projektu będzie generacja sztucznych obrazów benchmarkowych MRI, które mają stanowić podstawę do detekcji anomalii związanych z rakiem piersi w obrazach rzeczywistych. Generacja ma opierać się o nowoczesne techniki generacji obrazów wykorzystujących głębokie sieci neuronowe, uczenie ze wzmocnieniem (reinforcement learning) i wnioskowanie kontradyktoryjne (sieci GAN; Generative Adversarial Networks).

Projekt ma być zlokalizowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk w Zakładzie Sztucznej Inteligencji, który w swoich badaniach intensywnie wykorzystuje głębokie uczenie maszynowe do rozwiązywania szeregu problemów analizy danych. Gratulujemy laureatowi i życzymy owocnej pracy w nowo tworzonym zespole badawczym w IPI PAN.

Więcej…Polskie Powroty NAWA dla dra Andrzeja Lieberta w IPI PAN

Warsztat „Analiza danych parlamentarnych” w Sejmie RP




29 lutego 2024 r. odbył się w Sejmie RP zorganizowany przez Instytut Podstaw Informatyki PAN warsztat naukowy „Analiza danych parlamentarnych”, który stanowił podsumowanie zorganizowanego na jesieni ubiegłego roku konkursu na analizę stenogramów Sejmu i Senatu. Celem konkursu, adresowanego do studentów, doktorantów i młodych naukowców, było stworzenie oryginalnego opracowania ciekawego problemu badawczego z dowolnej dyscypliny nauki.

Korpus Dyskursu Parlamentarnego i korpus ParlaMint

Wydarzenie rozpoczęło wystąpienie prof. Macieja Ogrodniczuka z Instytutu Podstaw Informatyki PAN, który zaprezentował dwa wykorzystywane w konkursie zbiory danych parlamentarnych. Najważniejszym z nich jest polskojęzyczny Korpus Dyskursu Parlamentarnego (KDP), liczący ponad 800 mln słów zestaw stenogramów z posiedzeń plenarnych, sprawozdań z posiedzeń komisji oraz interpelacji, zapytań i odpowiedzi od roku 1919 aż do dnia dzisiejszego. Jego współczesną część (od roku 2015) zawiera natomiast wielojęzyczny korpus ParlaMint, gromadzący podobne dane z parlamentów prawie wszystkich krajów europejskich, a także ich tłumaczenia na język angielski.

Dane wykorzystywane w konkursie są dostępne bezpłatnie dla wszystkich. Co ważne – żeby z nich korzystać, nie trzeba umieć programować. Zarówno KDP, jak i ParlaMint zostały udostępnione w sieci w prostych w obsłudze interfejsach.

Więcej…Warsztat „Analiza danych parlamentarnych” w Sejmie RP

Nowa publikacja w IEEE Transactions on Reliability




31 stycznia b.r. w czasopiśmie IEEE Transactions on Reliability został opublikowany artykuł pracowników IPI PAN: prof. Wojciecha Penczka, dr Łukasza Maśko i mgr Teofila Sidoruka, napisany we współpracy z prof. Laure Petrucci, dr Carlosem Olarte i dr Jaime Ariasem z Université Sorbonne Paris Nord. Praca "Optimal Scheduling of Agents in ADTrees: Specialized Algorithm and Declarative Models" stanowi kontynuację wcześniejszej linii badań [1], w której zaproponowano reprezentowanie drzew ataku/obrony (ADTrees) jako systemów wieloagentowych. ADTrees są popularnym formalizmem, pozwalającym na analizowanie scenariuszy bezpieczeństwa, w których dwie grupy agentów próbują albo wykonać podzadania (poszczególne węzły drzewa) składające się na główny cel (korzeń drzewa), albo dążą do uniemożliwienia tego przeciwnej grupie. Dzięki translacji do formalizmu wieloagentowego, możliwe staje się rozważanie tych dwóch grup jako koalicji, charakteryzujących się nie tylko pewną liczbą agentów, ale również konkretnym ich przydziałem do poszczególnych podzadań. To z kolei determinuje zarówno możliwość skutecznego ataku lub obrony przeciwko drugiej koalicji, ale także wpływa na rozważane cechy kwantytatywne, np. czas ataku/obrony lub związany z nimi koszt finansowy.

Więcej…Nowa publikacja w IEEE Transactions on Reliability

Powstanie pierwszy polski otwarty wielki model językowy (PLLuM) i inteligentny asystent


Artykuły prasowe o tej tematyce:

Polski wielki model językowy PLLuM, wytrenowany na treściach głównie polskojęzycznych, oraz oparty na nim inteligentny asystent - powstaną w ramach współpracy sześciu polskich jednostek naukowych. “Nie stać nas na to, by zostawać w tyle”- komentują przedstawiciele projektu.

Konsorcjum PLLuM (Polish Large Language Universal Model) powstało 29 listopada br. (w przeddzień pierwszych urodzin chatGPT). Tworzy je sześć spośród wiodących w Polsce jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa: Politechnika Wrocławska (lider konsorcjum), Państwowy Instytut Badawczy NASK (PIB NASK), Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN. O powołaniu konsorcjum poinformowali w piątek w przesłanym PAP komunikacie przedstawiciele PIB NASK.

Od około roku wielkie językowe modele generatywne (LLMs) zachwycają niewyobrażalnymi dotychczas możliwościami sztucznej inteligencji. Te najbardziej znane modele, jak ChatGPT czy Google Bard, mają jednak swoje ograniczenia: są płatne, są zamknięte (nie można poznać ani modyfikować ich algorytmów) i zostały wytrenowane ze zbyt małym udziałem treści polskojęzycznych (dlatego w polskich odpowiedziach pojawia się więcej błędów niż w języku angielskim).

Stąd pomysł, aby stworzyć otwarty, darmowy model w większości wytrenowany na treściach polskojęzycznych, a także opracować wykorzystującego ten model inteligentnego asystenta. “Całość projektu ma być przeprowadzona zgodnie z dobrymi praktykami etycznej i odpowiedzialnej sztucznej inteligencji, w tym przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych” - zapewniają przedstawiciele projektu. Istotną rolę odegra tu Krajowe Centrum Doskonałości Danych z siedzibą w NASK-PIB.

Więcej…Powstanie pierwszy polski otwarty wielki model językowy (PLLuM) i inteligentny asystent (PAP)


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności