Polski, wielki, otwarty i inteligentny – jaki naprawdę będzie PLLuM?
Z pracującymi nad stworzeniem polskiego, wielkiego modelu językowego PLLuM specjalistkami i specjalistami:
- Janem Wieczorkiem, koordynatorem komunikacji Katedry Sztucznej Inteligencji z Politechniki Wrocławskiej;
- Przemysławem Kazienko, koordynatorem zadania walidacji modelu Katedry Sztucznej Inteligencji z Politechniki Wrocławskiej;
- Marcinem Oleksym, koordynatorem zespołu korpusowego Katedry Sztucznej Inteligencji z Politechniki Wrocławskiej;
- Mateuszem Tykierko, zastępcą dyrektora Wrocławskiego Centrum Sieciowo-Superkomputerowego, PWr;
- Inez Okulską, adiunkt Zakładu Inżynierii Lingwistycznej i Analizy Tekstu w NASK PIB;
- Aleksandrą Tomaszewską, koordynatorką zadania budowy korpusu polskiego, przedstawicielką IPI PAN w Komisji ds. Komunikacji, wiceprzewodniczącą Komisji ds. Etyki AI w Zespole Inżynierii Lingwistycznej IPI PAN;
- Agnieszką Karlińską, p.o. kierownika Zakładu Inżynierii Lingwistycznej i Analizy Tekstu NASK PIB, kierowniczką projektu w NASK PIB;
- Anną Kołos, przewodnicząca Komisji ds. Etyki AI w Zakładzie Inżynierii Lingwistycznej i Analizy Tekstu NASK PIB;
- Markiem Kozłowskim, kierownikiem Laboratorium Inżynierii Lingwistycznej OPI PIB, kierownikiem projektu w OPI PIB;
- Maciejem Ogrodniczukiem, kierownikiem Zespołu Inżynierii Lingwistycznej IPI PAN, kierownikiem projektu w IPI PAN oraz
- Maciejem Piaseckim, koordynatorem projektu Katedry Sztucznej Inteligencji z Politechniki Wrocławskiej,
rozmawiamy o szczegółach tego projektu.
Czym będzie PLLuM i dlaczego konsorcjum polskich uczelni zdecydowało się na jego stworzenie?
Zaczniemy od wyjaśnienia samej nazwy, bo ona w pewnym stopniu odpowiada już na postawione pytanie. PLLuM (Polish Large Language Model) to polski wielki model językowy, czyli odmiana bardzo popularnej ostatnio sztucznej inteligencji, której najsłynniejszymi przedstawicielami są ChatGPT, Claude, Gemini czy Mistral.
PLLuM powstaje w ramach współpracy wiodących jednostek naukowych z obszaru AI, ale warto podkreślić, że są to nie tylko uczelnie. Konsorcjum tworzą: Politechnika Wrocławska (lider projektu), Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN.
Najciekawsza jest jednak oczywiście odpowiedź na drugą część pytania – dlaczego powstaje? Przede wszystkim dlatego, że narodowe wielkie modele językowe są pod wieloma względami korzystne dla rozwoju krajów, które zdecydowały się na ich stworzenie. Z jednej strony jesteśmy świadkami wyścigu polegającego na budowie nowych modeli komercyjnych przez największe firmy technologiczne, takie jak OpenAI czy Google, i wiemy, że działają one również w języku polskim. Są to jednak modele wielojęzyczne z preferencjami, a nawet wiedzą bazującą na języku angielskim i kulturze krajów anglosaskich. W większości takich wielojęzycznych modeli korpusy opierają się w co najmniej 90% na danych anglojęzycznych, a język polski jest tam reprezentowany w bardzo niewielkim zakresie. My natomiast chcemy, by generowane treści formułowane były w dobrej, płynnej polszczyźnie i jak najlepiej odzwierciedlały polskie realia społeczno-kulturowe, ekonomiczne czy prawne.
Z drugiej strony, mamy świadomość, że tego typu inicjatywa musi być w naszym kraju realizowana przez instytucje publiczne, ponieważ dla globalnych graczy rynkowych stworzenie otwartego modelu nie jest priorytetem, zaś polskie podmioty prywatne zazwyczaj nie dysponują odpowiednimi zasobami. Właśnie dlatego powstał PLLuM.
Co zatem wyróżnia Wasz projekt?
Po pierwsze, PLLuM będzie otwarty na różne zastosowania najbardziej przydatne z perspektywy naszego kraju, w tym jego instytucji publicznych. Po drugie, będzie trenowany na obszernym zbiorze starannie wyselekcjonowanych danych, przede wszystkim polskojęzycznych. Po trzecie, będzie zgodny z aktualnymi regulacjami prawnymi obowiązującymi na poziomie krajowym i unijnym, co oznacza, że dane językowe będą użyte w sposób transparentny, otwarte i dostępne. Po czwarte wreszcie, będzie bezpieczny, a więc kontrolowalny w ramach przewidzianych dla niego zastosowań.
Czy PLLuM będzie konkurencyjnym rozwiązaniem dla takich modeli, jak OpenAI GPT-4, Google Lambda, Meta LLama, czy europejski Mistral/Mixtral?
I tak, i nie. Niewątpliwą przewagą PLLuM-a będzie stopień opanowania języka polskiego, w którym wyrażane będą generowane treści. Jednocześnie z założenia PLLuM nie zaoferuje takiego poziomu uniwersalności, jak produkty komercyjne – nie takie stawiamy zresztą przed nim zadania. To nie ma być inteligenta encyklopedia, ale rozwiązanie, które posłuży do budowy chatbotów oraz asystentów. Asystentów dobrze rozumiejących polską rzeczywistość administracyjną, prawną czy obywatelską, a równocześnie świetnie posługujących się językiem polskim.
Kto, jak już powstanie, będzie miał do niego dostęp? Czy będzie go można wykorzystać np. w administracji publicznej?
To będzie w pełni otwarty model językowy – udostępnimy więc nowoczesne i bardzo przydatne narzędzie, które będą mogły wykorzystać na przykład firmy prywatne czy właśnie instytucje publiczne. Wszyscy zainteresowani jego użytkowaniem, w tym jednostki, których nie byłoby stać na wytrenowanie takiego modelu samodzielnie, będą mogli użyć udostępnionego rozwiązania On-Premise, na własnej infrastrukturze obliczeniowej.
W projekcie zrealizowane zostanie także przykładowe zastosowanie PLLuM-a w ramach inteligentnego asystenta w sferze publicznej. Obecnie nie ma publicznych botów działających w oparciu o polskie LLM-y, dlatego będzie to nowatorskie narzędzie, niezależne od chmurowych rozwiązań, a tym samym – co jest niezwykle ważne – lokalnie kontrolowane i zarządzane.
Jaka infrastruktura wykorzystywana jest do trenowania tego modelu? Jakie środki zostały na ten cel przekazane?
Mówiąc otwarcie, finansowanie projektu wynosi 14,5 mln zł. W porównaniu do korzyści, które zaoferuje PLLuM – bardzo wymiernych również z ekonomicznego punktu widzenia – koszty są zatem naprawdę niewielkie. Jeśli chodzi natomiast o moc obliczeniową komputerów wykorzystywanych do trenowania polskiego modelu językowego, bazujemy na zbudowanej wcześniej infrastrukturze Wrocławskiego Centrum Sieciowo-Superkomputerowego, czyli ośrodka informatycznego Politechniki Wrocławskiej.
Z jakich źródeł pobierane są dane treningowe i jaka jest ich jakość i ilość?
Dane treningowe – teksty w języku polskim (z pewną domieszką tekstów w innych językach słowiańskich oraz anglojęzycznych) – pozyskiwane są z różnych źródeł. Zbieramy dane o możliwie wysokiej jakości i na bieżąco tę jakość kontrolujemy. Proces katalogowania i pobierania danych treningowych właśnie trwa i ostateczna wielkość tego zasobu nie jest jeszcze znana. Wiadomo natomiast, że będzie liczona w terabajtach.
Chętnie przyjmiemy zbiory danych od instytucji i wydawców – wystarczy wypełnić formularz na naszej stronie i zgłosić nam chęć ich przekazania.
Dużą wagę przywiązujemy do budowania zbiorów danych służących do dostrajania i „wychowywania” modelu (ang. alignment), tak aby uwzględniał on polskie realia. Istotną wartością projektu, wyróżniającą go na tle innych przedsięwzięć tego rodzaju, będą starannie – w dużej mierze ręcznie – przygotowane i zwalidowane korpusy instrukcji i preferencji.
Czy na bazie PLLuM powstanie również polski asystent głosowy? Jakie jeszcze inne zastosowania może mieć PLLuM?
Projekt nie zakłada powstania asystenta głosowego, chociaż w przyszłości – na bazie PLLuM-a – takie rozwiązanie może zostać wdrożone. Warto jednak przypomnieć, że tego rodzaju aplikacja nie wchodzi w zakres dotacji celowej przeznaczonej na PLLuM (realizacja do końca roku 2024). Po zamknięciu tego projektu bardzo chętnie porozmawiamy o kolejnych zadaniach i etapach jego rozwoju, również tych koncentrujących się na interfejsie głosowym.
Jak dużym problemem są tzw. halucynacje, których dopuszcza się AI w dużych modelach językowych? W jaki sposób radzicie sobie z tym wyzwaniem?
Same halucynacje wynikają głównie z braku wiedzy modelu na zadany temat. Jeśli czegoś nie wie – wymyśla. Naszą odpowiedzią na to wyzwanie są przede wszystkim nowe i wartościowe dane, które dla tematów ważnych dla polskiego społeczeństwa będą spójne i możliwie kompletne. Na problemy takie jak nieaktualność informacji, wysokie koszty tej aktualizacji i skłonność modeli do halucynacji odpowiedzią jest także podejście RAG (ang. Retrieval Augmented Generation), czyli wzbogacanie procesu generowania o dodatkowe informacje pochodzące ze źródeł zewnętrznych, np. wyszukiwarek internetowych.
Jakiego rodzaju wyzwania spotykacie jeszcze pracując nad tym modelem?
Na pewno wyzwaniem jest to, co – jak sygnalizowaliśmy wcześniej – stanowić będzie jedną z zalet PLLuM-a, a więc potrzeba zrozumienia polskich realiów, polskiej kultury.
Kolejnym wyzwaniem jest problem walidacji LLM-ów i kwestia zastosowania miar automatycznych. Odpowiedzi modelu mogą różnić się od tych zgromadzonych w zbiorze ewaluacyjnym, ale nadal być poprawne. Do weryfikacji predykcji konieczne jest zatem włączenie ludzi, którzy ocenią poprawność odpowiedzi na podstawie kontekstu.
Dużym wyzwaniem jest także zapewnienie bezpieczeństwa modelu – pod tym kątem w projekcie zaplanowano moduł filtracji wyjścia modelu, a więc dodatkowe zabezpieczenie, które oprócz procesu „wychowania” ma czuwać nad jakością, bezstronnością i poprawnością odpowiedzi na wyjściu.
W jaki sposób zamierzacie rozwiązać kwestie etyczne czy problem praw autorskich?
Oba te zagadnienia są niezwykle istotne, nie tylko z perspektywy naszego projektu, ale w każdym procesie projektowania i wdrażania rozwiązań z zakresu AI. Na bieżąco korzystamy z pomocy zespołu prawnego, a w sprawach wymagających dodatkowej ekspertyzy konsultujemy się z działem prawnym Ministerstwa Cyfryzacji. Powołaliśmy także Komisję ds. Etyki AI, której zadaniem jest właśnie opracowywanie rozwiązań zgodnych z obowiązującym prawem i szeroko rozumianymi zasadami etyki. Dotyczy to nie tylko sposobu pozyskiwania i wykorzystywania danych, ale także na przykład wspomnianego wcześniej filtrowania treści generowanych przez model.
Jak duży zespół zaangażowany jest w tworzenie PLLuM i jakiego rodzaju specjaliści go tworzą?
Jak już wspomnieliśmy, projekt realizowany jest przez sześć jednostek naukowych. Zespół składa się ze specjalistów i specjalistek z różnych dziedzin: informatyków, lingwistów, socjologów, prawników, specjalistów od zarządzania i bezpieczeństwa, a nawet etyki.
Z jakich powodów PLLuM będzie innowacją na skalę światową? Pytam, bo takie określenie padło w oficjalnych materiałach zapowiadających projekt. Czy np. wymyślane są nowe algorytmy? Jaki będzie autorski wkład polskich naukowców w stworzeniu tego modelu?
To bardzo mocne i dumne określenie, które może być rozumiane na różne sposoby. Moglibyśmy tu szeroko mówić o planowanych korzyściach czy o naszych ambicjach naukowych. Zostawmy jednak chwalenie się tym, co zostało osiągnięte, na końcową fazę rozwoju PLLuM-a.
W ramach projektu przygotowany zostanie pełnowymiarowy (a nie tylko bazowy) model konwersacyjny, zdolny do płynnej rozmowy czy udzielania odpowiedzi na różnej klasy zestawy pytań. Osiągnięcie tego celu wymaga bardzo szerokiego zakresu prac – od przygotowania korpusu, przez wstępne trenowanie, strojenie na instrukcjach i wychowanie, aż po dostosowanie i wdrożenie w postaci inteligentnego asystenta. W ramach każdego z tych zadań prowadzimy także prace badawcze. Trudno wskazać podobny projekt, który w tak krótkim czasie objąłby tyle zadań.
Ponieważ, jak wielokrotnie podkreślaliśmy, kluczowe są dla nas nie tylko ilość, ale i jakość danych, dużo uwagi poświęcamy ich selekcji i ewaluacji. W tym kontekście szczególnie innowacyjny charakter mają tworzone przez nas w dużej mierze ręcznie obszerne korpusy polskojęzycznych instrukcji.
Warto również dodać, że planujemy budowę narzędzi do oceny innych modeli językowych, ale właśnie z polskiej perspektywy, oraz zgromadzenie odpowiednich danych walidacyjnych. Oznacza to, że chcielibyśmy zmierzyć, jak dobre są różne modele we wnioskowaniu dotyczącym na przykład polskiej historii, kultury czy sportu.
Jak bardzo zaawansowane są obecnie prace nad tym modelem?
Projekt zaczęliśmy realizować pod koniec stycznia 2024 roku. Od początku działamy bardzo intensywnie. Zgromadziliśmy już wiele danych i wciąż pozyskujemy nowe samodzielnie i od zewnętrznych dostawców. Równolegle przygotowujemy zbiory i narzędzia do wychowywania i adaptacji oraz – niezależnie – do walidacji. Kończymy analizy prawne, a nowo powołana Komisja ds. Etyki AI pracuje nad wytycznymi, którymi będziemy się dalej kierować. Tworzymy także pierwsze modele językowe oraz modele do klasyfikacji treści.
Czy znana jest już choćby szacunkowa data premiery PLLuM?
Nie jest znana dokładna data premiery modelu, znane jest natomiast ograniczenie czasowe, podyktowane długością umowy dotacyjnej – projekt musi zostać pozytywnie zrealizowany do końca grudnia 2024 roku. Nasz model będziemy jednak chcieli udostępnić odpowiednio wcześniej.
Czy z czasem zakładana jest może komercjalizacja stworzonego modelu językowego?
Celem projektu realizowanego w ramach dotacji jest nie tylko stworzenie modelu, ale także udostępnienie go na licencji otwartej, pozwalającej zarówno na użytek naukowy, jak i komercyjny.
W ten sposób, korzystając z tej otwartej licencji i kodu źródłowego, zarówno członkowie konsorcjum, jak i inni przedstawiciele sektora publicznego i prywatnego będą mogli tworzyć własne rozwiązania oparte na tym modelu i – jeśli taka będzie ich wola – je komercjalizować.
ITwiz, Autor: Mikołaj Marszycki
Źródło: ITwiz; 29.03.2024