• Aktualności

Aktualności Instytutu Podstaw Informatyki PAN

Nagroda im. Profesora Zdzisława Pawlaka za Wybitną Monografię z Zakresu Informatyki dla Łukasza Dębowskiego


Information Theory Meets Power LawsDyplom Nagroda im. Pawlaka

Monografia pt. Information Theory Meets Power Laws: Stochastic Processes and Language Models autorstwa dra hab. Łukasza Dębowskiego, prof. IPIPAN została uhonorowana Nagrodą za Wybitną Monografię z Zakresu Informatyki, przyznaną przez Komitet Informatyki Polskiej Akademii Nauk w pierwszej edycji konkursu im. Profesora Zdzisława Pawlaka.

Monografia dotyczy matematycznych podstaw statystycznego modelowania języka. Statystyczny model języka to rozkład prawdopodobieństwa na ciągach liter, który aproksymuje proces tworzenia tekstów przez ludzi. Modele takie - jak na przykład modele GPT-{2,3} oparte na głębokich sieciach neuronowych - są obecnie podstawowymi modelami w przetwarzaniu języka naturalnego, np. w rozpoznawaniu mowy i maszynowym tłumaczeniu.

Monografia analizuje statystyczne modele języka oczami matematyka - za pomocą aparatu teorii informacji i teorii procesów stochastycznych. Punktem wyjścia są rozmaite empiryczne prawa potęgowe spełniane przez teksty w języku naturalnym. Celem jest zrozumienie, dlaczego prawa te są spełnione, oraz skonstruowanie prostych przykładów stacjonarnych procesów stochastycznych, które spełniają te prawa. Świadom czynionych idealizacji autor zakłada, że postęp na obu tych polach może pomóc w dalszym ulepszaniu praktycznych statystycznych modeli języka.

Książka pisana była przede wszystkim z myślą o zainteresowaniu matematyków i studentów matematyki podstawowymi problemami statystycznego modelowania języka. Równolegle autor postanowił przedstawić sposób probabilistycznego matematycznego myślenia o języku naukowcom zajmującym się sztuczną inteligencją, lingwistyką komputerową i kwantytatywną oraz fizyką układów złożonych. W związku z tym pierwszy rozdział nakreśla główne tematy książki czytelnikom o mniejszym przygotowaniu matematycznym.

Przełomowe technologie teleinformatyczne – konferencja 11 maja w CN Kopernik


Podczas konferencji „Przełomowe technologie teleinformatyczne” – zaplanowanej na 11 maja w godz. 9:30-14:30 w CN Kopernik – zostaną zaprezentowane najważniejsze aspekty technologiczne, które będą miały wpływ na naszą przyszłość w aspekcie gospodarczym, geopolitycznym i społecznym. Wybitni naukowcy, przedstawiciele firm i instytucji państwowych omówią kwestie związane z nowoczesnymi metodami wytwarzania oprogramowania, kryptografią kwantową, bezpieczeństwem usług chmurowych oraz Internetem rzeczy i sieciami 5G w standardzie Open RAN. Udziału w konferencji organizowanej z okazji Światowego Dnia Społeczeństwa Informacyjnego jest bezpłatny (konieczna jest wcześniejsza rejestracja przez formularz dostępny na stronie https://sdsi.pl/konferencja/#rejestracja).

Rozwój najnowszych trendów – Internetu rzeczy (IoT), Internetu zachowań (IoB), sztucznej inteligencji (AI) czy też rozproszonych mechanizmów przetwarzania (DC) – staje się możliwy jedynie przy odpowiednim wsparciu inżynierii oprogramowania. Dlatego na początku konferencji zostaną zaprezentowane metody i techniki tworzenia nowoczesnego oprogramowania oraz niezbędne do tego kompetencje, bardzo poszukiwane na dzisiejszym rynku pracy.
Zastosowanie Internetu rzeczy – do produkcji przemysłowej, ale także do zarządzania przestrzenią publiczną – zostaną zgłębione w ramach osobnego bloku konferencyjnego. Kluczowe z punktów widzenia szerokiej implementacji tych systemów jest zapewnienie efektywnej i bezpiecznej komunikacji pomiędzy nimi.
Dwa pozostałe bloki tematyczne dotyczyć będą niezmiernie istotnych – z punktu widzenia geopolityki, ale także strategii firm – kwestii bezpieczeństwa. Omówione zostaną aspekty cyberbezpieczeństwa w coraz bardziej popularnych usługach chmurowych. Zostaną także przedstawione szanse i zagrożenia, które niesie kryptografia kwantowa – wykorzystywana zarówno do tworzenia zabezpieczeń, jak i ich łamania.

Instytut Podstaw Informatyki Polskiej Akademii Nauk objął Patronatem Instytucjonalnym obchody Światowego Dnia Społeczeństwa Informacyjnego, których kulminacyjnym punktem będzie konferencja „Przełomowe technologie teleinformatyczne”.

Kategorie składniowe członów w konstrukcjach współrzędnie złożonych w j. polskim - artykuł w Language


Artykuł "Coordination of Unlike Grammatical Cases (and Unlike Categories)" autorstwa prof. Adama Przepiórkowskiego z Zespołu Inżynierii Lingwistycznej został przyjęty do publikacji w Language, najbardziej prestiżowym czasopiśmie lingwistycznym.

Artykuł – oparty przede wszystkim na danych z języka polskiego – pokazuje, że w konstrukcjach współrzędnie złożonych („Bart i Lisa”, „pracuje w elektrowni lub siedzi w barze”) poszczególne człony nie muszą mieć ani tej samej kategorii składniowej (rzeczownik, przymiotnik itd.; por. „w Springfield lub gdzieś indziej” – koordynacja frazy przyimkowej i przysłówkowej), ani tego samego przypadka gramatycznego (mianownik, biernik itd.; por. „późnym wieczorem lub następnego poranka” – koordynacja narzędnika i dopełniacza). Artykuł pokazuje także, jakie mechanizmy teoretyczne pozwalają modelować taką koordynację niejednorodną w czterech ważnych teoriach lingwistycznych: Lexical Functional Grammar, Categorial Grammar, Head-driven Phrase Structure Grammar oraz Minimalist Program.

Artykuł ukaże się w Language w numerze grudniowym 2022 lub marcowym 2023 roku. Obecnie dostepny jest pod adresem https://ling.auf.net/lingbuzz/006492.

60-lecie założenia CO PAN i 45-lecie powstania IPI PAN


W 2021 r. obchodzimy 60-lecie powstania naszego Instytutu. Początkowo, od 1961 r. nosił nazwę Centrum Obliczeniowego Polskiej Akademii Nauk. W 1976 r. CO PAN zostało przekształcone w Instytut Podstaw Informatyki PAN. W bieżącym roku przypada 45-lecie powołania IPI PAN.

Wybitni badacze z CO PAN / IPI PAN położyli podwaliny pod rozwój polskiej informatyki teoretycznej. W chwili powstania IPI PAN jego najważniejszymi badaczami byli: Leon Łukaszewicz, Antoni Mazurkiewicz, Zdzisław Pawlak i Józef Winkowski (współtwórcy maszyny XYZ) oraz Romuald Marczyński (pomysłodawca i główny twórca maszyn EMAL i EMAL-2).

Obecnie IPI PAN zatrudnia 48 pracowników naukowych i realizuje wiele znaczących projektów z zakresu podstaw informatyki i teorii informacji.Zainteresowania Instytutu dotyczą głównie badań podstawowych, ale również oprogramowania do zastosowań intra- i interdyscyplinarnych. Efekty naszych badań i prac rozwojowych obejmują między innymi:

  • Narzędzie programistyczne MCFS-ID (Monte Carlo Feature Selection and Interdependency Discovery) użyteczne w tej dziedzinie Bioinformatyki,
  • Narodowy Korpus Języka Polskiego (NKJP) zawierający 1,5 miliarda słów,
  • Narzędzie Korpusomat do samodzielnego tworzenia elektronicznych korpusów tekstów,
  • Platformę do ujednoznacznienia znaczenia słów oraz specjalne narzędzia dla lingwistyki korpusowej,
  • Semantyczną wyszukiwarkę dla polskiego Internetu (NEKST - Narzędzia EKsploracji Semantycznej Tekstów), istotnie wykorzystaną przy tworzeniu i utrzymaniu systemów antyplagiatowych, w tym Jednolitego Systemu Antyplagiatowego JSA,
  • Narzędzie VerICS do weryfikowania systemów wieloagentowych i czasu rzeczywistego,
  • Narzędzie PlanICS do automatycznej kompozycji usług sieciowych,
  • Protokoły głosowania weryfikowalne przez użytkownika,
  • Model zapobiegania przymuszaniu podczas głosowania elektronicznego.

Wśród badań teoretycznych dotyczących podstaw informatyki i teorii informacji, za największe spośród osiągnięć naszych pracowników w ciągu ostatniej dekady uważamy prace dra hab. Łukasza Dębowskiego na temat modeli produkcji języka, inspirowane teorią informacji i kodowania. Ostatnio ukazała się monografia "Information Theory Meets Power Laws: Stochastic Processes and Language Models", wydana w John Wiley & Sons

Instytut ma prawo nadawać stopnie naukowe w naukach inżynieryjno-technicznych w dyscyplinie informatyka techniczna i telekomunikacja oraz w naukach ścisłych i przyrodniczych w dyscyplinie informatyka.

Z materiałami archiwalnymi na temat Centrum Obliczeniowego i Instytutu Podstaw Informatyki (prace naukowe, fotografia, czasopisma) można zapoznać się na stronie naszej biblioteki cyfrowej oraz w zakładce Historia Instytutu.

Dyrektor: Prof. dr hab. inż. Wojciech Penczek
Przewodniczący Rady Naukowej: Prof. dr hab. inż. Krzysztof Malinowski

COMBO – system do przetwarzania języka naturalnego dla ponad 40 języków




Artykuł pt. "COMBO: State-of-the-Art Morphosyntactic Analysis" ukazał się w materiałach konferencji Empirical Methods in Natural Language Processing, która odbyła się w listopadzie 2021 roku. Artykuł przedstawia COMBO – system do przetwarzania języka naturalnego, oparty o sieci neuronowe i służący do tagowania częściami mowy, analizy morfologicznej, lematyzacji i parsowania zależnościowego. System nie tylko przewiduje wartości kategorii gramatycznych, ale jednocześnie umożliwia zwracanie ich reprezentacji wektorowych. COMBO jest łatwym do zainstalowania pakietem w języku Python, który umożliwia trenowanie własnych modeli wstępnego przetwarzania języka albo automatyczne pobieranie pretrenowanych modeli dla ponad 40 języków. System był optymalizowany pod kątem zachowania balansu pomiędzy wydajnością a jakością. Jako rozwiązanie typu ,,end-to-end”, gdzie moduły są uczone w sposób łączny, COMBO oferuje szybki czas trenowania modelu dla danego języka z jednoczesnym zachowaniem jakości predykcji nierzadko przewyższającej konkurencyjne rozwiązania.

Biblioteka jest dostępna pod linkiem: https://gitlab.clarin-pl.eu/syntactic-tools/combo. Udostępniliśmy również webową wersję demonstracyjną COMBO: http://combo-demo.nlp.ipipan.waw.pl/combo-pl.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności