Aktualności Instytutu Podstaw Informatyki PAN

Kategorie składniowe członów w konstrukcjach współrzędnie złożonych w j. polskim - artykuł w Language


Artykuł "Coordination of Unlike Grammatical Cases (and Unlike Categories)" autorstwa prof. Adama Przepiórkowskiego z Zespołu Inżynierii Lingwistycznej został przyjęty do publikacji w Language, najbardziej prestiżowym czasopiśmie lingwistycznym.

Artykuł – oparty przede wszystkim na danych z języka polskiego – pokazuje, że w konstrukcjach współrzędnie złożonych („Bart i Lisa”, „pracuje w elektrowni lub siedzi w barze”) poszczególne człony nie muszą mieć ani tej samej kategorii składniowej (rzeczownik, przymiotnik itd.; por. „w Springfield lub gdzieś indziej” – koordynacja frazy przyimkowej i przysłówkowej), ani tego samego przypadka gramatycznego (mianownik, biernik itd.; por. „późnym wieczorem lub następnego poranka” – koordynacja narzędnika i dopełniacza). Artykuł pokazuje także, jakie mechanizmy teoretyczne pozwalają modelować taką koordynację niejednorodną w czterech ważnych teoriach lingwistycznych: Lexical Functional Grammar, Categorial Grammar, Head-driven Phrase Structure Grammar oraz Minimalist Program.

Artykuł ukazał się w Language w numerze wrześniowym 2022 roku: https://muse.jhu.edu/pub/24/article/864636.

60-lecie założenia CO PAN i 45-lecie powstania IPI PAN


W 2021 r. obchodzimy 60-lecie powstania naszego Instytutu. Początkowo, od 1961 r. nosił nazwę Centrum Obliczeniowego Polskiej Akademii Nauk. W 1976 r. CO PAN zostało przekształcone w Instytut Podstaw Informatyki PAN. W bieżącym roku przypada 45-lecie powołania IPI PAN.

Wybitni badacze z CO PAN / IPI PAN położyli podwaliny pod rozwój polskiej informatyki teoretycznej. W chwili powstania IPI PAN jego najważniejszymi badaczami byli: Leon Łukaszewicz, Antoni Mazurkiewicz, Zdzisław Pawlak i Józef Winkowski (współtwórcy maszyny XYZ) oraz Romuald Marczyński (pomysłodawca i główny twórca maszyn EMAL i EMAL-2).

Obecnie IPI PAN zatrudnia 48 pracowników naukowych i realizuje wiele znaczących projektów z zakresu podstaw informatyki i teorii informacji.Zainteresowania Instytutu dotyczą głównie badań podstawowych, ale również oprogramowania do zastosowań intra- i interdyscyplinarnych. Efekty naszych badań i prac rozwojowych obejmują między innymi:

  • Narzędzie programistyczne MCFS-ID (Monte Carlo Feature Selection and Interdependency Discovery) użyteczne w tej dziedzinie Bioinformatyki,
  • Narodowy Korpus Języka Polskiego (NKJP) zawierający 1,5 miliarda słów,
  • Narzędzie Korpusomat do samodzielnego tworzenia elektronicznych korpusów tekstów,
  • Platformę do ujednoznacznienia znaczenia słów oraz specjalne narzędzia dla lingwistyki korpusowej,
  • Semantyczną wyszukiwarkę dla polskiego Internetu (NEKST - Narzędzia EKsploracji Semantycznej Tekstów), istotnie wykorzystaną przy tworzeniu i utrzymaniu systemów antyplagiatowych, w tym Jednolitego Systemu Antyplagiatowego JSA,
  • Narzędzie VerICS do weryfikowania systemów wieloagentowych i czasu rzeczywistego,
  • Narzędzie PlanICS do automatycznej kompozycji usług sieciowych,
  • Protokoły głosowania weryfikowalne przez użytkownika,
  • Model zapobiegania przymuszaniu podczas głosowania elektronicznego.

Wśród badań teoretycznych dotyczących podstaw informatyki i teorii informacji, za największe spośród osiągnięć naszych pracowników w ciągu ostatniej dekady uważamy prace dra hab. Łukasza Dębowskiego na temat modeli produkcji języka, inspirowane teorią informacji i kodowania. Ostatnio ukazała się monografia "Information Theory Meets Power Laws: Stochastic Processes and Language Models", wydana w John Wiley & Sons

Instytut ma prawo nadawać stopnie naukowe w naukach inżynieryjno-technicznych w dyscyplinie informatyka techniczna i telekomunikacja oraz w naukach ścisłych i przyrodniczych w dyscyplinie informatyka.

Z materiałami archiwalnymi na temat Centrum Obliczeniowego i Instytutu Podstaw Informatyki (prace naukowe, fotografia, czasopisma) można zapoznać się na stronie naszej biblioteki cyfrowej oraz w zakładce Historia Instytutu.

Dyrektor: Prof. dr hab. inż. Wojciech Penczek
Przewodniczący Rady Naukowej: Prof. dr hab. inż. Krzysztof Malinowski

COMBO – system do przetwarzania języka naturalnego dla ponad 40 języków




Artykuł pt. "COMBO: State-of-the-Art Morphosyntactic Analysis" ukazał się w materiałach konferencji Empirical Methods in Natural Language Processing, która odbyła się w listopadzie 2021 roku. Artykuł przedstawia COMBO – system do przetwarzania języka naturalnego, oparty o sieci neuronowe i służący do tagowania częściami mowy, analizy morfologicznej, lematyzacji i parsowania zależnościowego. System nie tylko przewiduje wartości kategorii gramatycznych, ale jednocześnie umożliwia zwracanie ich reprezentacji wektorowych. COMBO jest łatwym do zainstalowania pakietem w języku Python, który umożliwia trenowanie własnych modeli wstępnego przetwarzania języka albo automatyczne pobieranie pretrenowanych modeli dla ponad 40 języków. System był optymalizowany pod kątem zachowania balansu pomiędzy wydajnością a jakością. Jako rozwiązanie typu ,,end-to-end”, gdzie moduły są uczone w sposób łączny, COMBO oferuje szybki czas trenowania modelu dla danego języka z jednoczesnym zachowaniem jakości predykcji nierzadko przewyższającej konkurencyjne rozwiązania.

Biblioteka jest dostępna pod linkiem: https://gitlab.clarin-pl.eu/syntactic-tools/combo. Udostępniliśmy również webową wersję demonstracyjną COMBO: http://combo-demo.nlp.ipipan.waw.pl/combo-pl.

Algorytmy szyfrowania i kompresji dla Internetu Rzeczy


Prof. Józef Pieprzyk, dr hab. inż. Paweł Morawiecki i dr inż. Marcin Pawłowski z Zespołu Kryptografii, są autorami pracy „Compcrypt – Lightweight ANS-Based Compression and Encryption”, zamieszczonej w czasopiśmie IEEE Transactions on Information Forensics and Security.

Praca powstała w ramach grantu finansowanego z Narodowego Centrum Nauki, poświęconego algorytmom szyfrowania i kompresji. Współautorami publikacji są badacze z Australii (S.Camtepe, A. Mahboubi, S. Nepal) oraz dr Jarosław Duda z Uniwersytetu Jagiellońskiego.

W pracy zaprezentowano rodzinę algorytmów typu compcrypt, czyli lekkich algorytmów kompresująco-szyfrujących opartych na algorytmie kompresji ANS. Zawarta analiza wydajności i bezpieczeństwa algorytmów compcrypt wykazała ich potencjalną przydatność w wielu środowiskach a w szczególności w zastosowaniach Internetu Rzeczy czy 5G.

Klasyfikatory tekstu wspomagają użytkowników w wykrywaniu fake newsów w internecie


Ocena wiarygodności tekstu jest przedmiotem artykułu dr. Piotra Przybyły z Zespołu Inżynierii Lingwistycznej, który ukazał się w czasopiśmie “Information Processing & Management”. W ramach badań zaimplementowano różne klasyfikatory tekstu w formie rozszerzenia do przeglądarki, aby sprawdzić, jak korzystanie z nich wpływa na postrzeganie wiarygodności przez czytelników treści internetowych. Uzyskane wyniki wskazują, że użytkownicy korzystający z przygotowanych modeli są w stanie odróżniać artykuły wiarygodne od fake news z większą łatwością, niż bazując tylko na własnym osądzie.

Prace przeprowadzono w ramach projektu HOMADOS (https://homados.ipipan.waw.pl/), finansowanego przez Narodową Agencję Wymiany Akademickiej (NAWA), we współpracy z Universidad Nacional del Sur (Argentyna). Artykuł „When Classification Accuracy is Not Enough: Explaining News Credibility Assessment” ukazał się w czasopiśmie “Information Processing & Management”


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności