• Aktualności

Aktualności Instytutu Podstaw Informatyki PAN

23.05.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Karolina Stańczak (Uniwersytet Kopenhaski)


Streszczenie (autorskie):

Sukces wstępnie wytrenowanych kontekstowych reprezentacji skłonił badaczy do ich analizy pod kątem obecności informacji lingwistycznej. Naturalne jest założenie, że takie reprezentacje kodują pewien poziom wiedzy językowej, ponieważ empirycznie przyniosły one znaczącą poprawę w wielu różnych zadaniach NLP, co sugeruje, że uczą się one prawdziwej generalizacji językowej. W niniejszej pracy koncentrujemy się na sondowaniu wewnętrznym, technice analizy, której celem jest nie tylko określenie, czy reprezentacja koduje dany atrybut językowy, ale także wskazanie, gdzie ten atrybut jest zakodowany. Proponujemy nową metodę zmiennej ukrytej do konstruowania sond wewnętrznych przy użyciu spolegliwej wariacyjnej aproksymacji log-likelihood. Wyniki pokazują, że nasz model jest uniwersalny i pozwala uzyskać dokładniejsze oszacowania informacji wzajemnej niż dwie sondy wewnętrzne zaproponowane wcześniej w literaturze. Znajdujemy również empiryczne dowody na to, że wstępnie wyszkolone reprezentacje wykształcają międzyjęzykowe pojęcie morfoskładni.

Czytaj więcej: 23.05.2022 - Seminarium "Przetwarzania Języka Naturalnego"

16.05.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Inez Okulska, Anna Zawadzka, Michał Szczyszek, Anna Kołos (NASK)

Streszczenie (autorskie):

A gdyby tak reprezentować tekst dowolnej długości za pomocą jednego, równego, i dodatkowo w pełni interpretowalnego wektora? Bez korpusu do uczenia, bez słownika pretrenowanych osadzeń, pojedynczo, na miejscu lub na wynos? Czemu nie! Wektory StyloMetrix to wykorzystująca bogactwo biblioteki spaCy kombinacja lingwistycznych metryk. Takie podejście oczywiście pomija reprezentację semantyki pojedynczych słów czy fraz i teoretycznie nie pozwala na detekcję konkretnych tematów. Chyba że – semantyka niesiona jest również przez styl? Dotychczasowe eksperymenty, jak i rezultaty badań filologicznych pokazują, że obszary te są ze sobą mocno splecione. Okazuje się bowiem, że – przykładowo – treści niewłaściwe dla dzieci czy młodzieży to nie tylko oczywisty zestaw zakazanej leksyki, lecz także kombinacja charakterystycznych wskaźników morfosyntaktycznych tekstu. Są one tak wyraziste i dystynktywne, że korzystając wyłącznie z reprezentacji StyloMetrix, można osiągnąć precyzję na poziomie 90% w zadaniu klasyfikacji wieloklasowej. Ponadto okazuje się, że skoro każda wartość wektora jest znormalizowanym wskaźnikiem konkretnej gramatycznej cechy dokumentu, to można się również czegoś dowiedzieć na temat lingwistycznych wyznaczników danego stylu. Taka konstrukcja metryk to też krok w stronę interpretowalności algebraicznych metod selekcji cech. Przedstawione w wystąpieniu eksperymenty będą opierały się na treściach opublikowanych w Internecie.

Czytaj więcej: 16.05.2022 - Seminarium "Przetwarzania Języka Naturalnego"

Przełomowe technologie teleinformatyczne – konferencja 11 maja w CN Kopernik


Podczas konferencji „Przełomowe technologie teleinformatyczne” – zaplanowanej na 11 maja w godz. 9:30-14:30 w CN Kopernik – zostaną zaprezentowane najważniejsze aspekty technologiczne, które będą miały wpływ na naszą przyszłość w aspekcie gospodarczym, geopolitycznym i społecznym. Wybitni naukowcy, przedstawiciele firm i instytucji państwowych omówią kwestie związane z nowoczesnymi metodami wytwarzania oprogramowania, kryptografią kwantową, bezpieczeństwem usług chmurowych oraz Internetem rzeczy i sieciami 5G w standardzie Open RAN. Udziału w konferencji organizowanej z okazji Światowego Dnia Społeczeństwa Informacyjnego jest bezpłatny (konieczna jest wcześniejsza rejestracja przez formularz dostępny na stronie https://sdsi.pl/konferencja/#rejestracja).

Rozwój najnowszych trendów – Internetu rzeczy (IoT), Internetu zachowań (IoB), sztucznej inteligencji (AI) czy też rozproszonych mechanizmów przetwarzania (DC) – staje się możliwy jedynie przy odpowiednim wsparciu inżynierii oprogramowania. Dlatego na początku konferencji zostaną zaprezentowane metody i techniki tworzenia nowoczesnego oprogramowania oraz niezbędne do tego kompetencje, bardzo poszukiwane na dzisiejszym rynku pracy.
Zastosowanie Internetu rzeczy – do produkcji przemysłowej, ale także do zarządzania przestrzenią publiczną – zostaną zgłębione w ramach osobnego bloku konferencyjnego. Kluczowe z punktów widzenia szerokiej implementacji tych systemów jest zapewnienie efektywnej i bezpiecznej komunikacji pomiędzy nimi.
Dwa pozostałe bloki tematyczne dotyczyć będą niezmiernie istotnych – z punktu widzenia geopolityki, ale także strategii firm – kwestii bezpieczeństwa. Omówione zostaną aspekty cyberbezpieczeństwa w coraz bardziej popularnych usługach chmurowych. Zostaną także przedstawione szanse i zagrożenia, które niesie kryptografia kwantowa – wykorzystywana zarówno do tworzenia zabezpieczeń, jak i ich łamania.

Instytut Podstaw Informatyki Polskiej Akademii Nauk objął Patronatem Instytucjonalnym obchody Światowego Dnia Społeczeństwa Informacyjnego, których kulminacyjnym punktem będzie konferencja „Przełomowe technologie teleinformatyczne”.

Kategorie składniowe członów w konstrukcjach współrzędnie złożonych w j. polskim - artykuł w Language


Artykuł "Coordination of Unlike Grammatical Cases (and Unlike Categories)" autorstwa prof. Adama Przepiórkowskiego z Zespołu Inżynierii Lingwistycznej został przyjęty do publikacji w Language, najbardziej prestiżowym czasopiśmie lingwistycznym.

Artykuł – oparty przede wszystkim na danych z języka polskiego – pokazuje, że w konstrukcjach współrzędnie złożonych („Bart i Lisa”, „pracuje w elektrowni lub siedzi w barze”) poszczególne człony nie muszą mieć ani tej samej kategorii składniowej (rzeczownik, przymiotnik itd.; por. „w Springfield lub gdzieś indziej” – koordynacja frazy przyimkowej i przysłówkowej), ani tego samego przypadka gramatycznego (mianownik, biernik itd.; por. „późnym wieczorem lub następnego poranka” – koordynacja narzędnika i dopełniacza). Artykuł pokazuje także, jakie mechanizmy teoretyczne pozwalają modelować taką koordynację niejednorodną w czterech ważnych teoriach lingwistycznych: Lexical Functional Grammar, Categorial Grammar, Head-driven Phrase Structure Grammar oraz Minimalist Program.

Artykuł ukaże się w Language w numerze grudniowym 2022 lub marcowym 2023 roku. Obecnie dostepny jest pod adresem https://ling.auf.net/lingbuzz/006492.

60-lecie założenia CO PAN i 45-lecie powstania IPI PAN


W 2021 r. obchodzimy 60-lecie powstania naszego Instytutu. Początkowo, od 1961 r. nosił nazwę Centrum Obliczeniowego Polskiej Akademii Nauk. W 1976 r. CO PAN zostało przekształcone w Instytut Podstaw Informatyki PAN. W bieżącym roku przypada 45-lecie powołania IPI PAN.

Wybitni badacze z CO PAN / IPI PAN położyli podwaliny pod rozwój polskiej informatyki teoretycznej. W chwili powstania IPI PAN jego najważniejszymi badaczami byli: Leon Łukaszewicz, Antoni Mazurkiewicz, Zdzisław Pawlak i Józef Winkowski (współtwórcy maszyny XYZ) oraz Romuald Marczyński (pomysłodawca i główny twórca maszyn EMAL i EMAL-2).

Obecnie IPI PAN zatrudnia 48 pracowników naukowych i realizuje wiele znaczących projektów z zakresu podstaw informatyki i teorii informacji.Zainteresowania Instytutu dotyczą głównie badań podstawowych, ale również oprogramowania do zastosowań intra- i interdyscyplinarnych. Efekty naszych badań i prac rozwojowych obejmują między innymi:

  • Narzędzie programistyczne MCFS-ID (Monte Carlo Feature Selection and Interdependency Discovery) użyteczne w tej dziedzinie Bioinformatyki,
  • Narodowy Korpus Języka Polskiego (NKJP) zawierający 1,5 miliarda słów,
  • Narzędzie Korpusomat do samodzielnego tworzenia elektronicznych korpusów tekstów,
  • Platformę do ujednoznacznienia znaczenia słów oraz specjalne narzędzia dla lingwistyki korpusowej,
  • Semantyczną wyszukiwarkę dla polskiego Internetu (NEKST - Narzędzia EKsploracji Semantycznej Tekstów), istotnie wykorzystaną przy tworzeniu i utrzymaniu systemów antyplagiatowych, w tym Jednolitego Systemu Antyplagiatowego JSA,
  • Narzędzie VerICS do weryfikowania systemów wieloagentowych i czasu rzeczywistego,
  • Narzędzie PlanICS do automatycznej kompozycji usług sieciowych,
  • Protokoły głosowania weryfikowalne przez użytkownika,
  • Model zapobiegania przymuszaniu podczas głosowania elektronicznego.

Wśród badań teoretycznych dotyczących podstaw informatyki i teorii informacji, za największe spośród osiągnięć naszych pracowników w ciągu ostatniej dekady uważamy prace dra hab. Łukasza Dębowskiego na temat modeli produkcji języka, inspirowane teorią informacji i kodowania. Ostatnio ukazała się monografia "Information Theory Meets Power Laws: Stochastic Processes and Language Models", wydana w John Wiley & Sons

Instytut ma prawo nadawać stopnie naukowe w naukach inżynieryjno-technicznych w dyscyplinie informatyka techniczna i telekomunikacja oraz w naukach ścisłych i przyrodniczych w dyscyplinie informatyka.

Z materiałami archiwalnymi na temat Centrum Obliczeniowego i Instytutu Podstaw Informatyki (prace naukowe, fotografia, czasopisma) można zapoznać się na stronie naszej biblioteki cyfrowej oraz w zakładce Historia Instytutu.

Dyrektor: Prof. dr hab. inż. Wojciech Penczek
Przewodniczący Rady Naukowej: Prof. dr hab. inż. Krzysztof Malinowski


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności