• Aktualności

Aktualności Instytutu Podstaw Informatyki PAN

Zapytanie ofertowe nr EA/ZPN-1/7/22
Stworzenie bazy opinii o produktach na podstawie wpisów, treści multimedialnych i komentarzy umieszczonych w sieciach społecznościowych


Przedmiot zamówienia finansowany z projektu uzyskanego w ramach konkursu INFOSTRATEG III,
finansowanego przez Narodowe Centrum Badań i Rozwoju.

Czytaj więcej: Zapytanie ofertowe nr EA/ZPN-1/7/22

Rusza rekrutacja do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych PAN


20 czerwca rusza rekrutacja do Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych Instytutów PAN (TIBPAN). TIBPAN prowadzi kształcenie interdyscyplinarne przygotowujące do uzyskania stopnia doktora w następujących dyscyplinach:

  • informatyka techniczna i telekomunikacja,
  • inżynieria biomedyczna,
  • nauki medyczne.

Instytut Podstaw Informatyki PAN w ramach studiów w TIBPAN prowadzi rekrutację w 6 tematach badań doktoranckich:

  1. Badanie segmentacji danych w głębokim uczeniu,
  2. Informacja interakcyjna i jej wykorzystanie w Genome Wide Interaction Studies,
  3. Ku semantycznym miarom zawartości informacyjnej - integracja wiedzy z grafu linków i semistrukturalnej informacji tekstowej,
  4. Learning to rank w modelowaniu różnicowym i medycynie spersonalizowanej,
  5. Określenie źródła zmienności ekspresji genów w populacjach komórek – analiza zależności między sygnałami epigenetycznymi a trójwymiarową strukturą chromatyny,
  6. Weryfikacja socjotechnicznych modeli systemów wieloagentowych i protokołów elektronicznego głosowania.

Więcej na ten temat na stronach:
https://ipipan.waw.pl/studia/szkola-doktorska-tib-pan
http://tib.ippt.pan.pl

Termin nadsyłania zgłoszeń na adres Instytutu Podstawowych Problemów Techniki PAN mija 24 czerwca 2022 r.

13.06.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Michał Ulewicz

Streszczenie (autorskie):

Semantic Role Labeling (SRL) pozwala przedstawić znaczenie zdania w postaci struktur (tzw. ramek) składających się z orzeczenia i argumentów związanych z tym orzeczeniem. Takie podejście pozwala podzielić zdanie na istotne znaczeniowo fragmenty i precyzyjnie znaleźć odpowiedzi na pytania: kto, co, komu, kiedy i jak zrobił dla każdego z tych fragmentów. W pierwszym etapie znajdowane są orzeczenia i ujednoznaczniane ich znaczenia. W drugim etapie dla każdej ramki identyfikowane i klasyfikowane są argumenty. Do budowy skutecznych modeli SRL potrzebne są dane i o ile dla języka angielskiego istnieją wysokiej jakości zestawy danych (propbank), to dla pozostałych języków takie zbiory praktycznie nie istnieją, głównie ze względu na wysoki nakład pracy i koszt potrzebny do ich stworzenia. Podczas wystąpienia opowiem jak SRL może pomóc w precyzyjnym przetwarzaniu tekstu. Przedstawię próby automatycznego generowania zestawów danych dla różnych języków w tym języka polskiego z wykorzystaniem techniki rzutowania anotacji (ang. annotation projection). Przedstawię zidentyfikowane problemy związane z automatycznym rzutowaniem anotacji z języka angielskiego na język polski. Opowiem o modelach SRL, które zbudowałem na bazie modeli typu Transformer.

Czytaj więcej: 13.06.2022 - Seminarium "Przetwarzania Języka Naturalnego"

06.06.2022 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Cezary Klamra, Grzegorz Wojdyga (Instytut Podstaw Informatyki PAN), Sebastian Żurowski (Uniwersytet Mikołaja Kopernika), Paulina Rosalska (Uniwersytet Mikołaja Kopernika / Applica.ai), Matylda Kozłowska (Oracle Polska), Maciej Ogrodniczuk (Instytut Podstaw Informatyki PAN)

Streszczenie (autorskie):

Przedstawimy metodę transferu stylu tekstu do zastępowania wyrażeń wulgarnych ich niewulgarnymi odpowiednikami polegającą na dostrojeniu trzech wstępnie wytrenowanych modeli językowych (GPT-2, GPT-3 i T-5) na nowo powstałym korpusie równoległym par zdań wulgarnych i niewulgarnych. Następnie ocenimy otrzymane modele, sprawdzając ich dokładność transferu stylu, zachowanie treści i jakość języka. Zgodnie z naszą najlepszą wiedzą, proponowane rozwiązanie jest pierwszym tego typu dla języka polskiego. Tekst opisujący prezentowane rozwiązanie został przyjęty na konferencję ICCS 2022.

Czytaj więcej: 06.06.2022 - Seminarium "Przetwarzania Języka Naturalnego"

Nagroda im. Profesora Zdzisława Pawlaka za Wybitną Monografię z Zakresu Informatyki dla Łukasza Dębowskiego


Information Theory Meets Power LawsDyplom Nagroda im. Pawlaka

Monografia pt. Information Theory Meets Power Laws: Stochastic Processes and Language Models autorstwa dra hab. Łukasza Dębowskiego, prof. IPIPAN została uhonorowana Nagrodą za Wybitną Monografię z Zakresu Informatyki, przyznaną przez Komitet Informatyki Polskiej Akademii Nauk w pierwszej edycji konkursu im. Profesora Zdzisława Pawlaka.

Monografia dotyczy matematycznych podstaw statystycznego modelowania języka. Statystyczny model języka to rozkład prawdopodobieństwa na ciągach liter, który aproksymuje proces tworzenia tekstów przez ludzi. Modele takie - jak na przykład modele GPT-{2,3} oparte na głębokich sieciach neuronowych - są obecnie podstawowymi modelami w przetwarzaniu języka naturalnego, np. w rozpoznawaniu mowy i maszynowym tłumaczeniu.

Monografia analizuje statystyczne modele języka oczami matematyka - za pomocą aparatu teorii informacji i teorii procesów stochastycznych. Punktem wyjścia są rozmaite empiryczne prawa potęgowe spełniane przez teksty w języku naturalnym. Celem jest zrozumienie, dlaczego prawa te są spełnione, oraz skonstruowanie prostych przykładów stacjonarnych procesów stochastycznych, które spełniają te prawa. Świadom czynionych idealizacji autor zakłada, że postęp na obu tych polach może pomóc w dalszym ulepszaniu praktycznych statystycznych modeli języka.

Książka pisana była przede wszystkim z myślą o zainteresowaniu matematyków i studentów matematyki podstawowymi problemami statystycznego modelowania języka. Równolegle autor postanowił przedstawić sposób probabilistycznego matematycznego myślenia o języku naukowcom zajmującym się sztuczną inteligencją, lingwistyką komputerową i kwantytatywną oraz fizyką układów złożonych. W związku z tym pierwszy rozdział nakreśla główne tematy książki czytelnikom o mniejszym przygotowaniu matematycznym.


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności