prof. dr hab. inż. Wojciech Penczek
Członek Korespondent PAN
dr hab. Agnieszka Mykowiecka, Prof. IPI PAN
Kontakt:
Sekretariat: tel. +48 22 380-05-04, +48 22 380-05-05
Centrala Instytutu: tel. +48 22 380-05-00
fax. +48 22 380-05-10
prof. dr hab. inż. Włodzimierz Drabent
prof. dr hab. inż. Marek Tudruj (urlop bezpłatny)
WWW: https://ztsrio.ipipan.waw.pl/
Działalność i zainteresowania członków grupy dotyczą następujących tematów:
Wiodącymi badaczami w tym zakresie są: W. Jamroga, W. Penczek.
Doktorant Szkoły Doktorskiej TIBPAN
Działalność i zainteresowania członków grupy dotyczą następujących tematów:
dr Marcin Malawski (urlop bezpłatny)
WWW: http://zpsi.ipipan.waw.pl/
Zespół prowadzi prace naukowo-badawcze w dziedzinie systemów inteligentnych w następujących kierunkach:
Zespół opracował i wdrożył masowo-równoległą wyszukiwarkę internetową NEKST.PL, która gromadzi zasoby całego polskiego Internetu. Naszą specjalnością jest systematyzowanie zasobów internetowych oraz ich udostępnianie użytkownikowi. Systematyzacja oznacza automatyczny podział zasobów internetowych na grupy tematyczne, wyróżnianie kanałów tematycznych w serwisach internetowych, oraz etykietowanie i kategoryzowanie dokumentów i ich grup. Z punktu widzenia użytkownika, przekłada się to nie tylko na bardziej precyzyjne identyfikowanie dokumentów wartościowych dla użytkownika. Systematyzacja daje również możliwość wyszukiwania kontekstowego zarówno pojedynczych dokumentów, jak i ich grup, np. kanałów tematycznych czy serwisów, oraz dywersyfikację odpowiedzi wyszukiwarki.
Ze zgromadzonych zasobów korzysta m.in. system antyplagiatowy OPI.
Prowadzimy szereg prac rozwojowych z wykorzystaniem dorobku konceptualnego jak i softwarowego powstałej wyszukiwarki.
Dywersyfikacja oznacza zróżnicowanie odpowiedzi w taki sposób, aby użytkownik ujrzał nie tylko najlepsze dokumenty, ale także rozmaitość czy niejednoznaczność tematyczną, taką jak np. w klasycznym pytaniu o zamki (krawieckie? z piasku? rycerskie? w drzwiach? etc).
Natomiast uwzględnianie kontekstu jest istotne wtedy, gdy poszukiwany dokument jest zrozumiały tylko w kontekście innych dokumentów kanału tematycznego. Przykładowo, zadając wyszukiwarce zapytanie o opony samochodowe - dość częste w sezonach jesiennym i wiosennym - oczekiwalibyśmy w odpowiedzi odnośników do serwisów czy to producentów opon samochodowych, czy też sklepów z oponami. Uwzględnienie kontekstu umożliwi wyszukiwarce zwrócenie odnośników również do takich dokumentów zawierających w swojej treści słowo "opony", w których nie występuje słowo "samochodowe".
Tak rozumiana systematyzacja będzie narzędziem przydatnym dla wielu grup użytkowników. Naukowcy i przedsiębiorcy będą mogli z jednej strony uzyskać informacje na temat potencjalnych partnerów bądź konkurentów na rynku. Z drugiej strony, systematyzacja ułatwi im identyfikację interesujących obszarów badawczych czy też luk w rynku, które można zagospodarować.
Obiecującym kierunkiem badań jest zastosowanie technologii wyszukiwarkowych, a także narzędzi pozyskiwania wiedzy z danych, tekstu i hipertekstu, do analizy sieci społecznych.
Integralną częścią problemów efektywnego odpowiadania na zapytania jest optymalizacja - choć w praktycznych zastosowaniach wychodzi ona daleko poza ten obszar. W IPI PAN skupiamy się na tzw. metodach heurystycznych, opartych na algorytmach ewolucyjnych, immunologicznych czy metodach inteligentnych rojów. Podstawową zaletą rozwijanych u nas metod jest dywersyfikacja otrzymywanych rozwiązań, co jest nie do przecenienia szczególnie w wypadku dużej dynamiki otoczenia optymalizowanego systemu. Oprócz technologii wyszukiwarkowych, mogą one znaleźć szerokie zastosowanie np. w optymalizacji reakcji chemicznych, w sterowaniu procesami produkcyjnymi, czy też w symulacji procesów społecznych. Zarówno w wypadku badań sieci społecznych, jak i środowisk dynamicznych, szeroko wykorzystujemy konstruowane w Zespole (na bazie własnych opracowań teoretycznych).
Prowadzone są także badania w klasycznych obszarach pozyskiwania wiedzy z danych, ale z pogłębioną analizą pozyskiwania klasyfikatorów tzw. akcji, tj. klasyfikatorów bazujących na rozróżnianiu tych cech obiektów, którymi można sterować bądź nie.
W tych i innych obszarach systemów inteligentnych współpracujemy z polskim przemysłem wyszukiwarkowym, zagranicznymi firmami zajmującymi się modelowaniem rynku, a także z uczelniami polskimi, takimi, jak Uniwersytet Kardynała Stefana Wyszyńskiego, Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Uniwersytet Przyrodniczo-Humanistyczny, Uniwersytet Gdański, Politechnika Wrocławska oraz zagranicznymi, jak Instytut Informatyki imienia Maksa Plancka (UE), Uniwersytet Karoliny Północnej w Charlotte (USA), Uniwersytet Stanowy w San Diego (USA) oraz Uniwersytet Adelaidy (Australia).
WWW: http://zil.ipipan.waw.pl/
Zespół Inżynierii Lingwistycznej (ZIL) zajmuje się wieloma aspektami automatycznego przetwarzania języka naturalnego.
Tradycyjnym obszarem zainteresowań ZIL jest głębokie przetwarzanie języka polskiego na poziomie składniowym, z wykorzystaniem gramatyk metamorficznych (DCG) i generatywnych formalizmów Head-driven Phrase Structure Grammar (HPSG) i Lexical Functional Grammar (LFG). Dla każdego z tych podejść stworzono implementację gramatyki obszernego podzbioru języka polskiego, przy czym nadal rozwijane są podejścia DCG i LFG.
Drugim ważnym obszarem działalności Zespołu jest szeroko rozumiana ekstrakcja informacji: liczne prace dotyczą wydobywania informacji z tekstów dziedzinowych, znajdowania w tekstach jednostek nazewniczych oraz, ogólniej, powierzchniowego parsowania języka. Do nurtu tego zaliczyć można także prace dotyczące wydobywania wiedzy lingwistycznej - w tym ram walencyjnych - na podstawie danych korpusowych.
Nowsze prace ZIL związane są z przetwarzaniem tekstów na poziomie semantycznym. Wymienić tu należy przede wszystkim ujednoznacznianie sensów słów, znajdowanie nawiązań w tekstach (ang. Coreference Resolution) i analizę wydźwięku (ang. Sentiment Analysis). Pewne elementy przetwarzania semantycznego zawarte są także w rozwijanym obecnie parserze LFG. Bardziej aplikacyjne prace związane z tym nurtem dotyczą automatycznego streszczania i tematycznej kategoryzacji dokumentów.
Zespół prowadzi także intensywne prace korpusowe. Pod kierunkiem ZIL powstał liczący 1,5 miliarda słów Narodowy Korpus Języka Polskiego (NKJP; oparty m.in. na wcześniejszym Korpusie IPI PAN), stworzone zostały także liczne narzędzia do ręcznego i automatycznego znakowania korpusów na wielu poziomach lingwistycznych, schemat anotacji XML oraz ręcznie znakowany podkorpus wielkości 1 miliona słów. Na bazie NKJP tworzony jest obecnie bank drzew składniowych Składnica, którego wstępne wersje zostały wykorzystane do wytrenowania parsera zależnościowego dla języka polskiego.
Narzędzia tworzone w Zespole są publicznie dostępne na licencjach swobodnych (ang. Open Source). Wśród nich wymienić należy: tagery morfosyntaktyczne, parser powierzchniowy Spejd, parser głęboki Świgra, narzędzie do rozpoznawania jednostek nazewniczych Nerf, system ujednoznaczniania sensów słów WSDDE, narzędzia korpusowe Poliqarp i Anotatornia itp. W ZIL trwają także prace nad stworzeniem - m.in. na potrzeby głębokiego przetwarzania składniowego - otwartego słownika morfologicznego PoliMorf, opartego na wcześniejszych słownikach tego typu. Narzędzia te są wykorzystywane w aplikacjach współtworzonych przez ZIL, m.in. w wielojęzycznym systemie zarządzania treścią.
ZIL aktywnie uczestniczy w licznych projektach krajowych i międzynarodowych.
Więcej informacji znaleźć można na stronie Zespołu: http://zil.ipipan.waw.pl/.
Doktoranci Szkoły Doktorskiej TIBPAN
WWW: https://zams.ipipan.waw.pl/
W Zespole prowadzone są badania nad uogólnieniem klasycznych metod uczenia maszynowego na przypadek modelowania różnicowego. Modelowanie różnicowe (ang. uplift modeling) zajmuje się modelowaniem przyczynowego wpływu danego działania (akcji marketingowej, terapii medycznej) na poziomie jednostkowym poprzez uwzględnienienie grupy kontrolnej nie poddanej danemu działaniu. Rozwijana jest również teoria modeli liniowych dla tego przypadku.
W zespole prowadzone są także badania z zakresu teorii informacji i probabilistycznego modelowania języka naturalnego. Szczegółowym przedmiotem badań są dyskretne procesy stochastyczne o silnej zależności, mierzonej między innymi tempem wzrostu entropii blokowej i maksymalnego powtórzenia. Rozpatrywane procesy cechują się pewnymi własnościami statystycznymi zbliżonymi do tekstów w języku naturalnym m.in. związanymi z hipotezą Hilberga. Badana jest konstrukcja przykładów takich procesów, wnioskowanie statystyczne dla nich oraz ich możliwe zastosowania w lingwistyce komputerowej.
Kolejny kierunek badań prowadzonych w zespole dotyczy metod klasyfikacji w sytuacji wielowymiarowej zmiennej odpowiedzi. Szczególnym przypadkiem jest klasyfikacja wieloetykietowa, w której rozważa się wielowymiarowe odpowiedzi binarne. Badanym problemem jest zaprojektowanie metod działających efektywnie w sytuacji danych o dużej wymiarowości, przy czym dotyczy to zarówno dużej liczby zmiennych objaśniających jak i dużej liczby zmiennych odpowiedzi. Celem badań jest rozwój algorytmów (jak również ich teoretyczna analiza) umożliwiających predykcję oraz selekcję zmiennych.
Tematyka selekcji zmiennych w modelach regresyjnych rozpatrywana jest również dla uogólnionych modeli liniowych dla sytuacji wektora predyktorów o dużej wymiarowości. Badania dotyczą procedur dwustopniowych, w których selekcja przy użyciu kryteriów informacyjnych następuje po wstępnym odsianiu nieistotnych zmiennych oraz procedur opartych na rangowaniu predyktorów wykorzystującym skumulowane miary ich ważności skonstruowane na podstawie dużej liczby losowych podmodeli. Otrzymane wyniki dotyczą zgodności selekcji dla zaproponowanych selektorów w sytuacji dobrej i złej specyfikacji modelu.
W zespole prowadzone są również badania dotyczące modelowania zależności stochastycznej przy użyciu teorii kopuł.
Więcej informacji znaleźć można na stronie Zespołu: http://zams.ipipan.waw.pl/.
WWW: http://zbo.ipipan.waw.pl/
Motto: To co matematyka uczyniła dla fizyki, informatyka uczyni dla biologii
(Stanisław Ulam, 1975)
Zespół Biologii Obliczeniowej (ZBO) jest nową jednostką w Zakładzie Sztucznej Inteligencji. ZBO ma dwa zakresy badań:
W pierwszym zakresie do najważniejszych osiągnięć członków ZBO należą utworzenie metody i zaimplementowanie systemy do wybierania i rangowania własności istotnych przy klasyfikacji stosując drzewa decyzyjne i metodę Monte Carlo (MCFS), oraz do budowania transparentnych klasyfikatorów stosując podejście zbiorów przybliżonych Pawlaka zaimplementowanych w systemie ROSETTA.
W drugim zakresie badań ZBO ma istotne osiągnięcia, między innymi, w modelowaniu patogeniczności wirusa ptasiej grypy oraz w szybko rozwijającym się ostatnio kierunku badań nad mutacjami w obszarach regulatorowych genomu skorelowanych z nowotworzeniem. Dalsze prace nad metodami koncentrują się na znajdywaniu „interdependencies” (współzależności?) pomiędzy istotnymi własnościami oraz na tworzeniu metodologii sieci powiązań opartych na regułach if-then generowanych przez modele zbiorów przybliżonych.
Głównym zadaniem badawczym podjętym przez ZBO jest zbudowanie atlasu regionów regulatorowych w mózgu człowieka (regionów transkrypcji, miejsc wiązania czynników transkrypcyjnych, enhancerów, struktury chromatyny i modyfikacji histonów. Badania te są finansowane przez Narodowe Centrum Nauki poprzez grant Symfonia 3 otrzymanego wspólnie z Instytutem Nenckiego PAN oraz Instytutem Informatyki Uniwersytetu Warszawskiego. Celem tego projektu jest głębsze zrozumienie procesów biologicznych zachodzących w nowotworowych komórkach glejaka oraz w schorzeniach psychicznych takich jak schizofrenia i choroba dwubiegunowa.
Zespół Biologii Obliczeniowej łączy bogate doświadczenia wiodącego ośrodka podstaw informatyki z najnowszymi podejściami biotechnologii stosowanymi w naukach o życiu. ZBO tworzy agorę na której spotykają się między innymi biologowie, statystycy, lingwiści, onkologowie i informatycy. W swoich badaniach ZBO realizuje nie tylko słynną wypowiedź profesora Stanisława Ulama, ale też potwierdza relację iż nauki o życiu dokonują przewrotu w informatyce i matematyce.
Więcej informacji znaleźć można na stronie Zespołu: http://zbo.ipipan.waw.pl/.