Kontakt Kontakt

DW. Hung Son Nguyen, Marcin Szczuka
Wydział Matematyki Informatyki i Mechaniki
Uniwersytet Warszawski
Banacha 2, 02-097 Warszawa
tel. (22) 55 44 585
fax (22) 55 44 300
e-mail: synat@mimuw.edu.pl
WWW: http://synat.mimuw.edu.pl
Realizowane Etapy Realizowane Etapy

Etap B13 Metody semantycznego indeksowania, klasyfikowania i wyszukiwania z wykorzystaniem słowników, tezaurusów i ontologii, metody przetwarzania i wizualizacji wyników.

Celem tego etapu jest opracowanie metod i algorytmów wspomagających dialog z repozytoriami tekstów i zasobami multimedialnymi zgromadzonymi na dedykowanych serwerach. Opracowane metody dialogu umożliwią dostarczenie użytkownikom z różnych dziedzin metod pozyskiwania pożądanej jakości informacji o poszukiwanych dokumentach. W szczególności, dotyczy to metod i algorytmów wyszukiwania i indeksowania wspomaganego słownikami, tezaurusami i ontologiami pozwalającymi głębiej wniknąć w semantykę analizowanych obiektów.

W ramach tego etapu zostaną opracowane:

  • Metody semantycznego indeksowania obiektów cyfrowych z wykorzystaniem słowników, tezaurusów i ontologii.
  • Metody semantycznego wyszukiwania z wykorzystaniem słowników, tezaurusów i ontologii.
  • Metody dialogu z użytkownikami i przetwarzania wyników wyszukiwań oraz ich wizualizacji.
  • Metody semantyczne przetwarzania języka naturalnego, ze szczególnym uwzględnieniem metod eksploracji tekstów (ang. text mining) w języku polskim.

Dotychczasowe doświadczenia w dziedzinie wyszukiwania obiektów cyfrowych wskazują, że metody wyszukiwania o odpowiedniej jakości winny korzystać z wiedzy dziedzinowej. Pewne aspekty tej wiedzy dziedzinowej mogą być wyrażone za pomocą informacji reprezentowanej w słownikach, tezaurusach i ontologiach. W szczególności opracowane metody korzystać będą z tej informacji dla efektywnego indeksowania dokumentów multimedialnych co z kolei pozwoli na opracowanie szybkich metod wyszukiwania dokumentów.

Jakość procesu wyszukiwania w istotny sposób zależy od metod przetwarzania i wizualizacji. Istotnym problemem jest reprezentacja, zwykle bardzo dużych, zbiorów dokumentów stanowiących odpowiedź na zapytania użytkowników. Metody dialogu z użytkownikami pozwolą na redukcję bądź modyfikację tych zbiorów. Dialog z użytkownikami będzie wspomagany, np. metodami grupowania hierarchicznego.

Etap B14 Model integracji systemu wiedzy z uwzględnieniem akwizycji i analizy danych oraz hurtowni danych.

Celem tego etapu jest opracowanie hurtowni danych będącej jednym z centralnych modułów systemu, przechowującej metadane dla obiektów cyfrowych objętych projektem, oraz dane o sposobach ich używania przez użytkowników systemu. Sposób przechowywania danych, jak i oprogramowanie hurtowni muszą zapewniać efektywne przetwarzanie danych na potrzeby innych modułów systemu. Kluczowe jest wykorzystanie istniejącego dostępnego oprogramowania bazodanowego i analitycznego, szczególnie rozwiązań open source. Funkcjonalność i prędkość hurtowni danych ma być dopełnieniem dla repozytorium obiektów multimedialnych wraz z inteligentnymi modułami jego przeszukiwania.

Wyniki tego etapu będą obejmować:

  • Model logiczny i fizyczny danych, które będą pprzechowywane w hurtowni.
  • Wybór i wdrożenie oprogramowania zapewniającego funkcjonalność hhurtowni danych.
  • W drożenie narzędzi Business Intelligence przydatnych w planowanych analizach.
  • Metody zaawansowanej analizy danych oparte na SQL oraz eksploracji danych, które pozwalają na przyspieszenie ekstrakcji informacji opisanych w założeniach pprojektu.
  • Zintegrowana z innymi modułami systemu centralna hurtownia danych. W szczególności, nacisk na szybkie współdziałanie hurtowni z modułami pprzeszukiwania i indeksowania repozytorium danych multimedialnych.

Integracja danych płynących z różnych źródeł stanowi ważny etap projektowania systemów pozyskiwania, przechowywania i analizy danych. Błędy popełnione na tym etapie mogą owocować spowolnieniem uaktualniania danych i dostępu do danych, a szczególnie złożonych analiz danych. Brak integracji pogłębiłby problemy z prędkością i niezawodnością działania systemu. Integracja danych w tym projekcie jest z badawczego punktu widzenia czymś szczególnym, gdyż powyżej opisane dane - ich typy i wzajemne relacje - w znacznym stopniu odbiegają od najpopularniejszych zastosowań hurtowni danych i analitycznych baz danych. Zatem, zadanie to jest kluczowe dla faktycznej przydatności podejść opracowywanych w obrębie innych zadań badawczych projektu.

O Wykonawcy O Wykonawcy

Kierownik Części Zadania Badawczego i Kierownik Etapu B13

dr hab. Hung Son Nquyen

Dr. hab. Hung Son Nguyen przyjechał do Polski na stypendium rządu polskiego w 1988 roku, jako medalista międzynarodowej olimpiady matematycznej. Uzyskał tytuły magistra w dziedzinie matematyki i informatyki, oba na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. W 1997 r. uzyskał stopień doktora, a w 2008 stopień doktora habilitowanego nauk matematycznych w zakresie informatyki. Obecnie pracuje na stanowisku profesora nadzwyczajnego w Instytucie Matematyki Uniwersytetu Warszawskiego.

Dr. hab. Hung Son Nguyen zajmuje się badaniami w dziedzinach, między innymi: eksploracji danych, sztucznej inteligencji, uczenia maszynowego i odkrywania wiedzy z danych.

dr Dominik Ślęzak - Kierownik Etapu B14

dr Dominik Ślęzak jest wychowankiem Wydziału Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego, gdzie uzyskał tytuł magistra matematyki i stopień doktora nauk matematycznych w zakresie informatyki. W swojej karierze zajmował się działalnością akademicką w Polsce i Kanadzie. Jest zaangażowany w projekty przemysłowe związane z sytemami baz danych, jako kierownik ds. badań i rozwoju w Infobright Inc.

Dr. Dominik Ślęzak zajmuje się badaniami w dziedzinach, między innymi: baz danych, sztucznej inteligencji, uczenia maszynowego i odkrywania wiedzy z danych.