Równoległe algorytmy grupowania danych wykorzystujące algorytm EM i modele mieszane

Identyfikator grantu: PT01046

Kierownik projektu: Wojciech Kwedlo

Politechnika Białostocka

Wydział Informatyki

Białystok

Data otwarcia: 2023-03-01

Streszczenie projektu

Algorytmy grupowania oparte o algorytm EM i modele mieszane są uogólnieniem popularnego algorytmu K-średnich, pozwalającym na uzyskanie grup danych o bardziej arbitralnych (np. elipsoidalnych) kształtach. Przeszkodą w ich szerszym rozpowszechnieniu jest duża złożoność obliczeniowa, która jest proporcjonalna do kwadratu wymiaru przestrzeni cech. W ramach grantu zostanie zbadana skalowalność sformułowania równoległego algorytmu EM dla modeli mieszanych rozkładów normalnych. Na początku, przy pomocy standardu OpenMP, zostanie opracowana wersja dla pojedynczego węzła klastra Tryton (24 wątki). Ta wstępna wersja zostanie następnie rozszerzona na wiele węzłów klastra, dzięki wykorzystaniu techniki przesyłania komunikatów MPI. Skalowalność tej finalnej wersji, zrównoleglonej w hybrydowym modelu MPI/OpenMP, zostanie zbadana przy wykorzystaniu (w zależności od bieżącego obłożenia obliczeniami) do 64 węzłów klastra. Wersja finalna zostanie wykorzystana jako budujący blok bardziej złożonych metod grupowania danych [1], na przykład łączących optymalizację lokalną algorytmem EM z optymalizacją globalną wykonywaną przez algorytmy ewolucyjne. Przewidziana jest również dalsza rozbudowa tych metod, na przykład dodanie techniki automatycznej selekcji cech lub automatycznej selekcji liczby grup. Wyniki prac zostaną opublikowana w materiałach konferencji międzynarodowych i czasopiśmie z listy JCR.
Literatura
[1] Wojciech Kwedlo, "A hybrid steady-state evolutionary algorithm using random swaps for Gaussian model-based clustering", Expert Systems with Applications, 208(2022) id 118159, DOI:10.1016/j.eswa.2022.118159


← Powrót do spisu projektów

KONTAKT

Nasi konsultanci służą pomocą przyszłym i początkującym użytkownikom specjalistycznego oprogramowania zainstalowanego na Komputerach Dużej Mocy w Centrum Informatycznym TASK.

Kontakt w sprawach Komputerów Dużej Mocy, oprogramowania/licencji, grantów obliczeniowych, sprawozdań:

kdm@task.gda.pl

Administratorzy odpowiadają na maile w dni robocze w godzinach 8:00 – 15:00.