Równoległe algorytmy grupowania danych wykorzystujące algorytm EM i modele mieszane

Identyfikator grantu: PT01046

Kierownik projektu: Wojciech Kwedlo

Politechnika Białostocka

Wydział Informatyki

Białystok

Data otwarcia: 2023-03-01

Streszczenie projektu

Algorytmy grupowania oparte o algorytm EM i modele mieszane są uogólnieniem popularnego algorytmu K-średnich, pozwalającym na uzyskanie grup danych o bardziej arbitralnych (np. elipsoidalnych) kształtach. Przeszkodą w ich szerszym rozpowszechnieniu jest duża złożoność obliczeniowa, która jest proporcjonalna do kwadratu wymiaru przestrzeni cech. W ramach grantu zostanie zbadana skalowalność sformułowania równoległego algorytmu EM dla modeli mieszanych rozkładów normalnych. Na początku, przy pomocy standardu OpenMP, zostanie opracowana wersja dla pojedynczego węzła klastra Tryton (24 wątki). Ta wstępna wersja zostanie następnie rozszerzona na wiele węzłów klastra, dzięki wykorzystaniu techniki przesyłania komunikatów MPI. Skalowalność tej finalnej wersji, zrównoleglonej w hybrydowym modelu MPI/OpenMP, zostanie zbadana przy wykorzystaniu (w zależności od bieżącego obłożenia obliczeniami) do 64 węzłów klastra. Wersja finalna zostanie wykorzystana jako budujący blok bardziej złożonych metod grupowania danych [1], na przykład łączących optymalizację lokalną algorytmem EM z optymalizacją globalną wykonywaną przez algorytmy ewolucyjne. Przewidziana jest również dalsza rozbudowa tych metod, na przykład dodanie techniki automatycznej selekcji cech lub automatycznej selekcji liczby grup. Wyniki prac zostaną opublikowana w materiałach konferencji międzynarodowych i czasopiśmie z listy JCR.
Literatura
[1] Wojciech Kwedlo, "A hybrid steady-state evolutionary algorithm using random swaps for Gaussian model-based clustering", Expert Systems with Applications, 208(2022) id 118159, DOI:10.1016/j.eswa.2022.118159

Publikacje

  1. Wojciech Kwedlo, xpectation-Maximization Algorithms for Gaussian Mixture Models Using Linear Algebra Libraries on Parallel Shared-Memory Systems, Proceedings of the 18th Conference on Computer Science and Intelligence Systems (FedCSIS) 18, (2023) 1047-1052
  2. Wojciech Kwedlo, Algorytmy grupowania danych wykorzystujące prototypy grup, Wydział Informatyki Politechniki Białostockiej - wniosek habilitacyjny brak, (2023) brak


← Powrót do spisu projektów

CONTACT

Our consultants help future and novice users of specialized software installed on High Performance Computers (KDM) at the TASK IT Center.

Contact for High Performance Computers, software / licenses, computing grants, reports:

kdm@task.gda.pl

Administrators reply to e-mails on working days between 8:00 am – 3:00 pm.