Równoległe algorytmy grupowania danych wykorzystujące algorytm EM i modele mieszane
Identyfikator grantu: PT01046
Kierownik projektu: Wojciech Kwedlo
Politechnika Białostocka
Wydział Informatyki
Białystok
Data otwarcia: 2023-03-01
Streszczenie projektu
Algorytmy grupowania oparte o algorytm EM i modele mieszane są uogólnieniem popularnego algorytmu K-średnich, pozwalającym na uzyskanie grup danych o bardziej arbitralnych (np. elipsoidalnych) kształtach. Przeszkodą w ich szerszym rozpowszechnieniu jest duża złożoność obliczeniowa, która jest proporcjonalna do kwadratu wymiaru przestrzeni cech. W ramach grantu zostanie zbadana skalowalność sformułowania równoległego algorytmu EM dla modeli mieszanych rozkładów normalnych. Na początku, przy pomocy standardu OpenMP, zostanie opracowana wersja dla pojedynczego węzła klastra Tryton (24 wątki). Ta wstępna wersja zostanie następnie rozszerzona na wiele węzłów klastra, dzięki wykorzystaniu techniki przesyłania komunikatów MPI. Skalowalność tej finalnej wersji, zrównoleglonej w hybrydowym modelu MPI/OpenMP, zostanie zbadana przy wykorzystaniu (w zależności od bieżącego obłożenia obliczeniami) do 64 węzłów klastra. Wersja finalna zostanie wykorzystana jako budujący blok bardziej złożonych metod grupowania danych [1], na przykład łączących optymalizację lokalną algorytmem EM z optymalizacją globalną wykonywaną przez algorytmy ewolucyjne. Przewidziana jest również dalsza rozbudowa tych metod, na przykład dodanie techniki automatycznej selekcji cech lub automatycznej selekcji liczby grup. Wyniki prac zostaną opublikowana w materiałach konferencji międzynarodowych i czasopiśmie z listy JCR.
Literatura
[1] Wojciech Kwedlo, "A hybrid steady-state evolutionary algorithm using random swaps for Gaussian model-based clustering", Expert Systems with Applications, 208(2022) id 118159, DOI:10.1016/j.eswa.2022.118159
Literatura
[1] Wojciech Kwedlo, "A hybrid steady-state evolutionary algorithm using random swaps for Gaussian model-based clustering", Expert Systems with Applications, 208(2022) id 118159, DOI:10.1016/j.eswa.2022.118159