Grant/Projek zakończony
Testy serwera z GPU
Kierownik projektu: Krzysztof Drypczewski
Politechnika Gdańska, CI TASK
Gdańsk
Data otwarcia: 2021-10-12
Data zakończenia: 2023-02-27
Streszczenie projektu
CI TASK udostępniło użytkownikom dwa serwery wyposażone w 8 kart GPU NVIDIA Tensor Core A100 każdy. W ramach grantu obliczeniowego zostaną przeprowadzone prace mające na celu przetestowanie oraz zapoznanie się z możliwościami w/w sprzętu.
Planowane prace:
1. Przygotowanie środowiska uczenia maszynowego w środowisku HPC.
Instalacja i konfiguracja narzędzi uczenia maszynowego: Tensorflow, Keras, PyTorch, scikit-learn. Oprogramowanie będzie dostępne poprzez moduły SLURM (module load) lub uruchamiane w kontenerach Singularity w trybie interaktywny (salloc) i nieinteraktywnym (sbatch)
2. Testy środowiska
Instalacja narzędzi testowych (ang. benchmark) dla AI np.: https://lambdalabs.com/gpu-benchmarks, https://ai-benchmark.com/ranking_deeplearning.html. Następnie uruchomienie benchmarków w różnej konfiguracji (obliczenia dla różnej ilości kart / na jednej / wielu maszynach wirtualnych). Wyniki pomiarów wydajności kart GPU dla różnego typu zadań posłużą do określenia możliwości systemu. Wyniki prac zostaną przedstawione w ramach raportu wewnętrznego.
3. Możliwe dalsze prace
Uruchomienia zadań uczenia maszynowego w systemach o wyższej abstrakcji:
- narzędzia środowisk rozproszonych (Spark-ML, Horovod, Dask)
- konteneryzacja obliczeń uczenia maszynowego na platformie Kubernetes
Planowane prace:
1. Przygotowanie środowiska uczenia maszynowego w środowisku HPC.
Instalacja i konfiguracja narzędzi uczenia maszynowego: Tensorflow, Keras, PyTorch, scikit-learn. Oprogramowanie będzie dostępne poprzez moduły SLURM (module load) lub uruchamiane w kontenerach Singularity w trybie interaktywny (salloc) i nieinteraktywnym (sbatch)
2. Testy środowiska
Instalacja narzędzi testowych (ang. benchmark) dla AI np.: https://lambdalabs.com/gpu-benchmarks, https://ai-benchmark.com/ranking_deeplearning.html. Następnie uruchomienie benchmarków w różnej konfiguracji (obliczenia dla różnej ilości kart / na jednej / wielu maszynach wirtualnych). Wyniki pomiarów wydajności kart GPU dla różnego typu zadań posłużą do określenia możliwości systemu. Wyniki prac zostaną przedstawione w ramach raportu wewnętrznego.
3. Możliwe dalsze prace
Uruchomienia zadań uczenia maszynowego w systemach o wyższej abstrakcji:
- narzędzia środowisk rozproszonych (Spark-ML, Horovod, Dask)
- konteneryzacja obliczeń uczenia maszynowego na platformie Kubernetes