Zastosowania

Wykorzystanie podejścia AutoML do trenowania modeli automatycznego rozpoznawania mowy (ASR) w trybie multi-GPU

Identyfikator grantu: PT01262

Kierownik projektu: Adam Kurowski

Realizatorzy:

  • Adam Kurowski

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2025-04-17

Planowana data zakończenia grantu: 2026-04-17

Streszczenie projektu

Postęp w dziedzinie automatycznego rozpoznawania mowy (ang. automatic speech recognition, ASR) jest kluczowy dla rozwoju technologii przetwarzania języka naturalnego (ang. natural language processing, NLP) i projektowania interfejsów głosowych. Trening współczesnych modeli ASR, takich jak Whisper czy Conformer, wymaga zasobów obliczeniowych znacząco przekraczających ilość zasobów dostępnych w typowych stacjach roboczych służących np. do obróbki grafiki, czy renderingu 3D. Z tego względu trening ten zwykle przeprowadza się na wyspecjalizowanych serwerach wyposażonych w zespół kart graficznych (tzw. tryb multi-GPU). Przygotowanie procesu treningu także skomplikowanym zadaniem, gdyż konieczne jest dobranie odpowiedniej kombinacji tzw. hiperparametrów treningu. Zwykle dobór ten przeprowadzany jest ręcznie przez inżyniera specjalizującego się w treningu algorytmów sztucznej inteligencji. Proces ten można jednak usprawnić poprzez wykorzystanie techniki AutoML (Automated Machine Learning). Podejście to pozwala na przeprowadzenie automatycznej optymalizacji hiperparametrów i architektur modeli, co znacząco przyspiesza proces badawczy oraz zwiększa efektywność trenowania modeli. Celem niniejszego projektu jest opracowanie i wdrożenie metodologii wykorzystania AutoML w połączeniu z infrastrukturą multi-GPU do trenowania modeli ASR. Projekt zakłada optymalizację procesów trenowania, minimalizację kosztów obliczeniowych oraz poprawę jakości wynikowych modeli. Cele Projektu: Zastosowanie AutoML do optymalizacji hiperparametrów i architektur modeli ASR: * Automatyzacja wyboru parametrów takich jak szybkość uczenia, strategie akumulacji gradientów oraz dobór harmonogramu uczenia * Eksploracja technik takich jak Hyperband, optymalizacja bayesowska (ang. Bayesian Optimization), czy uczenie ze wzmocnieniem (ang. Reinforcement Learning) dla efektywniejszego przeszukiwania przestrzeni hiperparametrów treningu Efektywne wykorzystanie infrastruktury multi-GPU: * Implementacja strategii równoległości danych (Data Parallelism) oraz równoległości modelu (Model Parallelism) w celu przyspieszenia treningu. * Optymalizacja komunikacji między GPU za pomocą narzędzi takich jak PyTorch Distributed Data Parallel (DDP) Ocena wpływu technik AutoML i multi-GPU na jakość modeli ASR : * Analiza metryk takich jak Word Error Rate (WER) na różnych zestawach danych * Porównanie wydajności modeli trenowanych na pojedynczym GPU versus multi-GPU * Porównanie liczby iteracji (prób) treningu, które są potrzebne do tego, aby każdy z badanych algorytmów AutoML wygenerował ostateczną, zoptymalizowaną architekturę systemu ASR Projekt wykorzysta frameworki takie jak NVIDIA NeMo oraz PyTorch do implementacji i trenowania modeli ASR w środowisku multi-GPU. Kluczowe komponenty obejmują: * Automatyczna optymalizacja hiperparametrów z użyciem bibliotek takich jak Autokeras, czy Auto-sklearn * Wdrożenie strategii DDP oraz Mixed Precision Training dla zwiększenia efektywności obliczeń. Eksperymenty obejmą: * Porównanie różnych metod równoległości (Data vs Model Parallelism). * Testowanie różnych konfiguracji GPU (np. 2x RTX 3090 vs 4x A100). * Ocena wpływu strategii AutoML na czas treningu oraz jakość wynikowego modelu. Oczekiwane Rezultaty: * Opracowanie skalowalnej metodologii, która może być wdrożona w innych projektach związanych z ASR. Harmonogram: Miesiące 1-3: Przygotowanie infrastruktury i danych. Miesiące 4-6: Implementacja AutoML i strategii multi-GPU. Miesiące 7-9: Eksperymenty i analiza wyników. Miesiące 10-12: Dokumentacja i publikacja wyników.


Powrót do listy grantów

KONTAKT

Nasi konsultanci służą pomocą przyszłym i początkującym użytkownikom specjalistycznego oprogramowania zainstalowanego na Komputerach Dużej Mocy w Centrum Informatycznym TASK.

Kontakt w sprawach Komputerów Dużej Mocy, oprogramowania/licencji, grantów obliczeniowych, sprawozdań:

kdm@task.gda.pl

Administratorzy odpowiadają na maile w dni robocze w godzinach 8:00 – 15:00.