Wykorzystanie podejścia AutoML do trenowania modeli automatycznego rozpoznawania mowy (ASR) w trybie multi-GPU

Identyfikator grantu: PT01262

Kierownik projektu: Adam Kurowski

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2025-04-17

Planowana data zakończenia grantu: 2026-04-17

Streszczenie projektu

Postęp w dziedzinie automatycznego rozpoznawania mowy (ang. automatic speech recognition, ASR) jest kluczowy dla rozwoju technologii przetwarzania języka naturalnego (ang. natural language processing, NLP) i projektowania interfejsów głosowych. Trening współczesnych modeli ASR, takich jak Whisper czy Conformer, wymaga zasobów obliczeniowych znacząco przekraczających ilość zasobów dostępnych w typowych stacjach roboczych służących np. do obróbki grafiki, czy renderingu 3D. Z tego względu trening ten zwykle przeprowadza się na wyspecjalizowanych serwerach wyposażonych w zespół kart graficznych (tzw. tryb multi-GPU).

Przygotowanie procesu treningu także skomplikowanym zadaniem, gdyż konieczne jest dobranie odpowiedniej kombinacji tzw. hiperparametrów treningu. Zwykle dobór ten przeprowadzany jest ręcznie przez inżyniera specjalizującego się w treningu algorytmów sztucznej inteligencji. Proces ten można jednak usprawnić poprzez wykorzystanie techniki AutoML (Automated Machine Learning). Podejście to pozwala na przeprowadzenie automatycznej optymalizacji hiperparametrów i architektur modeli, co znacząco przyspiesza proces badawczy oraz zwiększa efektywność trenowania modeli. Celem niniejszego projektu jest opracowanie i wdrożenie metodologii wykorzystania AutoML w połączeniu z infrastrukturą multi-GPU do trenowania modeli ASR. Projekt zakłada optymalizację procesów trenowania, minimalizację kosztów obliczeniowych oraz poprawę jakości wynikowych modeli.

Cele Projektu:
Zastosowanie AutoML do optymalizacji hiperparametrów i architektur modeli ASR:
* Automatyzacja wyboru parametrów takich jak szybkość uczenia, strategie akumulacji gradientów oraz dobór harmonogramu uczenia
* Eksploracja technik takich jak Hyperband, optymalizacja bayesowska (ang. Bayesian Optimization), czy uczenie ze wzmocnieniem (ang. Reinforcement Learning) dla efektywniejszego przeszukiwania przestrzeni hiperparametrów treningu

Efektywne wykorzystanie infrastruktury multi-GPU:
* Implementacja strategii równoległości danych (Data Parallelism) oraz równoległości modelu (Model Parallelism) w celu przyspieszenia treningu.
* Optymalizacja komunikacji między GPU za pomocą narzędzi takich jak PyTorch Distributed Data Parallel (DDP)

Ocena wpływu technik AutoML i multi-GPU na jakość modeli ASR :
* Analiza metryk takich jak Word Error Rate (WER) na różnych zestawach danych
* Porównanie wydajności modeli trenowanych na pojedynczym GPU versus multi-GPU
* Porównanie liczby iteracji (prób) treningu, które są potrzebne do tego, aby każdy z badanych algorytmów AutoML wygenerował ostateczną, zoptymalizowaną architekturę systemu ASR

Projekt wykorzysta frameworki takie jak NVIDIA NeMo oraz PyTorch do implementacji i trenowania modeli ASR w środowisku multi-GPU. Kluczowe komponenty obejmują:
* Automatyczna optymalizacja hiperparametrów z użyciem bibliotek takich jak Autokeras, czy Auto-sklearn
* Wdrożenie strategii DDP oraz Mixed Precision Training dla zwiększenia efektywności obliczeń.

Eksperymenty obejmą:
* Porównanie różnych metod równoległości (Data vs Model Parallelism).
* Testowanie różnych konfiguracji GPU (np. 2x RTX 3090 vs 4x A100).
* Ocena wpływu strategii AutoML na czas treningu oraz jakość wynikowego modelu.

Oczekiwane Rezultaty:
* Opracowanie skalowalnej metodologii, która może być wdrożona w innych projektach związanych z ASR.

Harmonogram:
Miesiące 1-3: Przygotowanie infrastruktury i danych.
Miesiące 4-6: Implementacja AutoML i strategii multi-GPU.
Miesiące 7-9: Eksperymenty i analiza wyników.
Miesiące 10-12: Dokumentacja i publikacja wyników.


← Powrót do spisu projektów

CONTACT

Our consultants help future and novice users of specialized software installed on High Performance Computers (KDM) at the TASK IT Center.

Contact for High Performance Computers, software / licenses, computing grants, reports:

kdm@task.gda.pl

Administrators reply to e-mails on working days between 8:00 am – 3:00 pm.