User projects » CI TASK

Wykorzystanie podejścia AutoML do trenowania modeli automatycznego rozpoznawania mowy (ASR) w trybie multi-GPU

Identyfikator grantu: PT01262

Kierownik projektu: Adam Kurowski

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2025-04-17

Planowana data zakończenia grantu: 2026-04-17

Streszczenie projektu

Postęp w dziedzinie automatycznego rozpoznawania mowy (ang. automatic speech recognition, ASR) jest kluczowy dla rozwoju technologii przetwarzania języka naturalnego (ang. natural language processing, NLP) i projektowania interfejsów głosowych. Trening współczesnych modeli ASR, takich jak Whisper czy Conformer, wymaga zasobów obliczeniowych znacząco przekraczających ilość zasobów dostępnych w typowych stacjach roboczych służących np. do obróbki grafiki, czy renderingu 3D. Z tego względu trening ten zwykle przeprowadza się na wyspecjalizowanych serwerach wyposażonych w zespół kart graficznych (tzw. tryb multi-GPU).

Przygotowanie procesu treningu także skomplikowanym zadaniem, gdyż konieczne jest dobranie odpowiedniej kombinacji tzw. hiperparametrów treningu. Zwykle dobór ten przeprowadzany jest ręcznie przez inżyniera specjalizującego się w treningu algorytmów sztucznej inteligencji. Proces ten można jednak usprawnić poprzez wykorzystanie techniki AutoML (Automated Machine Learning). Podejście to pozwala na przeprowadzenie automatycznej optymalizacji hiperparametrów i architektur modeli, co znacząco przyspiesza proces badawczy oraz zwiększa efektywność trenowania modeli. Celem niniejszego projektu jest opracowanie i wdrożenie metodologii wykorzystania AutoML w połączeniu z infrastrukturą multi-GPU do trenowania modeli ASR. Projekt zakłada optymalizację procesów trenowania, minimalizację kosztów obliczeniowych oraz poprawę jakości wynikowych modeli.

Cele Projektu:
Zastosowanie AutoML do optymalizacji hiperparametrów i architektur modeli ASR:
* Automatyzacja wyboru parametrów takich jak szybkość uczenia, strategie akumulacji gradientów oraz dobór harmonogramu uczenia
* Eksploracja technik takich jak Hyperband, optymalizacja bayesowska (ang. Bayesian Optimization), czy uczenie ze wzmocnieniem (ang. Reinforcement Learning) dla efektywniejszego przeszukiwania przestrzeni hiperparametrów treningu

Efektywne wykorzystanie infrastruktury multi-GPU:
* Implementacja strategii równoległości danych (Data Parallelism) oraz równoległości modelu (Model Parallelism) w celu przyspieszenia treningu.
* Optymalizacja komunikacji między GPU za pomocą narzędzi takich jak PyTorch Distributed Data Parallel (DDP)

Ocena wpływu technik AutoML i multi-GPU na jakość modeli ASR :
* Analiza metryk takich jak Word Error Rate (WER) na różnych zestawach danych
* Porównanie wydajności modeli trenowanych na pojedynczym GPU versus multi-GPU
* Porównanie liczby iteracji (prób) treningu, które są potrzebne do tego, aby każdy z badanych algorytmów AutoML wygenerował ostateczną, zoptymalizowaną architekturę systemu ASR

Projekt wykorzysta frameworki takie jak NVIDIA NeMo oraz PyTorch do implementacji i trenowania modeli ASR w środowisku multi-GPU. Kluczowe komponenty obejmują:
* Automatyczna optymalizacja hiperparametrów z użyciem bibliotek takich jak Autokeras, czy Auto-sklearn
* Wdrożenie strategii DDP oraz Mixed Precision Training dla zwiększenia efektywności obliczeń.

Eksperymenty obejmą:
* Porównanie różnych metod równoległości (Data vs Model Parallelism).
* Testowanie różnych konfiguracji GPU (np. 2x RTX 3090 vs 4x A100).
* Ocena wpływu strategii AutoML na czas treningu oraz jakość wynikowego modelu.

Oczekiwane Rezultaty:
* Opracowanie skalowalnej metodologii, która może być wdrożona w innych projektach związanych z ASR.

Harmonogram:
Miesiące 1-3: Przygotowanie infrastruktury i danych.
Miesiące 4-6: Implementacja AutoML i strategii multi-GPU.
Miesiące 7-9: Eksperymenty i analiza wyników.
Miesiące 10-12: Dokumentacja i publikacja wyników.

← Powrót do spisu projektów

Research and Development: User projects

Wykorzystanie podejścia AutoML do trenowania modeli automatycznego rozpoznawania mowy (ASR) w trybie multi-GPU

Streszczenie projektu

CONTACT