Wykorzystanie podejścia AutoML do trenowania modeli automatycznego rozpoznawania mowy (ASR) w trybie multi-GPU
Identyfikator grantu: PT01262
Kierownik projektu: Adam Kurowski
Politechnika Gdańska
Wydział Elektroniki, Telekomunikacji i Informatyki
Gdańsk
Data otwarcia: 2025-04-17
Planowana data zakończenia grantu: 2026-04-17
Streszczenie projektu
Postęp w dziedzinie automatycznego rozpoznawania mowy (ang. automatic speech recognition, ASR) jest kluczowy dla rozwoju technologii przetwarzania języka naturalnego (ang. natural language processing, NLP) i projektowania interfejsów głosowych. Trening współczesnych modeli ASR, takich jak Whisper czy Conformer, wymaga zasobów obliczeniowych znacząco przekraczających ilość zasobów dostępnych w typowych stacjach roboczych służących np. do obróbki grafiki, czy renderingu 3D. Z tego względu trening ten zwykle przeprowadza się na wyspecjalizowanych serwerach wyposażonych w zespół kart graficznych (tzw. tryb multi-GPU).
Przygotowanie procesu treningu także skomplikowanym zadaniem, gdyż konieczne jest dobranie odpowiedniej kombinacji tzw. hiperparametrów treningu. Zwykle dobór ten przeprowadzany jest ręcznie przez inżyniera specjalizującego się w treningu algorytmów sztucznej inteligencji. Proces ten można jednak usprawnić poprzez wykorzystanie techniki AutoML (Automated Machine Learning). Podejście to pozwala na przeprowadzenie automatycznej optymalizacji hiperparametrów i architektur modeli, co znacząco przyspiesza proces badawczy oraz zwiększa efektywność trenowania modeli. Celem niniejszego projektu jest opracowanie i wdrożenie metodologii wykorzystania AutoML w połączeniu z infrastrukturą multi-GPU do trenowania modeli ASR. Projekt zakłada optymalizację procesów trenowania, minimalizację kosztów obliczeniowych oraz poprawę jakości wynikowych modeli.
Cele Projektu:
Zastosowanie AutoML do optymalizacji hiperparametrów i architektur modeli ASR:
* Automatyzacja wyboru parametrów takich jak szybkość uczenia, strategie akumulacji gradientów oraz dobór harmonogramu uczenia
* Eksploracja technik takich jak Hyperband, optymalizacja bayesowska (ang. Bayesian Optimization), czy uczenie ze wzmocnieniem (ang. Reinforcement Learning) dla efektywniejszego przeszukiwania przestrzeni hiperparametrów treningu
Efektywne wykorzystanie infrastruktury multi-GPU:
* Implementacja strategii równoległości danych (Data Parallelism) oraz równoległości modelu (Model Parallelism) w celu przyspieszenia treningu.
* Optymalizacja komunikacji między GPU za pomocą narzędzi takich jak PyTorch Distributed Data Parallel (DDP)
Ocena wpływu technik AutoML i multi-GPU na jakość modeli ASR :
* Analiza metryk takich jak Word Error Rate (WER) na różnych zestawach danych
* Porównanie wydajności modeli trenowanych na pojedynczym GPU versus multi-GPU
* Porównanie liczby iteracji (prób) treningu, które są potrzebne do tego, aby każdy z badanych algorytmów AutoML wygenerował ostateczną, zoptymalizowaną architekturę systemu ASR
Projekt wykorzysta frameworki takie jak NVIDIA NeMo oraz PyTorch do implementacji i trenowania modeli ASR w środowisku multi-GPU. Kluczowe komponenty obejmują:
* Automatyczna optymalizacja hiperparametrów z użyciem bibliotek takich jak Autokeras, czy Auto-sklearn
* Wdrożenie strategii DDP oraz Mixed Precision Training dla zwiększenia efektywności obliczeń.
Eksperymenty obejmą:
* Porównanie różnych metod równoległości (Data vs Model Parallelism).
* Testowanie różnych konfiguracji GPU (np. 2x RTX 3090 vs 4x A100).
* Ocena wpływu strategii AutoML na czas treningu oraz jakość wynikowego modelu.
Oczekiwane Rezultaty:
* Opracowanie skalowalnej metodologii, która może być wdrożona w innych projektach związanych z ASR.
Harmonogram:
Miesiące 1-3: Przygotowanie infrastruktury i danych.
Miesiące 4-6: Implementacja AutoML i strategii multi-GPU.
Miesiące 7-9: Eksperymenty i analiza wyników.
Miesiące 10-12: Dokumentacja i publikacja wyników.
Przygotowanie procesu treningu także skomplikowanym zadaniem, gdyż konieczne jest dobranie odpowiedniej kombinacji tzw. hiperparametrów treningu. Zwykle dobór ten przeprowadzany jest ręcznie przez inżyniera specjalizującego się w treningu algorytmów sztucznej inteligencji. Proces ten można jednak usprawnić poprzez wykorzystanie techniki AutoML (Automated Machine Learning). Podejście to pozwala na przeprowadzenie automatycznej optymalizacji hiperparametrów i architektur modeli, co znacząco przyspiesza proces badawczy oraz zwiększa efektywność trenowania modeli. Celem niniejszego projektu jest opracowanie i wdrożenie metodologii wykorzystania AutoML w połączeniu z infrastrukturą multi-GPU do trenowania modeli ASR. Projekt zakłada optymalizację procesów trenowania, minimalizację kosztów obliczeniowych oraz poprawę jakości wynikowych modeli.
Cele Projektu:
Zastosowanie AutoML do optymalizacji hiperparametrów i architektur modeli ASR:
* Automatyzacja wyboru parametrów takich jak szybkość uczenia, strategie akumulacji gradientów oraz dobór harmonogramu uczenia
* Eksploracja technik takich jak Hyperband, optymalizacja bayesowska (ang. Bayesian Optimization), czy uczenie ze wzmocnieniem (ang. Reinforcement Learning) dla efektywniejszego przeszukiwania przestrzeni hiperparametrów treningu
Efektywne wykorzystanie infrastruktury multi-GPU:
* Implementacja strategii równoległości danych (Data Parallelism) oraz równoległości modelu (Model Parallelism) w celu przyspieszenia treningu.
* Optymalizacja komunikacji między GPU za pomocą narzędzi takich jak PyTorch Distributed Data Parallel (DDP)
Ocena wpływu technik AutoML i multi-GPU na jakość modeli ASR :
* Analiza metryk takich jak Word Error Rate (WER) na różnych zestawach danych
* Porównanie wydajności modeli trenowanych na pojedynczym GPU versus multi-GPU
* Porównanie liczby iteracji (prób) treningu, które są potrzebne do tego, aby każdy z badanych algorytmów AutoML wygenerował ostateczną, zoptymalizowaną architekturę systemu ASR
Projekt wykorzysta frameworki takie jak NVIDIA NeMo oraz PyTorch do implementacji i trenowania modeli ASR w środowisku multi-GPU. Kluczowe komponenty obejmują:
* Automatyczna optymalizacja hiperparametrów z użyciem bibliotek takich jak Autokeras, czy Auto-sklearn
* Wdrożenie strategii DDP oraz Mixed Precision Training dla zwiększenia efektywności obliczeń.
Eksperymenty obejmą:
* Porównanie różnych metod równoległości (Data vs Model Parallelism).
* Testowanie różnych konfiguracji GPU (np. 2x RTX 3090 vs 4x A100).
* Ocena wpływu strategii AutoML na czas treningu oraz jakość wynikowego modelu.
Oczekiwane Rezultaty:
* Opracowanie skalowalnej metodologii, która może być wdrożona w innych projektach związanych z ASR.
Harmonogram:
Miesiące 1-3: Przygotowanie infrastruktury i danych.
Miesiące 4-6: Implementacja AutoML i strategii multi-GPU.
Miesiące 7-9: Eksperymenty i analiza wyników.
Miesiące 10-12: Dokumentacja i publikacja wyników.