Automatyczne wykrywanie błędów w wymowie w angielskiej mowie nierodzimej za pomocą głębokiego uczenia
Identyfikator grantu: PT01277
Kierownik projektu: Bożena Kostek
Realizatorzy:
- Bożena Kostek
- Patryk Gołembiewski
- Sandra Cichocka
Politechnika Gdańska
Wydział Elektroniki, Telekomunikacji i Informatyki
Gdańsk
Data otwarcia: 2025-06-18
Planowana data zakończenia grantu: 2025-12-18
Streszczenie projektu
dyplom magisterski - studenci: Patryk Gołembiewski, Sandra Cichocka, promotor: prof. B. Kostek
Opis:
Celem pracy magisterskiej jest opracowanie modeli głębokiego uczenia do automatycznego wykrywania błędów w wymowie języka angielskiego w mowie nierodzimej (L2).
Dodatkowym celem pracy jest stworzenie aplikacji mobilnej wspierającej naukę języka obcego, która będzie wykorzystywać opracowane modele do analizy wymowy i generowania wskazówek poprawnej artykulacji według zadanego słownika.
Zadania do wykonania:
1. Przygotowanie baz danych/aplikacji nagrywającej mowę wg zadanego scenariusza.
2. Wybór i przygotowanie modeli głębokich do wykrywania błędów w mowie nierodzimej.
3. Trening i testy algorytmów.
Główne modele testowane w projekcie: CTC + RNN +CNN, CNN-only, DNN + HMM, RNN-only
4. Planowane eksperymenty:
- losowe wyszukiwanie przestrzeni hiperparametrów modelu m.in. learning rate, weight decay, typy optymalizatorów,
- losowe wyszukiwanie przestrzeni hiperparametrów audio m.in. liczba próbek w jednej ramce czasowej, przesunięcie między kolejnymi ramkami, liczba pasm w transformacie mel,
- testy ablacyjne - wyłączanie poszczególnych komponentów.
Architektury modeli głębokich, które mają być przetestowane przez dyplomantów oraz wielkość baz danych, z których dyplomanci korzystają wymagają większych zasobów niż lokalne.
Zaprojektowane eksperymenty będą polegać na:
- losowy wyszukiwaniu przestrzeni hiperparametrów modelu m.in. learning rate, weight decay, typy optymalizatorów,
- losowym wyszukiwaniu przestrzeni hiperparametrów audio m.in. liczba próbek w jednej ramce czasowej, przesunięcie między kolejnymi ramkami, liczba pasm w transformacie mel,
- testach ablacyjnych - wyłączanie poszczególnych komponentów.
Dyplomanci mają obecnie przygotowane raz wstępnie przetestowane architektury modeli głębokich, są na etapie prowadzenia treningu i testów na większych zasobach.
Główne modele testowane w projekcie: CTC + RNN +CNN, CNN-only, DNN + HMM, RNN-only
KONTAKT
Nasi konsultanci służą pomocą przyszłym i początkującym użytkownikom specjalistycznego oprogramowania zainstalowanego na Komputerach Dużej Mocy w Centrum Informatycznym TASK.
Kontakt w sprawach Komputerów Dużej Mocy, oprogramowania/licencji, grantów obliczeniowych, sprawozdań:
Administratorzy odpowiadają na maile w dni robocze w godzinach 8:00 – 15:00.