Automatyczne wykrywanie błędów w wymowie w angielskiej mowie nierodzimej za pomocą głębokiego

Automatyczne wykrywanie błędów w wymowie w angielskiej mowie nierodzimej za pomocą głębokiego uczenia

Grant ID: PT01277

Project leader: Bożena Kostek

Implementers:

Bożena Kostek
Patryk Gołembiewski
Sandra Cichocka

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Start date: 2025-06-18

Planned end date: 2025-12-18

Project summary

dyplom magisterski - studenci: Patryk Gołembiewski, Sandra Cichocka, promotor: prof. B. Kostek
Opis:
Celem pracy magisterskiej jest opracowanie modeli głębokiego uczenia do automatycznego wykrywania błędów w wymowie języka angielskiego w mowie nierodzimej (L2).
Dodatkowym celem pracy jest stworzenie aplikacji mobilnej wspierającej naukę języka obcego, która będzie wykorzystywać opracowane modele do analizy wymowy i generowania wskazówek poprawnej artykulacji według zadanego słownika.
Zadania do wykonania:
1. Przygotowanie baz danych/aplikacji nagrywającej mowę wg zadanego scenariusza.
2. Wybór i przygotowanie modeli głębokich do wykrywania błędów w mowie nierodzimej.
3. Trening i testy algorytmów.
Główne modele testowane w projekcie: CTC + RNN +CNN, CNN-only, DNN + HMM, RNN-only
4. Planowane eksperymenty:
- losowe wyszukiwanie przestrzeni hiperparametrów modelu m.in. learning rate, weight decay, typy optymalizatorów,
- losowe wyszukiwanie przestrzeni hiperparametrów audio m.in. liczba próbek w jednej ramce czasowej, przesunięcie między kolejnymi ramkami, liczba pasm w transformacie mel,
- testy ablacyjne - wyłączanie poszczególnych komponentów.
Architektury modeli głębokich, które mają być przetestowane przez dyplomantów oraz wielkość baz danych, z których dyplomanci korzystają wymagają większych zasobów niż lokalne.
Zaprojektowane eksperymenty będą polegać na:
- losowy wyszukiwaniu przestrzeni hiperparametrów modelu m.in. learning rate, weight decay, typy optymalizatorów,
- losowym wyszukiwaniu przestrzeni hiperparametrów audio m.in. liczba próbek w jednej ramce czasowej, przesunięcie między kolejnymi ramkami, liczba pasm w transformacie mel,
- testach ablacyjnych - wyłączanie poszczególnych komponentów.
Dyplomanci mają obecnie przygotowane raz wstępnie przetestowane architektury modeli głębokich, są na etapie prowadzenia treningu i testów na większych zasobach.
Główne modele testowane w projekcie: CTC + RNN +CNN, CNN-only, DNN + HMM, RNN-only

Contact

Traugutta 75, Street, 80-221 Gdańsk
tel.: + 48 58 347 24 11
email: office@task.gda.pl
NIP: 584-020-35-93
REGON: 000001620
Opening hours: Monday-Friday 08.00 am – 03.00 pm