Automatyczne wykrywanie błędów w wymowie w angielskiej mowie nierodzimej za pomocą głębokiego

Automatyczne wykrywanie błędów w wymowie w angielskiej mowie nierodzimej za pomocą głębokiego uczenia

Identyfikator grantu: PT01277

Kierownik projektu: Bożena Kostek

Realizatorzy:

  • Bożena Kostek
  • Patryk Gołembiewski
  • Sandra Cichocka

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2025-06-18

Planowana data zakończenia grantu: 2025-12-18

Streszczenie projektu

dyplom magisterski - studenci: Patryk Gołembiewski, Sandra Cichocka, promotor: prof. B. Kostek
Opis:
Celem pracy magisterskiej jest opracowanie modeli głębokiego uczenia do automatycznego wykrywania błędów w wymowie języka angielskiego w mowie nierodzimej (L2).
Dodatkowym celem pracy jest stworzenie aplikacji mobilnej wspierającej naukę języka obcego, która będzie wykorzystywać opracowane modele do analizy wymowy i generowania wskazówek poprawnej artykulacji według zadanego słownika.
Zadania do wykonania:
1. Przygotowanie baz danych/aplikacji nagrywającej mowę wg zadanego scenariusza.
2. Wybór i przygotowanie modeli głębokich do wykrywania błędów w mowie nierodzimej.
3. Trening i testy algorytmów.
Główne modele testowane w projekcie: CTC + RNN +CNN, CNN-only, DNN + HMM, RNN-only
4. Planowane eksperymenty:
- losowe wyszukiwanie przestrzeni hiperparametrów modelu m.in. learning rate, weight decay, typy optymalizatorów,
- losowe wyszukiwanie przestrzeni hiperparametrów audio m.in. liczba próbek w jednej ramce czasowej, przesunięcie między kolejnymi ramkami, liczba pasm w transformacie mel,
- testy ablacyjne - wyłączanie poszczególnych komponentów.
Architektury modeli głębokich, które mają być przetestowane przez dyplomantów oraz wielkość baz danych, z których dyplomanci korzystają wymagają większych zasobów niż lokalne.
Zaprojektowane eksperymenty będą polegać na:
- losowy wyszukiwaniu przestrzeni hiperparametrów modelu m.in. learning rate, weight decay, typy optymalizatorów,
- losowym wyszukiwaniu przestrzeni hiperparametrów audio m.in. liczba próbek w jednej ramce czasowej, przesunięcie między kolejnymi ramkami, liczba pasm w transformacie mel,
- testach ablacyjnych - wyłączanie poszczególnych komponentów.
Dyplomanci mają obecnie przygotowane raz wstępnie przetestowane architektury modeli głębokich, są na etapie prowadzenia treningu i testów na większych zasobach.
Główne modele testowane w projekcie: CTC + RNN +CNN, CNN-only, DNN + HMM, RNN-only

Kontakt

ul Traugutta 75, 80-221 Gdańsk
tel.: + 48 58 347 24 11
email: office@task.gda.pl
NIP: 584-020-35-93
REGON: 000001620
Godziny otwarcia: pn-pt godz. 8:00-15:00