Grant/Projek zakończony
Wykorzystanie głębokich sieci neuronowych do rozpoznawania mówców poprzez maksymalizację informacji wzajemnej
Identyfikator grantu: PT00977
Kierownik projektu: Maciej Smiatacz
Politechnika Gdańska
Wydział Elektroniki, Telekomunikacji i Informatyki
Gdańsk
Data otwarcia: 2022-06-14
Data zakończenia: 2024-02-27
Streszczenie projektu
Celem projektu jest zbadanie możliwości wykorzystania informacji wzajemnej (mutual information) do konstruowania stabilnych charakterystyk głosu ludzkiego, przydatnych do celów biometrycznych (weryfikacji i identyfikacji tożsamości na podstawie wypowiedzi). Aby to osiągnąć, niezbędne jest zaimplementowanie i wytrenowanie głębokiej sieci neuronowej o architekturze enkoder-dyskryminator, podobnej do sieci GAN (generative adversarial networks). W tym jednak scenariuszu enkoder i dykryminator nie wzpółzawodniczą ze sobą, lecz są zmuszone do współpracy, tak aby maksymalizować wartość podobieństwa, gdy dwie próbki pochodzą od tego samego mówcy i minimalizować ją w przeciwnym przypadku. Planowane jest przetestowanie i porównanie wersji nienadzorowanej (unsupervised) z dwoma wariantami częściowo nadzorowanymi (semi-supervised). Cechą charakterystyczną badanego rozwiązania jest zastosowanie sieci o architekturze SincNet w celu wyznaczania cech sygnału akustycznego zastępujących zazwyczaj używane wartości MFCC (mel-frequency cepstrum). Oprócz tego dużą rolę odgrywa fakt, że tego typu podejście do biometrii głosowej umożliwia uniezależnienie treningu od konieczności zbierania bardzo dużych ilości etykietowanych danych, a tym samym eliminuje konieczność wykonywania czasochłonnej i kosztownej pracy manualnej. Uzyskany w ten sposób sprawny system biometrii głosowej może mieć wiele praktycznych zastosowań, związanych zarówno działalnością dochodzeniową instytucji państwowych, jak i potrzebami podmiotów komercyjnych, dotyczącymi np. przyspieszenia identyfikacji w centrum obsługi klienta lub prowadzenia monitoringu mediów.
Publikacje
- Hanna Świda, Wykorzystanie głębokich sieci neuronowych do rozpoznawania mówców poprzez maksymalizację informacji wzajemnej, praca magisterska, Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska -, (2023) -