Grant/Projek zakończony

Wykorzystanie głębokich sieci neuronowych do rozpoznawania mówców poprzez maksymalizację informacji wzajemnej

Identyfikator grantu: PT00977

Kierownik projektu: Maciej Smiatacz

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2022-06-14

Data zakończenia: 2024-02-27

Streszczenie projektu

Celem projektu jest zbadanie możliwości wykorzystania informacji wzajemnej (mutual information) do konstruowania stabilnych charakterystyk głosu ludzkiego, przydatnych do celów biometrycznych (weryfikacji i identyfikacji tożsamości na podstawie wypowiedzi). Aby to osiągnąć, niezbędne jest zaimplementowanie i wytrenowanie głębokiej sieci neuronowej o architekturze enkoder-dyskryminator, podobnej do sieci GAN (generative adversarial networks). W tym jednak scenariuszu enkoder i dykryminator nie wzpółzawodniczą ze sobą, lecz są zmuszone do współpracy, tak aby maksymalizować wartość podobieństwa, gdy dwie próbki pochodzą od tego samego mówcy i minimalizować ją w przeciwnym przypadku. Planowane jest przetestowanie i porównanie wersji nienadzorowanej (unsupervised) z dwoma wariantami częściowo nadzorowanymi (semi-supervised). Cechą charakterystyczną badanego rozwiązania jest zastosowanie sieci o architekturze SincNet w celu wyznaczania cech sygnału akustycznego zastępujących zazwyczaj używane wartości MFCC (mel-frequency cepstrum). Oprócz tego dużą rolę odgrywa fakt, że tego typu podejście do biometrii głosowej umożliwia uniezależnienie treningu od konieczności zbierania bardzo dużych ilości etykietowanych danych, a tym samym eliminuje konieczność wykonywania czasochłonnej i kosztownej pracy manualnej. Uzyskany w ten sposób sprawny system biometrii głosowej może mieć wiele praktycznych zastosowań, związanych zarówno działalnością dochodzeniową instytucji państwowych, jak i potrzebami podmiotów komercyjnych, dotyczącymi np. przyspieszenia identyfikacji w centrum obsługi klienta lub prowadzenia monitoringu mediów.



Publikacje

  1. Hanna Świda, Wykorzystanie głębokich sieci neuronowych do rozpoznawania mówców poprzez maksymalizację informacji wzajemnej, praca magisterska, Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska -, (2023) -


← Powrót do spisu projektów

KONTAKT

Nasi konsultanci służą pomocą przyszłym i początkującym użytkownikom specjalistycznego oprogramowania zainstalowanego na Komputerach Dużej Mocy w Centrum Informatycznym TASK.

Kontakt w sprawach Komputerów Dużej Mocy, oprogramowania/licencji, grantów obliczeniowych, sprawozdań:

kdm@task.gda.pl

Administratorzy odpowiadają na maile w dni robocze w godzinach 8:00 – 15:00.