Grant/Projek zakończony

Wykorzystanie głębokich sieci neuronowych do rozpoznawania mówców poprzez maksymalizację informacji wzajemnej

Identyfikator grantu: PT00977

Kierownik projektu: Maciej Smiatacz

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2022-06-14

Data zakończenia: 2024-02-27

Streszczenie projektu

Celem projektu jest zbadanie możliwości wykorzystania informacji wzajemnej (mutual information) do konstruowania stabilnych charakterystyk głosu ludzkiego, przydatnych do celów biometrycznych (weryfikacji i identyfikacji tożsamości na podstawie wypowiedzi). Aby to osiągnąć, niezbędne jest zaimplementowanie i wytrenowanie głębokiej sieci neuronowej o architekturze enkoder-dyskryminator, podobnej do sieci GAN (generative adversarial networks). W tym jednak scenariuszu enkoder i dykryminator nie wzpółzawodniczą ze sobą, lecz są zmuszone do współpracy, tak aby maksymalizować wartość podobieństwa, gdy dwie próbki pochodzą od tego samego mówcy i minimalizować ją w przeciwnym przypadku. Planowane jest przetestowanie i porównanie wersji nienadzorowanej (unsupervised) z dwoma wariantami częściowo nadzorowanymi (semi-supervised). Cechą charakterystyczną badanego rozwiązania jest zastosowanie sieci o architekturze SincNet w celu wyznaczania cech sygnału akustycznego zastępujących zazwyczaj używane wartości MFCC (mel-frequency cepstrum). Oprócz tego dużą rolę odgrywa fakt, że tego typu podejście do biometrii głosowej umożliwia uniezależnienie treningu od konieczności zbierania bardzo dużych ilości etykietowanych danych, a tym samym eliminuje konieczność wykonywania czasochłonnej i kosztownej pracy manualnej. Uzyskany w ten sposób sprawny system biometrii głosowej może mieć wiele praktycznych zastosowań, związanych zarówno działalnością dochodzeniową instytucji państwowych, jak i potrzebami podmiotów komercyjnych, dotyczącymi np. przyspieszenia identyfikacji w centrum obsługi klienta lub prowadzenia monitoringu mediów.



Publikacje

  1. Hanna Świda, Wykorzystanie głębokich sieci neuronowych do rozpoznawania mówców poprzez maksymalizację informacji wzajemnej, praca magisterska, Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska -, (2023) -


← Powrót do spisu projektów

CONTACT

Our consultants help future and novice users of specialized software installed on High Performance Computers (KDM) at the TASK IT Center.

Contact for High Performance Computers, software / licenses, computing grants, reports:

kdm@task.gda.pl

Administrators reply to e-mails on working days between 8:00 am – 3:00 pm.