Trenowanie wielozadaniowych sieci neuronowych na sekwencjach obrazów

Identyfikator grantu: PT01163

Kierownik projektu: Daniel Węsierski

Politechnika Gdańska

Wydział Elektroniki, Telekomunikacji i Informatyki

Gdańsk

Data otwarcia: 2024-04-17

Streszczenie projektu

Serwery AI będę wykorzystywane przez zespół badawczy w dziedzinie Wizji Komputerowej na PG na rzecz realizacji trzech powiązanych kierunków badawczych w zakresie badań podstawowych i przemysłowych oraz prac rozwojowych. Efektem prac badawczo-rozwojowych będą innowacyjne algorytmy i systemy kamerowe oparte o sztuczną inteligencję do przetwarzania i analizy wielowymiarowych sygnałów czasowo-przestrzennych z kamer koloru, podczerwieni i głębi, oraz sieci tychże kamer, wspartych innymi czujnikami. Cele badawcze to:

1. Wielozadaniowość (badania) - opracowanie nowych algorytmów uczących sieci neuronowe wielozadaniowości

2. Pamięć wizyjna (badania) - opracowanie nowych architektur czasowych sieci neuronowych

Cel 1: Wielozadaniowość — opracowanie nowych algorytmów uczących sieci neuronowe wielozadaniowości

Sztuczna inteligencja oparta o głębokie sieci neuronowe zaczęła odgrywać kluczową rolę w wielu dziedzinach, takich jak rozpoznawanie obrazów, przetwarzanie języka naturalnego czy rozpoznawanie mowy. Jednak większość istniejących sieci neuronowych jest projektowana do rozwiązywania jednego konkretnego zadania. Naszym celem badawczym jest opracowanie i badanie własności architektur wielozadaniowych sieci neuronowych, które będą zdolne do jednoczesnego rozwiązywania różnorodnych zadań i wykorzystać je m.in. do zwiększenia skuteczności sieci w uczeniu z małej liczby danych, zaszumionych danych i etykiet uczących, oraz przy braku etykiet uczących z wybranego zadania.

Ludzki system wzrokowy zużywa połowę zasobów mózgu, aby bez wysiłku rozwiązywać jednocześnie wiele zadań wizyjnych na sekundę, obejmujących sterowanie gałkami ocznymi, wyostrzanie wzroku, korekcję jasności i wiele zadań rozpoznawania wizyjnego, takich jak stabilizacja, śledzenie, segmentacja i detekcja. Jednak nowoczesne sztuczne sieci wielozadaniowe mają trudności z przewyższeniem sieci jednozadaniowych, które są wysoko wyspecjalizowane do określonego zadania. Sieć wielozadaniowa albo radzi sobie lepiej od sieci jednozadaniowej tylko w niektórych zadaniach, lecz z mniejszą szybkością, albo osiąga wyższe szybkości w przetwarzaniu sygnału wizyjnego, radząc sobie gorzej niż sieci jednozadaniowe. Potencjał paradygmatu wielozadaniowej sieci neuronowej pozostawia zatem pole do doskonalenia głębokich sieci neuronowych i algorytmów uczenia się sieci neuronowych celem odwzorowania funkcjonalności wizyjnych ludzkiego mózgu.

Opracowanie innowacyjnych architektur sieci neuronowych, które będą zdolne do realizacji wielu zadań jednocześnie, będzie wymagało poznania mechanizmów synergii między zadaniami. Modelowanie optymalnych układów interakcji pomiędzy zadaniami pozwoli nie tylko na optymalne wykorzystanie parametrów modeli sieci neuronowych, lecz również powinno przełożyć się większą skuteczność w rozwiązywaniu zadań, których wyjściowe informacje wpływają na siebie podczas inferencji.

Wykorzystanie synergii zadań podczas inferencji opiera się jednakże nie tylko na optymalnych architekturach. Choć wykorzystanie synergii jest pożądane, to trenowanie sieci neuronowych z zachowaniem synergii zadań jest dużym wyzwaniem. Należy zauważyć, że podczas trenowania wielozadaniowej sieci neuronowej wyjściowe informacje są niepewne i zaszumione, ponieważ sieć neuronowa dopiero uczy się je wytwarzać zgodnie z wybranymi kryteriami funkcji straty. Dlatego też należy opracować algorytmy uczące, które będą kwantyfikować niepewność każdej informacji wyjściowej i stosownie przesyłać ją w układzie interakcji pomiędzy zadaniami.

Ponadto, w każdej wielozadaniowej sieci neuronowej, zadania rywalizują ze sobą o zasoby współdzielonych parametrów modelu. Podczas fazy treningowej przejawem tego zjawiska jest występowanie konfliktów gradientów pomiędzy różnymi zadaniami, które zależą m.in. od wagi każdego zadania w trakcie uczenia. Aby uzyskać optymalną synergię pomiędzy zadaniami i tym samym zmaksymalizować ich skuteczność, należy wykorzystać informacje o konfliktach gradientów jako wskazówek do poprawy synergii. Ta tematyka badawcza aktualnie rozwija się intensywnie, lecz wciąż związane z nią zagadnienia pozostają otwarte.

Cel 2: Pamięć wizyjna — opracowanie nowych architektur czasowych sieci neuronowych

Modelowanie ewolucji informacji w czasie jest kluczowe, by zrozumieć i maksymalnie wykorzystać zależności czasowe między dynamicznie zmienną przestrzenną informacją. W każdej chwili nasz system wzrokowy pozwala nam dostrzegać bogaty i szczegółowy świat wizualny. Jednak nasze wewnętrzne, świadome reprezentacje tego świata wizualnego są niezwykle ograniczone. Możemy zachować w pamięci tylko nieznaczną część sceny wizualnej. Te mentalne reprezentacje przechowywane są w krótkotrwałej pamięci wzrokowej.

Pomimo że ta pamięć jest niezbędna do wykonywania szerokiego zakresu funkcji percepcyjnych i poznawczych w kontekście wielozadaniowości (zob. Cel 1), a jej funkcjonowanie jest wspierane przez rozległą sieć obszarów mózgu, jej pojemność jest znacznie ograniczona. Inn


← Powrót do spisu projektów

CONTACT

Our consultants help future and novice users of specialized software installed on High Performance Computers (KDM) at the TASK IT Center.

Contact for High Performance Computers, software / licenses, computing grants, reports:

kdm@task.gda.pl

Administrators reply to e-mails on working days between 8:00 am – 3:00 pm.