MOST DANYCH

Podstawowe dane o projekcie

Tytuł projektu: MOST DANYCH – Multidyscyplinarny Otwarty System Transferu Wiedzy – etap II: Open Research Data
Nazwa Programu Operacyjnego: Polska Cyfrowa na lata 2014-2020
Instytucja wdrażająca: Centrum Projektów Polska Cyfrowa
Oś priorytetowa: 02. E-administracja i otwarty rząd
Działanie: 02.03. Cyfrowa dostępność i użyteczność informacji sektora publicznego
Poddziałanie: 02.03.01. Cyfrowe udostępnianie informacji sektora publicznego ze źródeł administracyjnych i zasobów nauki
Nr projektu: POPC.02.03.01-00-0033/17
Strona www: https://mostwiedzy.pl

Potrzeba realizacji tego projektu wynika z następujących faktów:

  1. Potrzeba utworzenia dedykowanego repozytorium otwartych danych badawczych (ORD, Open Research Data). Oprócz dostępnych bibliotek artykułów naukowych, potrzebne są także nowe repozytoria różnego typu danych źródłowych.
  2. Potrzeba zwiększenia możliwości ponownego wykorzystania i przetwarzania otwartych danych (Open Research Data) o znacznych rozmiarach (ang. Big Data), z wykorzystaniem superkomputera.
  3. Brak adekwatnych standardów opisu otwartych danych badawczych, dla pomorskiego i polskiego środowiska akademickiego oraz odpowiedniego centrum kompetencji wspierającego ich standaryzację i wykorzystanie.
  4. Potrzeba udostępnienia uniwersalnego, dostępnego dla polskiego środowiska naukowego narzędzia do wspierania prowadzenia procesu wydawniczego otwartych czasopism naukowych.

Istotą projektu MOST DANYCH jest zaprojektowanie i wybudowanie platformy pozwalającej na gromadzenie, wyszukiwanie, analizowanie i udostępnianie otwartych danych badawczych oraz zasilenie jej unikalnymi danymi takimi jak obrazowania tkanek ludzkich, czy pomiary związane ze stanem morza zebranymi z trzech najważniejszych uczelni wyższych Pomorza: Politechniki Gdańskiej, Gdańskiego Uniwersytetu Medycznego i Uniwersytetu Gdańskiego. Dane te będą bezpłatnie udostępniane środowisku naukowemu, przedsiębiorcom i społeczeństwu, z możliwością przetwarzania na superkomputerze Tryton.

 

Cele projektu

Głównymi celami tego projektu sa: zwiększenie dostępności, poprawa jakości oraz zwiększenie możliwości ponownego wykorzystania zasobów naukowych najważniejszych uczelni Pomorza (PG, UG, GUMed) poprzez utworzenie centrum gromadzenia i udostępniania danych badawczych na platformie otwartego dostępu oraz ich analizy w celu realizacji przez naukowców nowych scenariuszy badawczych.

W ramach projektu zostaną zrealizowane następujące cele szczegółowe:

  1. Gromadzenie i udostępnianie otwartych dany badawczych w ramach platformy Most Danych i w oparciu o obiektowe repozytorium danych, zlokalizowane w CI TASK. Planuje się zgromadzenie 27000 wyników badań o łącznej pojemności 142 TB, w tym 120 TB obrazowań tkanek ludzkich. Ponadto CI TASK wytworzy część komponentów programowych umożliwiających transfer, analizę i przeglądanie zgromadzonych danych, np. poprzez wirtualny mikroskop.
  2. Zapewnienie możliwości ponownego wykorzystania i przetwarzania zgromadzonych danych o znacznych rozmiarach (analizy Big Data) z wykorzystaniem superkomputera Tryton, znajdującego się w CI TASK, jak również aplikacji analizujących zaimplementowanych przez pracowników CI TASK.
  3. Utworzenie na Politechnice Gdańskiej centrum kompetencji MOST KOMPETENCJI, którego zadaniem jest podniesienie świadomości środowiska naukowego w tematyce Open Access i ORD, w tym wykorzystanie standardów opisów metadanych, w których ustaleniu biorą udział pracownicy CI TASK.
  4. Gromadzenie informacji o politykach polskich wydawców naukowych względem Open Access wraz z usługą wspierającą redakcję otwartych czasopism naukowych. Szacuje się, że z usługi tej skorzysta 5 czasopism. CI TASK wydaje czasopismo: TASK Quarterly, kwartalnik udostępniany na zasadach Open Access.

Terminy realizacji

Etapy realizacji projektu:

  • 31.12.2018 – Inicjacja projektu obejmująca: analizę, projektowanie, organizację zespołów oraz przygotowanie planu zamówień publicznych.
  • 31.12.2019 – Budowa standardów opisów danych badawczych oraz prototypu platformy i repozytoriów danych.
  • 31.03.2021 – Uruchomienie platformy MOST DANYCH oraz narzędzi wspomagających, w tym budowa głównych usług dostarczanych przez platformę.
  • 30.09.2021 – Wdrożenie pozostałych funkcjonalności platformy MOST DANYCH i jej doskonalenie oparte na współpracy z rzeczywistymi użytkownikami i danymi przez nich dostarczonymi.

Cykl analizy danych naukowych

Schemat przedstawia typowy cykl analizy danych naukowych w Moście Danych na przykładzie danych medycznych.

  • Akwizycja danych może następować z różnych źródeł, np. skanery tkanek, wywiad lekarski, badania medyczne, wyniki badań laboratoryjnych itp.
  • Powyższe dane są gromadzone w obiektowym magazynie danych (oprogramowanie: CEPH), wraz z odpowiednimi metadanymi oraz powiązaniami.
  • Zlecana analiza jest wykonywana na superkomputerze Tryton (ponad 38 tyś. rdzeni obliczeniowych) za pomocą oprogramowania Big Data np. Apache Spark i/lub AI np. TensorFlow (uczenie maszynowe), np.: filtrowanie górno/dolnoprzepustowe, modyfikacja jasności (wyostrzenie), wygładzanie obrazu, wykrywanie konturów/granic, klasyfikacja i zliczanie obiektów (np. komórek).
  • Wyniki analizy są składowane w magazynie obiektowym oraz prezentowane na portalu internetowym w sposób graficzny, z wykorzystaniem nowoczesnych technologii informatycznych.