Podstawowe dane o projekcie
Tytuł projektu: MOST DANYCH – Multidyscyplinarny Otwarty System Transferu Wiedzy – etap II: Open Research Data
Nazwa Programu Operacyjnego: Polska Cyfrowa na lata 2014-2020
Instytucja wdrażająca: Centrum Projektów Polska Cyfrowa
Oś priorytetowa: 02. E-administracja i otwarty rząd
Działanie: 02.03. Cyfrowa dostępność i użyteczność informacji sektora publicznego
Poddziałanie: 02.03.01. Cyfrowe udostępnianie informacji sektora publicznego ze źródeł administracyjnych i zasobów nauki
Nr projektu: POPC.02.03.01-00-0033/17
Strona www: https://mostwiedzy.pl
Potrzeba realizacji tego projektu wynika z następujących faktów:
- Potrzeba utworzenia dedykowanego repozytorium otwartych danych badawczych (ORD, Open Research Data). Oprócz dostępnych bibliotek artykułów naukowych, potrzebne są także nowe repozytoria różnego typu danych źródłowych.
- Potrzeba zwiększenia możliwości ponownego wykorzystania i przetwarzania otwartych danych (Open Research Data) o znacznych rozmiarach (ang. Big Data), z wykorzystaniem superkomputera.
- Brak adekwatnych standardów opisu otwartych danych badawczych, dla pomorskiego i polskiego środowiska akademickiego oraz odpowiedniego centrum kompetencji wspierającego ich standaryzację i wykorzystanie.
- Potrzeba udostępnienia uniwersalnego, dostępnego dla polskiego środowiska naukowego narzędzia do wspierania prowadzenia procesu wydawniczego otwartych czasopism naukowych.
Istotą projektu MOST DANYCH jest zaprojektowanie i wybudowanie platformy pozwalającej na gromadzenie, wyszukiwanie, analizowanie i udostępnianie otwartych danych badawczych oraz zasilenie jej unikalnymi danymi takimi jak obrazowania tkanek ludzkich, czy pomiary związane ze stanem morza zebranymi z trzech najważniejszych uczelni wyższych Pomorza: Politechniki Gdańskiej, Gdańskiego Uniwersytetu Medycznego i Uniwersytetu Gdańskiego. Dane te będą bezpłatnie udostępniane środowisku naukowemu, przedsiębiorcom i społeczeństwu, z możliwością przetwarzania na superkomputerze Tryton.
Cele projektu
Głównymi celami tego projektu sa: zwiększenie dostępności, poprawa jakości oraz zwiększenie możliwości ponownego wykorzystania zasobów naukowych najważniejszych uczelni Pomorza (PG, UG, GUMed) poprzez utworzenie centrum gromadzenia i udostępniania danych badawczych na platformie otwartego dostępu oraz ich analizy w celu realizacji przez naukowców nowych scenariuszy badawczych.
W ramach projektu zostaną zrealizowane następujące cele szczegółowe:
- Gromadzenie i udostępnianie otwartych dany badawczych w ramach platformy Most Danych i w oparciu o obiektowe repozytorium danych, zlokalizowane w CI TASK. Planuje się zgromadzenie 27000 wyników badań o łącznej pojemności 142 TB, w tym 120 TB obrazowań tkanek ludzkich. Ponadto CI TASK wytworzy część komponentów programowych umożliwiających transfer, analizę i przeglądanie zgromadzonych danych, np. poprzez wirtualny mikroskop.
- Zapewnienie możliwości ponownego wykorzystania i przetwarzania zgromadzonych danych o znacznych rozmiarach (analizy Big Data) z wykorzystaniem superkomputera Tryton, znajdującego się w CI TASK, jak również aplikacji analizujących zaimplementowanych przez pracowników CI TASK.
- Utworzenie na Politechnice Gdańskiej centrum kompetencji MOST KOMPETENCJI, którego zadaniem jest podniesienie świadomości środowiska naukowego w tematyce Open Access i ORD, w tym wykorzystanie standardów opisów metadanych, w których ustaleniu biorą udział pracownicy CI TASK.
- Gromadzenie informacji o politykach polskich wydawców naukowych względem Open Access wraz z usługą wspierającą redakcję otwartych czasopism naukowych. Szacuje się, że z usługi tej skorzysta 5 czasopism. CI TASK wydaje czasopismo: TASK Quarterly, kwartalnik udostępniany na zasadach Open Access.
Terminy realizacji
Etapy realizacji projektu:
- 31.12.2018 – Inicjacja projektu obejmująca: analizę, projektowanie, organizację zespołów oraz przygotowanie planu zamówień publicznych.
- 31.12.2019 – Budowa standardów opisów danych badawczych oraz prototypu platformy i repozytoriów danych.
- 31.03.2021 – Uruchomienie platformy MOST DANYCH oraz narzędzi wspomagających, w tym budowa głównych usług dostarczanych przez platformę.
- 30.09.2021 – Wdrożenie pozostałych funkcjonalności platformy MOST DANYCH i jej doskonalenie oparte na współpracy z rzeczywistymi użytkownikami i danymi przez nich dostarczonymi.
Cykl analizy danych naukowych
Schemat przedstawia typowy cykl analizy danych naukowych w Moście Danych na przykładzie danych medycznych.
- Akwizycja danych może następować z różnych źródeł, np. skanery tkanek, wywiad lekarski, badania medyczne, wyniki badań laboratoryjnych itp.
- Powyższe dane są gromadzone w obiektowym magazynie danych (oprogramowanie: CEPH), wraz z odpowiednimi metadanymi oraz powiązaniami.
- Zlecana analiza jest wykonywana na superkomputerze Tryton (ponad 38 tyś. rdzeni obliczeniowych) za pomocą oprogramowania Big Data np. Apache Spark i/lub AI np. TensorFlow (uczenie maszynowe), np.: filtrowanie górno/dolnoprzepustowe, modyfikacja jasności (wyostrzenie), wygładzanie obrazu, wykrywanie konturów/granic, klasyfikacja i zliczanie obiektów (np. komórek).
- Wyniki analizy są składowane w magazynie obiektowym oraz prezentowane na portalu internetowym w sposób graficzny, z wykorzystaniem nowoczesnych technologii informatycznych.
Projekty
Realizowane
- CAISE
- DigiWind
- EuroHPC PL
- EUMaster4HPC
- Green Computing
- HYBRID WIND
- HPC4Poland
- Krajowy Magazyn Danych
- Krajowy Magazyn Danych 4
- Narodowe Centra Kompetencji EuroHPC EuroCC2
- METEOPG
- PDIH
- PIONIER Q
- Rural IoT
- Wgląd w funkcję modyfikacji potranslacyjnych białek
W okresie trwałości
- Centrum Kompetencji STOS
- Narodowe Centra Kompetencji EuroHPC
- MOST DANYCH
- PIONIER-LAB
- PRACE (Partnership for Advanced Computing in Europe – Fourth Implementation Phase)
- PRACE-LAB – Laboratorium PRACE
- PRACE-LAB2