Home »

Sviluppo e implementazione di algoritmi e software innovativi
in supporto alla ricerca oncologica

Ing. Paolo Romano

Background

Il progetto si pone in continuazione con la ricerca bioinformatica svolta sin dal 2000 e con i passati progetti di ricerca corrente del proponente. Esso è altresì uno sviluppo del progetto “Studi di Metabolomica e Proteomica Strutturale, Differenziale e Funzionale in ambito oncologico” condotto dal Dott. Profumo nel triennio passato. Il progetto, oggetto di finanziamenti finalizzati, comprende:

  1. Sviluppo di algoritmi e software innovativi, che ha portato allo sviluppo di software originali per l’analisi di spettri di massa MALDI/TOF pubblicamente accessibili sul server dell’U.O. http://proteomics.hsanmartino.it/. Geena esegue il pre-processing di base e l’allineamento degli spettri, derivati sia da acquisizioni multiple per lo stesso campione biologico, sia da acquisizioni di campioni different. GeenaR esegue anch’esso un pre-processing degli spettri, ma inoltre genera heatmap ed effettua analisi PCA utilizzando librerie R standard. Seradeg, infine, valuta il grado di conservazione di campioni di siero basandosi su quantità assoluta e relativa dei frammenti di fibrinopeptide A identificati tramite spettrometria di massa.
  2. Sviluppo e implementazione di workflow di analisi dati per l’integrazione delle informazioni dei database pubblici con quelle acquisite nel corso di propri esperimenti, spesso necessaria per l’analisi dei risultati sperimentali, tramite software flessibili che consentono di effettuare queste integrazioni in maniera semplificata, senza ricorrere alla programmazione. La piattaforma USMI Galaxy Demonstrator UGD è stata sviluppata come prova di concetto nel progetto UE MIRRI.
  3. definizione e allestimento di basi dati innovative, secondo l’approccio FAIR. Questo filone di ricerca ha portato allo sviluppo del Cell Line Integrated Molecular Authentication database (CLIMA, http://bioinformatics.hsanmartino.it/clima2/), che comprende i profili STR di circa 4,500 linee cellulari identificati dalla Banca Cellule dell’IRCCS San Martino e da altri tre laboratori internazionali. CLIMA è collegato a Cellosaurus, il principale database di linee cellulari attualmente disponibile, ed è utilizzato pressoché quotidianamente da ricercatori a livello internazionale per l’identificazione delle proprie linee cellulari. In questo filone si colloca anche la realizzazione della base dati MicroBioDiverSar (MBDS, http://mbds.it/), sviluppata in collaborazione con AGRIS Sardegna, e la partecipazione ai progetti UE EOSC-Life (https://eosc-life.eu/) e IS_MIRRI21 (https://ismirri21.mirri.org/).

Obiettivo/i di progetto

L’obiettivo generale del progetto è il potenziamento delle risorse sviluppate nell’ottica di renderle più efficienti e maggiormente fruibili dai ricercatori. In particolare, i software per l’analisi degli spettri di massa saranno potenziati aggiungendo nuove funzionalità e saranno resi disponibili come software aperto tramite la piattaforma di sviluppo software condiviso GitHub (http://www.github.com/). Inoltre, sarà sviluppato nuovo software a seconda delle nuove ed emergenti esigenze dell’U.O., anche in relazione all’acquisizione di nuova strumentazione, come lo spettrometro MALDI Imaging appena consegnato.
Per quanto riguarda lo sviluppo e l’implementazione di workflow di analisi dati, l’obiettivo del progetto consiste nello sviluppo di workflow per la gestione e l’analisi dei dati generati dall’U.O. A questo fine, sarà necessario creare preliminarmente appositi script per l’accesso alle principali banche dati di proteomica, inclusi i “raw data repository” del settore, e alle funzionalità del software sviluppato (Geena, GeenaR, Seradeg). Infine, verrà allestita una piattaforma Galaxy tramite la quale saranno sviluppati i workflow, che saranno resi disponibili nel repository WorkflowHub (https://workflowhub.eu/) per un eventuale utilizzo da parte di altri ricercatori.
Nel corso del progetto di ricerca corrente si prevede anche il potenziamento di CLIMA e del database MBDS e la loro trasformazione in software aperto. In particolare, i profili STR archiviati in CLIMA e le connesse funzionalità di identificazione potranno essere utilizzate tramite API da altri software per consentire l’interoperabilità. Saranno anche allestite nuove basi dati secondo le esigenze dell’UO.

Metodologia

Lo sviluppo del software e dei database sarà realizzato in un ambiente LAMP (Linux, Apache, MySQL, PHP) che prevede l’adozione di software aperto largamente disponibile e affidabile e il riuso di librerie e moduli disponibili pubblicamente e già ampiamente validati. In particolare, il database management system scelto è MySQL di Oracle, mentre il linguaggio di programmazione è PHP, un linguaggio molto flessibile che consente un rapido sviluppo e adattamento a nuove esigenze e funzionalità. A questi software ne saranno affiancati altri secondo le esigenze specifiche. Tra questi vanno considerati il linguaggio per analisi statistica R e, per quanto riguarda la piattaforma Galaxy e i relativi script, Python, linguaggio utilizzato per lo sviluppo di Galaxy stesso. Lo sviluppo avverrà in cloud sfruttando l’offerta GARR per gli IRCCS concordata con apposita convenzione dal Ministero della Salute.

Impatto assistenziale certo o potenziale

Il progetto si pone nell’ambito delle tecnologie abilitanti e non ha in sé un impatto assistenziale diretto. Il raggiungimento dei suoi obiettivi potrà rendere l’analisi dei dati più efficiente e potrà quindi, indirettamente, contribuire a migliorare la ricerca pre-clinica.