All'interno dei nostri corpi esistono ancora molte meraviglie nascoste. Per questo ci darà una mano "Unknome", una rivoluzionaria banca dati che sottolinea quanto ancora non sappiamo sulle proteine e sui geni umani. Questa risorsa pubblica classifica gruppi di proteine in base a quanto poco sappiamo di esse, portando a nuove intuizioni.

Sean Munro, biologo cellulare, e il suo team hanno creato questa banca dati - un gioco di parole tra "unknown" (sconosciuto) e "genome" (genoma) - per identificare proteine poco studiate ma potenzialmente cruciali e i loro corrispondenti geni codificanti.

Le proteine sono generalmente raggruppate in famiglie che hanno un antenato evolutivo comune. La banca dati "Unknome" include tutte le famiglie codificate dal libro di istruzioni genetico umano, o genoma, e da altri 11 organismi comunemente studiati. In totale, sono presenti oltre 13.000 gruppi e quasi 2 milioni di proteine.

Il vero valore di "Unknome" risiede nella sua capacità di assegnare un punteggio di "conoscenza" a ciascun gruppo di proteine, basato su quanto si sa dei loro geni corrispondenti. Sorprendentemente, circa 3.000 di questi gruppi, di cui 805 contengono almeno una proteina umana, hanno un punteggio di conoscenza pari a zero. Ciò evidenzia quanto ancora ci sia da scoprire all'interno del genoma umano.

Attraverso l'uso di questa banca dati, Munro e il suo team hanno studiato 260 geni condivisi tra mosche della frutta e esseri umani che presentavano punteggi di conoscenza bassi. I risultati sono stati sorprendenti: abbassando l'attività di ciascuno di questi geni nelle mosche, hanno scoperto che circa 60 erano essenziali per la vita. Altri erano fondamentali per la riproduzione, la crescita, il movimento e la resistenza allo stress.

A proposito, sapete che sono state scoperte proteine grazie al machine learning.