Le Projet Génome Humain (PGH) a été lancé en 1990 pour atteindre deux objectifs centraux : 1) analyser la structure de l'ADN humain et 2) localiser tous les gènes humains. Récemment, nous avons réussi à atteindre le premier objectif d'obtenir un génome complet et contigu. Séquence ADN du génome humainCependant, atteindre le deuxième objectif s'est avéré beaucoup plus complexe que prévu au départ, bien que nous ayons acquis une bien meilleure compréhension de l'emplacement et de la fonction de milliers de gènes humains.
Des scientifiques de plusieurs pays ont réexaminé les objectifs du Projet Génome Humain et se sont penchés sur les progrès, les défis et les réponses aux quatre efforts spécifiques visant à compléter l'annotation des gènes humains dans les années à venir :
(1) Compléter une liste de gènes codant des protéines et de leurs différentes isoformes.
(2) Achèvement d'une liste complète de gènes d'ARN incluant diverses longueurs et types.
(3) Identifier et lier des maladies spécifiques associées à des gènes et des variantes de gènes d'importance médicale.
(4) Perfectionnement des techniques nécessaires à la réalisation de l'annotation génétique humaine.
L'annotation des gènes codant des protéines a été un point central dans le cadre du Projet Génome Humain. Suite à l'élucidation des séquences génétiques, la communauté scientifique converge progressivement vers un consensus concernant l'identité de ces gènes, bien que le processus d'annotation reste un travail en cours.
Initialement estimé entre 50 000 et 100 000 gènes dans les années 1980, ces estimations ont constamment diminué au fil du temps. La première publication du génome humain réduit l'estimation à 30 000 à 40 000, suivie d'une nouvelle réduction à 25 000, et le nombre actuel s'élève à un peu moins de 20 000 gènes. Une récente publication de base de données, illustrée par la version 41 de GENCODE avec 19 370 gènes, souligne ce raffinement continu. Ces ajustements résultent de multiples avancées, englobant des examens manuels minutieux, des améliorations dans les méthodes d'annotation et d'analyse computationnelles, et la génération croissante de données de transcription expérimentale de haute qualitéMalgré la diminution générale du nombre de gènes, l'identification continue de nouveaux gènes codant des protéines et d'isoformes alternatives de gènes connus se poursuit.
Un effort collaboratif remarquable, connu sous le nom de MANE (Annotation Appariée du NCBI et de l'EMBL-EBI, Ensembl/GENCODE et RefSeq), a récemment introduit un ensemble de données presque complet présentant une isoforme pour chaque gène codant des protéines. Cette initiative a obtenu un consensus entre deux projets d'annotation de premier plan, RefSeq et GENCODE. MANE 1.0 comprend 19 062 loci de gènes, englobant 95 % du nombre total de loci codant des protéines dans les principaux catalogues de gènes humains.
Gènes d'ARN non codants (ncRNAs) constituent une catégorie de molécules d'ARN transcrites à partir de l'ADN, dépourvues de capacité de codage protéique mais cruciales pour les fonctions cellulaires. L'identification des ncARN fonctionnels représente un défi majeur en matière d'annotation, car de nombreuses séquences d'ARN transcrites peuvent manquer de pertinence fonctionnelle dans diverses conditions cellulaires et environnementales. Le terme "gènes" est réservé aux ARN ayant des fonctionnalités établies, ce qui restreint l'étendue des efforts d'annotation. Actuellement, la plupart des efforts d'annotation se concentrent sur le catalogage exhaustif transcrits d'ARNnc, en négligeant leur classification fonctionnelle.
Un défi inhérent à l'annotation des ncARNs réside dans l'attribution d'étiquettes fonctionnelles. Contrairement aux gènes codant des protéines, pour lesquels il existe de nombreuses preuves fonctionnelles a priori et des méthodes computationnelles robustes basées sur les informations de séquence primaire qui facilitent la prédiction de fonction, le scénario est nettement différent pour les ncARNs. Notre compréhension de ces molécules est limitée, et les méthodes validées pour prédire leurs fonctions sur la base de la séquence seule font défaut. Par conséquent, les efforts récents dans annotation des gènes ncRNA viser à délimiter les différents types de preuves les soutenant, tels que les niveaux d'expression spécifiques aux tissus, même lorsque leurs rôles fonctionnels restent énigmatiques. L'accent est mis sur la caractérisation des diverses facettes de la preuve, en reconnaissant la complexité de la fonctionnalité des ARN non codants.
L'annotation des gènes humains a des implications cruciales pour le diagnostic et le traitement des troubles génétiques. Dans le catalogue complet d'OMIM, plus de 5 000 gènes et une multitude de variants sont liés à des troubles monogéniques et à la susceptibilité aux maladies, comme en témoigne les plus de 34 000 variants du gène BRCA1 documentés dans la base de données BRCA Exchange. Notamment, 2 228 de ces variants sont désignés comme pathogènes.
L'exactitude et l'exhaustivité des modèles de gènes et de transcrits jouent un rôle crucial dans l'évaluation du potentiel pathogène des variants. Des outils comme PolyPhen, Revel et Variant Effect Predictor (VEP) s'appuient sur des transcrits de cadres de lecture ouverts prédits pour déterminer les effets des variants. De plus, la précision de l'annotation des frontières des exons est essentielle pour concevoir des leurres d'oligonucléotides et des amorces PCR utilisées dans les analyses diagnostiques cliniques. séquençage de capture cibléeMême dans le contexte du séquençage du génome entier (WGS) à des fins diagnostiques, les exons non annotés sont généralement exclus de l'examen par les cliniciens.
Le défi prédominant dans ce domaine concerne l'établissement d'une norme clinique. Actuellement, les laboratoires cliniques fonctionnent principalement sur les assemblages humains GRCh37 (hg19), utilisant les transcrits RefSeq comme référence pour les gènes associés aux maladies, souvent basés sur des rapports littéraires. Cependant, cette approche présente deux problèmes significatifs : tout d'abord, tous les transcrits RefSeq ne s'alignent pas parfaitement avec le génome de référence humain GRCh37, et ensuite, les transcrits choisis ne reflètent pas nécessairement les caractéristiques cruciales pour le diagnostic clinique ni ne représentent les transcrits les plus pertinents pour l'interprétation. Le développement d'une norme clinique robuste est impératif pour améliorer la précision et la fiabilité des annotations génétiques dans le domaine clinique.