Annotation génomique intégrative : Pipelines avancés pour la découverte structurelle et la caractérisation fonctionnelle

L'annotation du génome est souvent présentée comme un flux de travail linéaire. Dans les projets réels, elle fonctionne plutôt comme un système d'arbitrage. L'assemblage fournit une séquence, mais la séquence seule ne vous dit pas quels cadres de lecture ouverts sont réels, où les limites des exons devraient se situer, si deux segments codants voisins appartiennent à un gène ou à deux, ou si un modèle qui semble convaincant est en réalité du bruit dérivé de répétitions. Ces décisions ne deviennent fiables que lorsque plusieurs types de preuves sont contraints de s'accorder.

C'est pourquoi les programmes d'annotation solides ne s'appuient pas sur un seul prédicteur. Ils combinent la modélisation ab initio sensible aux espèces, l'homologie inter-espèces, le soutien des transcrits à lecture courte, les preuves de transcrits complets, le masquage des répétitions et un examen humain ciblé. La qualité des données en amont est tout aussi importante. Les projets qui visent des assemblages prêts pour l'annotation commencent souvent par séquençage de novo du génome entier des plantes et des animaux, plus large soutien au séquençage du génome entier pour des assemblages prêts à l'annotationou, lorsque la continuité est le facteur limitant, séquençage télomère à télomère.

Le but n'est pas de produire le plus grand nombre possible de modèles génétiques. Le but est de produire le plus grand nombre possible de défendable modèles génétiques. Ce mot a de l'importance. Un modèle défendable est celui dont la structure peut être expliquée par les preuves qui le soutiennent, et dont les points faibles sont encore visibles plutôt que cachés derrière une étiquette confiante.

C'est le véritable changement derrière l'annotation moderne. Le problème difficile n'est plus de générer des modèles candidats à grande échelle. Le problème difficile est de décider quelle couche de preuve devrait dominer lorsque les données sont en désaccord.

Integrative genome annotation workflow combining assembly, structural, and functional evidenceFigure 1 : Cette figure montre que l'annotation n'est pas un processus unidirectionnel, mais un problème de convergence dans lequel la qualité d'assemblage, le masquage des répétitions, les preuves structurelles, les preuves fonctionnelles et la révision manuelle contribuent au même ensemble final de gènes.

L'annotation structurelle commence par définir l'espace génétique.

L'annotation structurelle pose deux questions liées. Où se trouvent les gènes et quelle est leur architecture exon-intron ? Dans les génomes eucaryotes, ces questions sont plus difficiles qu'elles n'en ont l'air. Les vrais gènes sont interrompus par des introns, entourés de répétitions, flous à cause de fragments pseudogéniques et compliqués par l'épissage alternatif. Un pipeline utile doit donc séparer la véritable structure biologique des motifs de séquence qui ressemblent seulement à des gènes.

La plus grande erreur dans ce domaine est de traiter toutes les preuves comme interchangeables. Ce n'est pas le cas. Chaque classe de preuves est la plus efficace pour résoudre une incertitude différente.

Type de preuve Meilleur pour résoudre Mode de défaillance courant Quand escalader
Prédiction ab initio Structure des gènes candidats à l'échelle du génome Gènes éclatés, gènes fusionnés, microexons manquants, faux ORFs dérivés de répétitions Lorsque la structure prédite manque de soutien transcriptomique ou d'homologie
Preuves d'homologie Plausibilité de codage conservée et contrainte de cadre de lecture Transfert trompeur entre espèces distantes ou familles de paralogues élargies Lorsque plusieurs paralogues se cartographient également bien ou que la structure des domaines est incohérente.
RNA-seq Soutien au splicing et expression locale des exons Reconstruction d'isoformes ambiguës dans des loci complexes Lorsque le soutien de jonction est partiel ou incompatible entre les isoformes.
Iso-Seq / transcriptions en pleine longueur Chaînage d'exons, continuité des transcrits, résolution des UTR Capture biaisée par les tissus et couverture incomplète à faible expression Lorsque les preuves d'isoforme sont en conflit avec le potentiel de codage ou l'homologie.
Masquage par répétition Suppression de la structure fausse dans une séquence riche en répétitions Sous-masquage des répétitions spécifiques à la lignée ou sur-masquage de séquences informatives Lorsque les prédictions de codage chevauchent des régions riches en TE ou des fragments répétitifs.

Cette table saisit la règle fondamentale de l'annotation moderne : ne pas demander à un type de preuve de résoudre un problème qui appartient à un autre.

La prédiction ab initio est toujours essentielle, mais elle n'est qu'une première hypothèse.

La prédiction ab initio reste centrale car elle offre une couverture complète du génome. Des outils tels qu'AUGUSTUS et GeneMark analysent l'assemblage et identifient les régions dont les statistiques de séquence semblent compatibles avec une structure codante. Ils sont puissants car ils n'ont pas besoin que chaque locus ait un homologue proche ou un transcript exprimé dans le tissu échantillonné. Sans eux, les gènes spécifiques à une lignée et les loci peu exprimés seraient beaucoup plus difficiles à récupérer.

Mais la prédiction ab initio est souvent expliquée de manière trop vague. Ces outils ne se contentent pas de "deviner des gènes". Ils évaluent un paysage de séquences construit à partir de signaux en forme de gènes. Les codons de départ et d'arrêt sont importants, mais il en va de même pour les motifs de donneurs et d'accepteurs d'épissage, la composition codante, les distributions de longueur des exons, la structure des introns et les transitions spécifiques aux espèces entre états codants et non codants. En pratique, le prédicteur se demande si la séquence locale se comporte comme un chemin plausible à travers l'architecture génétique.

C'est exactement pourquoi la qualité de l'entraînement change autant le résultat. Un modèle bien entraîné apprend à quoi ressemble la structure de codage dans la lignée cible. Un modèle mal entraîné apprend une approximation. La sortie peut encore sembler soignée, mais le profil d'erreur change rapidement. De petits exons disparaissent. Des gènes voisins fusionnent. Un locus interrompu devient deux gènes artificiels. Un fragment répété devient un modèle de codage court parce que son signal local est statistiquement suffisamment convaincant pour passer.

Le point clé est simple. La prédiction ab initio est la plus forte lorsqu'elle est considérée comme le première ébauche de structure, pas la vérité finale.

La logique HMM est importante car les gènes sont des transitions d'état, et non des motifs isolés.

L'angle de votre article met justement en avant la recherche de gènes basée sur les HMM. Cela mérite un traitement explicite car c'est l'une des parties les moins bien expliquées du contenu d'annotation public.

La structure des gènes n'est pas définie par un seul motif. Elle est définie par une séquence de transitions. La séquence codante a tendance à se déplacer vers les frontières d'épissage, puis vers les introns, puis à nouveau vers la séquence codante. La séquence intergénique suit un modèle statistique différent. Les modèles probabilistes sont utiles car ils n'évaluent pas chaque signal de manière isolée. Ils évaluent si la séquence se comporte comme un chemin crédible à travers les états des gènes.

Cela a de l'importance en pratique pour deux raisons.

Tout d'abord, une bonne modélisation de l'état améliore la discrimination entre les vrais gènes et les leurres. Un véritable exon n'est pas seulement semblable à un gène codant. Il est positionné de manière à avoir du sens par rapport aux signaux d'épissage et au contexte de séquence voisin.

Deuxièmement, le modèle devient très sensible aux mauvais a priori. Si les exemples d'entraînement sont faibles, contaminés, fragmentés ou trop éloignés taxonomiquement, les transitions d'état perdent en netteté. Le logiciel renvoie toujours des modèles de gènes, mais la fiabilité biologique diminue. C'est pourquoi deux projets peuvent tous deux prétendre utiliser AUGUSTUS ou GeneMark et aboutir à des ensembles de gènes de qualité très différente.

Une manière plus forte d'expliquer cela aux lecteurs n'est pas "quel prédicteur avez-vous utilisé ?" La meilleure question est "quelles preuves ont appris au prédicteur à quoi ressemble un gène avant qu'il ne commence à analyser le génome ?"

Couverture contre crédibilité : le véritable compromis dans la modélisation ab initio

Une règle de décision utile est de considérer la sortie ab initio en deux dimensions.

Couverture demande si le prédicteur peut scanner l'ensemble du génome et proposer des loci candidats de manière suffisamment large.

Crédibilité demande si les loci proposés restent crédibles après avoir été confrontés aux preuves de transcriptome, aux preuves d'homologie et au filtrage tenant compte des répétitions.

L'annotation forte ne sacrifie pas une dimension au profit de l'autre. Elle utilise la prédiction ab initio pour maximiser la couverture, puis utilise des preuves orthogonales pour protéger la crédibilité.

C'est pourquoi l'appel structurel purement de novo gonfle presque toujours la confiance. Le logiciel est autorisé à expliquer trop de choses avec trop peu de contraintes. Un pipeline plus discipliné pose une question plus sévère : quelles structures prédites restent intactes après que les couches de preuves commencent à être en désaccord ?

Le mappage d'homologie réduit l'espace de solutions.

L'annotation basée sur l'homologie ajoute une contrainte biologique. Si des espèces apparentées possèdent déjà des protéines annotées ou de haute confiance, ces séquences peuvent être alignées à la nouvelle assemblée pour ancrer des régions codantes plausibles. Cela est particulièrement utile lorsque les modèles ab initio commencent à exagérer, ou lorsque les preuves d'expression sont incomplètes pour les tissus, les stades ou les traitements qui importent le plus.

La valeur de l'homologie est souvent décrite de manière trop large. Sa principale force n'est pas qu'elle prouve l'existence d'un gène. Sa force réside dans le fait qu'elle rend de nombreux modèles peu plausibles beaucoup plus difficiles à défendre.

Une protéine conservée peut stabiliser la structure des exons, préserver les attentes de cadre de lecture et réduire la probabilité qu'un ORF dérivé d'une répétition soit confondu avec un vrai gène. Cela fonctionne particulièrement bien pour les enzymes conservées, le matériel cellulaire de base et les familles avec une architecture de domaine stable.

Mais l'homologie a des limites nettes. Si la référence est trop éloignée, les frontières des exons dérivent. Si la famille s'est récemment élargie, une protéine de référence peut se répartir sur plusieurs loci paralogues. Si la lignée cible a acquis un nouvel exon ou perdu un domaine, un flux de travail basé sur l'homologie peut aplatir la biologie réelle en un ancien modèle.

C'est pourquoi l'homologie devrait être considérée comme une couche de contrainte, pas un moule. Cela limite les mauvais modèles. Cela ne remplace pas les preuves spécifiques aux organismes.

Les preuves de transcription sont le meilleur antidote aux conjectures structurelles.

Si la prédiction ab initio offre une portée et l'homologie une plausibilité, les preuves transcriptomiques fournissent une localité. Elles indiquent où l'organisme a réellement transcrit une séquence dans les conditions échantillonnées. Cela en fait l'un des correctifs les plus puissants dans l'ensemble du flux de travail structural.

Pour de nombreux projets, standard Analyse RNA-Seq ce n'est pas un ensemble de données secondaire. C'est l'un des principaux filtres qui empêche l'ensemble des gènes structurels de s'éloigner des preuves de splicing réelles. Les lectures soutenant les jonctions peuvent confirmer les limites des exons, récupérer des exons manqués et déclasser des modèles qui semblent statistiquement plausibles mais qui ne reçoivent jamais de soutien d'expression.

Cependant, les lectures courtes ne résolvent pas tout. Elles sont efficaces en termes de couverture, mais moins en ce qui concerne la continuité des transcrits. Lorsque les loci sont très alternatifs, lorsque les exons sont courts, ou lorsque les paralogues sont très similaires, les lectures courtes indiquent souvent qu'une transcription a eu lieu sans préciser exactement quels exons appartiennent à la même molécule de transcrit.

C'est là que les preuves de transcription longue modifient le problème.

Iso-Seq pour la découverte de transcrits complets et Séquençage de transcrits complets par nanopore améliorer l'enchaînement des exons, la continuité des transcrits, la récupération des UTR et la résolution des isoformes. Ils ne suppriment pas toute ambiguïté. L'expression reste biaisée par les tissus, et les transcrits de faible abondance peuvent encore être manqués. Mais ils réduisent considérablement la quantité d'inférences nécessaires dans des loci difficiles.

Une manière concise d'expliquer la hiérarchie est la suivante :

  • L'ARN-seq montre où le support de transcription existe
  • la cartographie consciente des épissures montre quelles jonctions sont crédibles
  • les données de transcription intégrale montrent quelles chaînes d'exons vont ensemble
  • les preuves combinées montrent quels modèles structurels survivent à la correction

Cette dernière ligne est la plus importante. Les preuves ne sont pas simplement additives. Elles sont correctives. Chaque couche corrige un type de faute différent.

Editing an ab initio draft model with splice support and full-length transcript evidenceFigure 2 : Cette figure illustre comment un modèle préliminaire ab initio est modifié par le soutien de splicing, puis affiné à nouveau par des preuves de transcrits complets jusqu'à ce que la structure finale de l'isoforme devienne défendable.

Que faire lorsque les preuves sont contradictoires ?

Le désaccord est normal. La mauvaise réponse est de tout moyenner mécaniquement.

Une meilleure réponse consiste à demander quel type de preuve est le mieux placé pour résoudre l'incertitude spécifique :

  • Si l'incertitude concerne une frontière d'exon, les preuves de transcriptase devraient généralement dominer.
  • Si l'incertitude concerne un ORF court, qu'il soit réel ou dérivé de répétitions, le contexte des répétitions et la contrainte d'homologie devraient dominer.
  • Si l'incertitude réside dans le fait que plusieurs modèles similaires représentent une seule famille conservée ou une expansion récente, l'homologie et la structure des domaines devraient dominer.
  • Si l'incertitude concerne la continuité des transcrits à travers un locus complexe, les preuves de transcrits complets devraient dominer.
  • Si aucune de ces couches ne résout le conflit de manière satisfaisante, le locus doit rester provisoire et être envoyé à une révision manuelle.

Ce cadre axé sur la décision est l'un des moyens les plus utiles pour donner à un article d'annotation une impression d'expertise plutôt que de banalité. Il montre aux lecteurs comment les preuves doivent être pondérées, et pas seulement quels ensembles de données sont à la mode.

L'assemblée sous l'annotation décide toujours du plafond.

Une erreur courante est de discuter de l'assemblage et de l'annotation comme s'ils étaient des boîtes de service distinctes. En pratique, la qualité de l'annotation hérite des forces et des faiblesses de l'assemblage qui se trouve en dessous.

Une assemblée fragmentée sépare les loci. L'effondrement répétitif déforme la densité génique locale. La duplication haplotypique résiduelle gonfle le nombre apparent de gènes. Les erreurs de jonction créent une fausse proximité entre des segments codants non liés. Une fois que ces erreurs pénètrent dans le substrat, même un pipeline d'annotation sophistiqué ne peut que les contourner, sans pouvoir les effacer.

C'est pourquoi les projets prêts pour l'annotation considèrent de plus en plus l'architecture du génome comme une partie de la planification de l'annotation plutôt qu'une tâche purement en amont. Dans les génomes eucaryotes plus grands, l'échafaudage à l'échelle des chromosomes provenant de Séquençage Hi-C peut réduire l'ambiguïté structurelle, améliorer la continuité du locus et rendre l'arbitrage des modèles génétiques ultérieurs plus fiable.

La règle pratique est sévère mais utile : l'annotation peut affiner un génome, mais elle ne peut pas entièrement sauver un substrat faible.

Le masquage répétitif n'est pas une tâche de routine ; c'est un contrôle de qualité pour l'ensemble du pipeline.

Le masquage des répétitions est l'une des étapes les plus sous-estimées dans l'annotation du génome. Il est souvent décrit en une phrase, puis enterré sous les parties plus visibles de la prédiction génique. Ce traitement est trompeur. La gestion des répétitions modifie l'environnement des faux positifs de l'ensemble du flux de travail.

Les génomes eucaryotes sont remplis d'ADN répétitif : éléments transposables, régions de faible complexité, agencements en tandem, répétitions simples et familles de répétitions spécifiques à une lignée qui peuvent ne pas apparaître dans les bibliothèques génériques. Certains sont clairement non codants. Certains chevauchent des gènes. Certains donnent des fragments qui ressemblent à des exons. Certains génèrent juste assez de structure d'ORF pour tromper un prédicteur en appelant un locus codant.

Une fois que cela se produit, le reste de la pile d'annotation commence à gaspiller des efforts sur des artefacts.

RepeatModeler et RepeatMasker sont importants car les bibliothèques génériques ne suffisent pas.

Un flux de travail courant associe RepeatModeler à RepeatMasker. La logique est simple. Les bases de données de répétitions génériques ne capturent pas toutes les familles spécifiques à une lignée, en particulier chez les organismes non-modèles. La découverte de répétitions de novo fournit au projet une bibliothèque de répétitions qui reflète réellement le génome en cours d'annotation. Le masquage marque ensuite ces régions afin que les étapes structurelles en aval puissent les traiter avec précaution.

Le mode de masquage le plus utile est généralement le masquage doux. Le masquage dur supprime la séquence de manière agressive et peut effacer un contexte qui est encore biologiquement informatif. Le masquage doux préserve la séquence tout en l'indiquant comme dérivée de répétitions. Cela convient mieux à l'annotation car cela réduit les faux positifs sans prétendre que le répetome est biologiquement sans pertinence.

Un masquage de répétitions faible produit une erreur écologique, pas une simple erreur isolée.

Lorsque le masquage des répétitions est faible, les dommages ne se manifestent pas en un seul endroit. Ils se propagent.

Problème lié à la répétition Ce que le pipeline voit Erreur d'annotation typique Conséquence en aval
Le fragment TE ressemble à une séquence codante. ORF court avec une composition plausible Faux modèle de gène court Comptes de gènes gonflés
La région riche en répétitions attire des résultats de protéines faibles. Homologie partielle bruyante Soutien trompeur pour un faux locus Transfert fonctionnel incorrect
Les répétitions effondrées déforment la structure locale. Contexte de séquence simplifié artificiellement Gènes manquants ou fusionnés Estimations de densité génétique trompeuses
Des fragments adjacents de répétitions pseudogéniques persistent. Des morceaux de code cassés près de véritables loci Limites séparées ou modèles fusionnés Mauvaise curation des familles de gènes
Les répétitions spécifiques à la lignée restent non masquées. Séquence répétitive inconnue considérée comme contenu nouveau Surenchère de gènes spécifiques à la lignée Faux allégations d'innovation

Ce modèle est la raison pour laquelle le masquage de répétition devrait être formulé comme un porte de contrôle qualité, pas une tâche de prétraitement. Si le repeatome est mal modélisé, chaque couche de preuve ultérieure est contrainte de travailler dans un espace de recherche plus sale.

Structural errors caused by weak repeat masking versus clean interpretation after correctionFigure 3 : Cette figure montre comment le masquage faible crée plusieurs types d'erreurs structurelles à la fois, puis contraste cela avec l'interprétation plus claire produite par la correction consciente des répétitions.

L'annotation consciente des répétitions nécessite un jugement, pas seulement un masquage.

Le répetome ne doit pas être considéré uniquement comme un obstacle. C'est aussi une couche biologiquement significative du génome. Les répétitions façonnent la taille du génome, l'architecture locale, l'innovation régulatrice et la structure spécifique aux lignées. Un flux de travail d'annotation mature doit donc accomplir deux choses à la fois.

Il doit supprimer la structure fausse dérivée des répétitions lors de la prédiction génique.

Il doit également préserver l'annotation des répétitions en tant que caractéristique génomique interprétable pour l'analyse en aval.

Ce double rôle est l'une des raisons pour lesquelles le traitement des répétitions mérite son propre espace conceptuel dans l'article. Ce n'est pas seulement pour rendre l'annotation du code plus claire. Cela détermine également à quel point le génome est représenté de manière honnête.

L'annotation fonctionnelle commence lorsque la confiance structurelle est suffisamment élevée.

Une fois qu'un ensemble de gènes structuraux existe, la question suivante est évidente : que font ces gènes ? La réponse superficielle consiste à effectuer une recherche de similarité, à prendre le meilleur résultat et à transférer l'étiquette. Cette approche est rapide, familière et souvent trop confiante.

Une meilleure question est la suivante : quelle combinaison de similarité, d'architecture de domaine et de contexte orthologue soutient l'appel de fonction le plus défendable ?

Ce changement est important car le transfert de fonction échoue de manière prévisible. Les paralogues semblent proches mais se comportent différemment. Les protéines partielles héritent de noms trop spécifiques. Les protéines multi-domaines empruntent des étiquettes d'un domaine préservé tout en ignorant les autres. Les familles élargies créent de nombreux quasi-correspondances, aucune d'entre elles ne mérite un transfert de nom direct un à un.

C'est pourquoi une bonne annotation fonctionnelle devrait se comporter comme une arbitrage de preuves en couches, tout comme le fait l'annotation structurelle.

La recherche de similarité rapide est utile car elle construit un voisinage, pas parce qu'elle fournit une réponse finale.

Des outils tels que DIAMOND sont précieux car ils rendent la recherche de similarité à l'échelle du protéome réalisable. Ils permettent à un projet d'identifier rapidement un voisinage de correspondances plausibles à travers de grandes bases de données protéiques. Cela est opérationnellement important, mais la valeur plus profonde est interprétative. Une recherche rapide permet au flux de travail de rassembler du contexte plutôt que de forcer un seul meilleur résultat à porter toute la signification de la protéine.

Utilisé correctement, la recherche de similarité répond à des questions comme celles-ci :

  • À quelles protéines connues cette séquence ressemble-t-elle ?
  • La similarité est-elle large ou étroite ?
  • Le match prend-il en charge une étiquette au niveau familial ou une étiquette précise ?
  • La séquence est-elle bien représentée dans les bases de données existantes, ou semble-t-elle plus faiblement conservée ?

Ce sont des résultats utiles. Aucun d'entre eux, à lui seul, ne suffit à justifier un transfert de nom très spécifique.

C'est à ce moment-là que la seconde moitié de l'article commence : l'inférence au niveau du domaine avec HMMER, la cartographie d'ontologie avec GO, KEGG et eggNOG, quand les appels de fonction doivent être rétrogradés à des étiquettes larges ou provisoires, comment la curation manuelle s'intègre dans des loci difficiles, et comment choisir entre MAKER, BRAKER et la logique d'annotation de style Ensembl.

Functional evidence stack showing sequence similarity, domain detection, and ortholog contextFigure 4 : Cette figure présente la pile de preuves fonctionnelles en montrant comment la similarité de séquence, la détection de domaines et le contexte orthologue affinent progressivement un appel de fonction.

Inférence au niveau du domaine avec HMMER : pourquoi l'architecture conservée est importante

La recherche de similarité rapide fournit un voisinage utile. Cela ne vous dit pas, en soi, si la fonction proposée est structurellement cohérente. C'est le rôle de l'inférence au niveau du domaine.

Des outils construits autour des modèles de Markov cachés de profil, tels que HMMER, posent une question plus stricte : la protéine prédite contient-elle la signature statistique conservée attendue pour un véritable membre d'une famille de domaines ? Cela est important car de nombreuses erreurs d'annotation ne sont pas causées par l'absence de similarité. Elles sont causées par spécificité mal placéeUne protéine peut sembler globalement similaire à une famille connue, mais manquer du domaine catalytique, du module de liaison, de la queue régulatrice ou de l'ordre des domaines requis pour la fonction spécifique à transférer.

C'est pourquoi l'analyse de domaine devrait être considérée comme un point de contrôle plutôt que comme une étape accessoire. Elle aide d'au moins quatre manières.

Tout d'abord, il récupère les appels de fonction lorsque l'identité complète est modeste mais que l'architecture de base est intacte. Deuxièmement, il rejette les étiquettes trop confiantes lorsque seule une partie de la structure attendue est présente. Troisièmement, il expose le mélange de domaines, qui est courant dans les génomes eucaryotes et modifie souvent l'interprétation biologique. Quatrièmement, il aide à séparer un véritable membre d'une famille d'un parent tronqué, fusionné ou dégénéré.

La valeur pratique est simple. La similarité donne le voisinage. Les domaines donnent le mécanisme. Lorsque les deux sont d'accord, la confiance augmente. Lorsqu'ils ne sont pas d'accord, l'annotation devrait devenir plus large, pas plus spécifique.

Quand les appels de fonction devraient être déclassés.

L'une des habitudes les plus utiles dans l'annotation du génome est de savoir quand pas transférer un nom de fonction détaillé. C'est là que de nombreux pipelines deviennent trop confiants. Une annotation propre n'est pas la même chose qu'une annotation honnête.

Un appel de fonction doit généralement être déclassé en une étiquette large ou provisoire dans les conditions suivantes :

  • Architecture de domaine partielLa séquence correspond à une famille connue, mais seule une partie de la structure de domaine attendue est présente.
  • Soutien orthologique faiblela protéine a des homologues, mais sa position au sein des groupes orthologues est instable ou trop large.
  • Expansion de la famillele gène appartient à une famille de paralogues qui s'est rapidement étendue, où le transfert de proximité est particulièrement risqué.
  • Succès conflictuelsdes matchs à score élevé différents impliquent différentes fonctions spécifiques.
  • Loci adjacents répétés ou structurellement instables: le modèle de protéine lui-même peut être incomplet ou incorrect.
  • Séquence de codage fragmentéela protéine prédite est tronquée, fusionnée ou cassée à travers un intervalle d'assemblage difficile.

Dans ces cas, une étiquette large n'est pas une faiblesse. C'est une protection technique. Elle indique aux utilisateurs en aval que la séquence appartient à un voisinage fonctionnel crédible, mais que les preuves actuelles ne justifient pas une revendication excessive.

C'est une des raisons pour lesquelles l'annotation fonctionnelle devrait être rédigée sous la forme d'une échelle de confiance plutôt que d'un appel binaire. Un bon système de sortie fait la distinction entre :

  • fonction spécifique à haute confiance
  • fonction au niveau familial
  • protéine contenant un domaine
  • protéine hypothétique ou non caractérisée

Cette hiérarchie est bien plus utile que de forcer chaque séquence dans un nom qui semble confiant.

GO, KEGG et eggNOG : transformer les gènes en systèmes interprétables

Une fois que les preuves au niveau de la séquence et au niveau du domaine sont suffisamment solides, la prochaine étape consiste à relier les gènes à des structures biologiques plus larges. C'est ici que l'ontologie et la cartographie des orthologues deviennent centrales.

Aller est utile car il organise l'annotation en fonction de la fonction moléculaire, du processus biologique et du composant cellulaire. Cela donne au jeu de gènes un vocabulaire contrôlé. Au lieu de ne contenir que des noms de protéines en texte libre, l'annotation commence à soutenir l'analyse d'enrichissement, la comparaison au niveau des processus et une interprétation plus stable entre les projets.

KEGG ajoute une logique de voie. Cela est important lorsque la véritable question biologique n'est pas "comment s'appelle cette protéine ?" mais "ce génome encode-t-il les composants nécessaires à une voie, un module ou une branche métabolique ?" La cartographie des voies transforme une liste de produits géniques en une image au niveau des systèmes.

eggNOG ajoute une structure tenant compte de l'orthologie. Cela est particulièrement important lorsqu'une protéine appartient à une grande famille avec de nombreux paralogues. Un transfert de similarité directe peut surajuster à la séquence la plus proche. Le regroupement tenant compte de l'orthologie offre un cadre plus conservateur et améliore souvent la rigueur de l'attribution des GO et des voies en aval.

Un flux de travail fonctionnel solide se déploie donc en couches :

  1. Utilisez la recherche de similarité pour identifier un voisinage fonctionnel plausible.
  2. Utilisez des modèles de domaine pour tester si l'architecture prend en charge cette interprétation.
  3. Utilisez l'orthologie pour décider si l'étiquette doit rester large ou peut devenir plus spécifique.
  4. Cartographiez la séquence dans GO, KEGG et les systèmes connexes uniquement après que l'ensemble des preuves soit cohérent.
  5. Préservez l'incertitude lorsque la pile ne converge pas complètement.

Functional annotation as a layered narrowing processFigure 5 : Cette figure illustre que l'annotation fonctionnelle est un processus de réduction en plusieurs couches, et non un transfert d'étiquette en une seule étape.

Le paradoxe de la curation manuelle

L'automatisation est essentielle dans l'annotation génomique. Elle est également incomplète par conception. La plus grande part des loci peut être traitée suffisamment bien par des pipelines automatisés, mais les loci qui importent le plus pour l'interprétation biologique sont souvent ceux que l'automatisation gère le moins bien.

C'est le paradoxe de la curation manuelle.

Les cas les plus difficiles incluent généralement des familles dupliquées en tandem, des loci adjacents aux répétitions, des gènes contenant des microexons, des quartiers riches en pseudogènes, des UTR longues et variables, une transcription imbriquée, et des familles avec une expansion rapide spécifique à une lignée. Ce sont exactement les régions où un modèle de gène automatisé poli peut encore être incorrect d'une manière biologiquement importante.

C'est pourquoi les environnements de révision basés sur le navigateur, tels qu'Apollo et JBrowse, restent importants. Ils permettent à un conservateur d'examiner la pile de preuves dans son contexte plutôt que de traiter le fichier d'annotation final comme un produit scellé. Un conservateur peut poser des questions pratiques :

  • Les jonctions d'épissage ont-elles un véritable soutien ?
  • Le cadre de codage prédit reste-t-il stable à travers le locus ?
  • Les preuves d'homologie soutiennent-elles un gène ou plusieurs ?
  • Le modèle apparent traverse-t-il une séquence dérivée répétée ?
  • Les isoformes à longues lectures sont-elles en accord avec la structure d'épissage des courtes lectures ?
  • Le locus est-il suffisamment important sur le plan biologique pour justifier une révision même si le modèle est seulement modérément incertain ?

Un bon programme d'annotation ne soumet pas chaque désaccord à un conservateur. Cela n'est pas évolutif. Au lieu de cela, il classe les désaccords en fonction de leur impact probable sur l'interprétation biologique.

Une règle d'escalade utile ressemble à ceci :

  • Maintenez le locus automatisé lorsque la structure ab initio, l'homologie, les preuves transcriptomiques et l'interprétation fonctionnelle sont toutes d'accord.
  • Escaladez le locus lorsque une couche de preuve se détache brusquement des autres.
  • Priorisez la révision humaine lorsque le désaccord affecte un objectif critique pour le projet, une famille biologique de haute priorité ou un livrable très visible dans l'étude.

Ce dernier point est important. La qualité de l'annotation n'est pas mesurée uniquement par des métriques de complétude globale. Elle est également mesurée par le soin apporté aux loci qui comptent le plus pour le projet.

Triage rules for moving loci from automated annotation into manual reviewFigure 6 : Cette figure révèle quels types de loci passent de l'annotation automatisée à la révision manuelle, et pourquoi.

MAKER vs. BRAKER vs. Ensembl : trois logiques d'annotation différentes

La question courante est de savoir quel pipeline est le meilleur. La question plus utile est lequel. logique d'annotation meilleures correspondances au projet.

MAKER : intégration modulaire des preuves et perfectionnement itératif

MAKER est souvent le meilleur choix lorsque le projet nécessite de la flexibilité. Il est conçu pour combiner plusieurs flux de preuves de manière modulaire, et il fonctionne bien lorsque l'annotation s'améliore au fil des tours plutôt qu'en une seule fois. Cela le rend attrayant pour les projets qui prévoient des mises à jour itératives, des changements dans les entrées de preuves ou un raffinement répété des choix d'entraînement et de filtrage.

Sa force ne réside pas dans le fait qu'il résout automatiquement chaque problème. Sa force réside dans le fait qu'il laisse au projet la possibilité d'évoluer. Les équipes peuvent comparer le comportement des prédicteurs, intégrer de nouvelles preuves de transcription et améliorer l'ensemble d'annotations sans avoir à reconstruire la philosophie du flux de travail depuis le début.

BRAKER : prédiction structurelle automatisée avec formation guidée par les preuves

BRAKER est souvent le choix le plus solide lorsque le besoin immédiat est une base structurelle rapide et solide dans un génome eucaryote avec des preuves de transcript. Son principal avantage est qu'il automatise l'une des parties les plus difficiles de la prédiction : la création de modèles sensibles aux espèces en utilisant des preuves plutôt qu'en supposant que des paramètres génériques sont suffisants.

Cela rend BRAKER particulièrement utile pour les eucaryotes non-modèles où la qualité de l'entraînement est un déterminant majeur de la qualité de l'annotation. Cela réduit la charge manuelle sans prétendre que l'entraînement n'a pas d'importance.

Sa limitation est qu'il reste partie d'un système plus vaste. Il offre une puissante structure de soutien, mais la gestion des répétitions, l'examen des lieux difficiles et le transfert de fonction en aval nécessitent encore une discipline séparée.

Annotation de style Ensembl : logique de production standardisée

L'annotation de style Ensembl est mieux comprise comme un cadre de production plutôt qu'un choix autonome léger. Elle met l'accent sur la standardisation, le prétraitement tenant compte des répétitions, l'intégration des preuves, des versions stables et, dans certains cas, une curation manuelle intégrée dans le processus de construction.

Sa force réside dans la cohérence. Cela est crucial lorsque l'objectif n'est pas seulement d'annoter un génome, mais aussi de maintenir la comparabilité entre les espèces, les versions ou les cycles de publication.

Sa limitation est que ce style d'annotation a généralement plus de sens dans des programmes orientés vers la référence plutôt que dans des projets plus petits qui ont principalement besoin d'une réponse rapide et adaptable.

Comparaison pratique

Critère FABRICANT BRAKER Annotation de style Ensembl
Philosophie fondamentale Intégration modulaire des preuves Prédiction structurelle automatisée guidée par des preuves Construction de gènes de production standardisée
Meilleur cas d'utilisation Affinage itératif Base de référence structurelle rapide Consistance de référence
Force Intégration flexible Logique de formation automatisée solide Compatibilité stable entre les constructions croisées
Dépendance principale Gestion minutieuse des preuves Bonne preuve de transcription et/ou de protéine Discipline de processus et infrastructure plus larges
Meilleure adaptation pour les génomes non-modèles Forte lorsque les projets évoluent au fil des tours. Forte lorsque des preuves de transcription sont disponibles Fort dans des paramètres de construction formels à long terme
Compatibilité de la curation manuelle Bon Bonne après la phase de prédiction Fort dans les contextes de référence sélectionnés

Une règle de décision pratique fonctionne bien :

Choisir FABRICANT lorsque le projet est susceptible de changer à mesure que de nouvelles preuves arrivent et que le perfectionnement itératif fait partie du plan.

Choisir BRAKER lorsque la priorité est une base structurelle rapide et guidée par des preuves pour un génome eucaryote.

Choisissez un Approche de style Ensembl lorsque la priorité est la discipline de publication, la cohérence entre les versions et la qualité des annotations orientées référence.

Ce n'est pas une comparaison où le gagnant prend tout. C'est une comparaison adaptée à l'objectif.

La qualité des annotations est héritée du design en amont.

À ce stade, un principe devrait être clair. La qualité de l'annotation ne commence pas avec le logiciel d'annotation. Elle commence avec la conception du projet.

Une assemblée fragmentée limite la confiance structurelle. Une modélisation de répétitions faible gonfle l'espace des faux positifs. Un échantillonnage transcriptomique médiocre restreint la récupération des isoformes. Des ensembles d'homologie faibles réduisent la contrainte biologique. Un transfert de fonction négligent augmente la spécificité. Aucun polissage à la fin ne peut entièrement effacer ces décisions en amont.

C'est pourquoi des projets solides sont de plus en plus conçus à rebours de la question biologique.

Si la question principale dépend de la structure de l'isoforme, alors séquençage de transcriptome complet ou Séquençage direct de l'ARN par nanopore peut être central plutôt qu'optionnel.

Si la question principale dépend du contexte chromosomique et de la continuité du locus, alors Séquençage Hi-C devient une partie de la préparation à l'annotation, et non une commodité distincte en aval.

Si la question principale dépend de l'interprétation réglementaire, alors l'annotation devra peut-être être associée à ATAC-Seq ou ChIP-Seq Ainsi, les modèles de gènes peuvent être interprétés en parallèle avec l'état de la chromatine et le contexte de liaison.

Le meilleur flux de travail n'est pas celui avec la liste de méthodes la plus longue. C'est celui où chaque type de preuve est présent car cela élimine une incertitude connue.

Perspective finale

L'annotation génomique intégrative n'est pas l'acte mécanique d'empiler des outils jusqu'à ce qu'un fichier GFF apparaisse. C'est le processus discipliné de décider quelles preuves sont solides, quelles preuves sont faibles et quels loci nécessitent encore un jugement humain.

La prédiction ab initio fournit une couverture. L'homologie donne des contraintes. L'ARN-seq fournit un soutien à l'épissage. L'Iso-Seq assure la continuité des transcrits. Le masquage des répétitions réduit les structures fausses. L'analyse des domaines empêche un transfert de nom imprudent. GO, KEGG et eggNOG relient les modèles de gènes à une interprétation au niveau des systèmes. La curation manuelle protège le projet d'un petit nombre d'erreurs qui peuvent déformer une conclusion biologique très large.

C'est le flux de travail moderne. Ce n'est pas une ligne droite, mais une négociation contrôlée entre les couches de preuves.

FAQ

Quelle combinaison de preuves produit généralement les modèles génétiques les plus défendables ?
Pour la plupart des génomes eucaryotes, la base la plus solide provient d'un assemblage de haute qualité, d'un prétraitement tenant compte des répétitions, de prédictions ab initio, d'homologie protéique et de preuves transcriptomiques. La confiance s'améliore encore lorsque des données de transcrits complets sont disponibles pour des loci complexes.

Combien de preuves de transcriptome sont nécessaires pour un nouveau projet d'annotation eucaryote ?
Il n'y a pas de seuil unique, car la réponse dépend de la complexité du génome, de la diversité des tissus et de la question du projet. Le séquençage d'ARN à lecture courte peut être suffisant pour un large soutien des épissures, mais les données de transcriptome complet deviennent beaucoup plus importantes lorsque la structure des isoformes est centrale à l'étude.

Quelle est la différence entre l'annotation structurelle et l'annotation fonctionnelle ?
L'annotation structurelle définit où se trouvent les gènes et comment leur architecture exon-intron est organisée. L'annotation fonctionnelle attribue des rôles biologiques probables aux protéines et aux voies résultantes.

Pourquoi le masquage des répétitions est-il nécessaire avant la prédiction des gènes ?
Parce que l'ADN répétitif peut imiter des signaux de codage, attirer des alignements trompeurs et gonfler le nombre de gènes faux. Le masquage conscient des répétitions réduit ce bruit de fond avant que la prédiction structurelle ne commence.

La prédiction ab initio est-elle suffisante pour un nouveau génome eucaryote ?
En général, non. Cela offre une couverture à l'échelle du génome, mais la précision s'améliore lorsque des preuves de transcriptome, des preuves d'homologie et un filtrage tenant compte des répétitions sont ajoutés.

Pourquoi les données de transcript long-read sont-elles si importantes ?
Parce que cela améliore la continuité des transcrits, la résolution des isoformes, la récupération des UTR et l'enchaînement des exons dans les loci où les lectures courtes laissent de l'ambiguïté.

Quand un locus doit-il être soigneusement examiné manuellement ?
Lorsque les couches de preuves majeures ne s'accordent pas, ou lorsque le locus appartient à une famille de haute priorité et qu'une erreur de modélisation aurait un impact matériel sur la conclusion biologique.

Où eggNOG s'intègre-t-il dans l'annotation ?
Il fournit un contexte tenant compte des orthologues, ce qui aide à transférer la fonction de manière plus conservatrice que la simple similarité.

Une forte annotation peut-elle compenser un assemblage faible ?
Seulement en partie. Une bonne annotation peut réduire certaines ambiguïtés, mais la fragmentation, l'effondrement des répétitions et la duplication non résolue limitent toujours la confiance dans l'ensemble final des gènes.

Références

  1. Bruna T, Hoff KJ, Lomsadze A, Stanke M, Borodovsky M. BRAKER2 : annotation automatique du génome eucaryote avec GeneMark-EP+ et AUGUSTUS soutenu par une base de données protéique. Génomique et bioinformatique NAR. 2021;3(1):lqaa108. DOI : 10.1093/nargab/lqaa108
  2. Hoff KJ, Lange S, Lomsadze A, Borodovsky M, Stanke M. BRAKER1 : annotation de génome non supervisée basée sur RNA-Seq avec GeneMark-ET et AUGUSTUS. Bioinformatique. 2016;32(5):767-769. DOI : 10.1093/bioinformatics/btv661
  3. Holt C, Yandell M. MAKER2 : un pipeline d'annotation et un outil de gestion de base de données génomique pour les projets de génome de deuxième génération. BMC Bioinformatique. 2011 ; 12 : 491. DOI : 10.1186/1471-2105-12-491
  4. Campbell MS, Holt C, Moore B, Yandell M. Annotation et curation du génome à l'aide de MAKER et MAKER-P. Protocoles actuels en bioinformatique. 2014;48:4.11.1-39. DOI : 10.1002/0471250953.bi0411s48
  5. Hoff KJ, Stanke M. Prédire des gènes dans des génomes uniques avec AUGUSTUS. Protocoles actuels en bioinformatique. 2019;65(1):e57. DOI : 10.1002/cpbi.57
  6. Smit AFA, Hubley R, Green P. RepeatMasker Open-4.0. Documentation du logiciel et du projet. Disponible sur le site du projet RepeatMasker.
  7. Buchfink B, Reuter K, Drost HG. Alignements de protéines sensibles à l'échelle de l'arbre de la vie utilisant DIAMOND. Nature Methods. 2021;18(4):366-368. DOI : 10.1038/s41592-021-01101-x
  8. Eddy SR. Recherches HMM de profil accéléré. PLoS Biologie Computationnelle. 2011 ; 7(10) : e1002195. DOI : 10.1371/journal.pcbi.1002195
  9. Huerta-Cepas J, Szklarczyk D, Heller D, et al. eggNOG 5.0 : une ressource d'orthologie hiérarchique, annotée fonctionnellement et phylogénétiquement. Recherches sur les acides nucléiques. 2019 ; 47(D1) : D309-D314. DOI : 10.1093/nar/gky1085
  10. Kanehisa M, Furumichi M, Sato Y, Kawashima M, Ishiguro-Watanabe M. KEGG pour l'analyse des voies et des génomes basée sur la taxonomie. Recherches sur les acides nucléiques. 2023;51(D1):D587-D592. DOI : 10.1093/nar/gkac963
  11. Le Consortium de l'Ontologie des Gènes. La base de connaissances de l'Ontologie des Gènes en 2023. Génétique. 2023;224(1):iyad031. DOI : 10.1093/genetics/iyad031
  12. Korlach J, Gedman G, Kingan SB, et al. Des assemblages de génomes aviaires de novo à lecture longue PacBio et phasés corrigent et ajoutent des gènes importants dans la recherche en neurosciences. Gigascience. 2017;6(10):1-16. DOI : 10.1093/gigascience/gix085
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut