Biologie – la bio-informatique » maladies des plantes , agriculture et écologie

 Biologie – la bio-informatique

14/3/2009

Biologie – la bio-informatique

La bio-informatique est une application des techniques informatiques au traitement massif de données biologiques. Elle est spécialement utilisée pour l'analyse des séquences génomiques et des protéines. Le terme de bio-informatique est apparu en 1995 dans des publications scientifiques et des programmes de recherche, avec les premiers pas de la génomique. Cette discipline prend en effet appui sur l'utilisation exhaustive des ordinateurs pour traiter la masse d'informations issue de la détermination de la séquence des génomes.

Définition et enjeux de la discipline

La bio-informatique est une discipline émergente de la recherche qui se place à l'interface de la biologie et de l'informatique. Il y a différentes façons de la définir. Il est possible de classer les bio-informaticiens qui la pratiquent en trois groupes (Victor Jongeneel, 2000). Les premiers se définissent comme pratiquant une branche fondamentale de la biologie capable de prédire, par des moyens informatiques, les lois ou les comportements biologiques. Par opposition aux classiques manipulations in vivo ou in vitro pratiquées en laboratoire, on parlera alors d'expériences « in silico » (néologisme d'allure semi-latine, formé à partir de l'anglais silicon). Les partisans de cette définition entendent exercer une bio-informatique théorique semblable à ce que les Anglo-Saxons nomment Computational Biology, c'est-à-dire la fabrication de modèles par le calcul à partir de données biologiques disponibles (Jean-Michel Claverie, 2000). À l'opposé, un grand nombre de biologistes complètent leurs travaux en laboratoire par des analyses sur ordinateur. Ces bio-informaticiens-là ne créent pas de programmes, mais utilisent ceux qui sont écrits par d'autres, soit sur leurs ordinateurs personnels, soit sur des serveurs publics maintenus par des équipes pluridisciplinaires (Philippe Dessen, 1995). Ce domaine de l'analyse de données biologiques par ordinateur a de plus en plus tendance à se dénommer « bioanalyse ». Entre ces deux extrêmes, il existe des coopérations entre les biologistes et les informaticiens pour créer de nouveaux programmes informatiques destinés à la biologie. Ces projets interdisciplinaires constituent le creuset où se forgent les outils de la bio-informatique de demain.

Divers instruments mathématiques sont largement et depuis longtemps utilisés en biologie, soit pour l'analyse statistique, soit pour la détermination de la structure des molécules. Ces domaines d'application ne diffèrent pas des usages des mathématiques et de l'informatique dans la plupart des disciplines scientifiques. Néanmoins, la bio-informatique présente un statut particulier et elle sera définie ici, de manière restrictive, comme l'informatique appliquée au traitement de l'information génétique considérée à ses différents niveaux : la séquence génétique autoréplicative (ADN génomique), les copies (ADNc) des ARN messagers (ARNm) issus de la transcription de l'ADN et les protéines provenant de la traduction des ARNm. Ces protéines sont étudiées une à une pour leur séquence en acides aminés ainsi que pour leur repliement dans l'espace qui confère à chacune sa fonctionnalité.

Le matériel dont l'informatique permet l'étude est fondamentalement l'ADN des chromosomes. L'ADN est une macromolécule linéaire issue de l'enchaînement de quatre bases nucléiques (l'adénosine – A –, la cytosine – C –, la guanine – G – et la thymine – T). L'information génétique est contenue dans de longues « phrases » constituées de ces quatre lettres : ce sont les gènes. Ces derniers codent pour des ARN qui seront finalement traduits, dans les cellules vivantes, en protéines. Les signaux de départ, d'arrêt et de contrôle de ce phénomène d'expression des gènes sont également inscrits dans la séquence d'ADN. C'est pourquoi, depuis le début des années 1980, un des grands enjeux de la biologie moléculaire consiste à déterminer la séquence des génomes des organismes. Ces séquences, à l'origine produites d'abord « manuellement » en petits nombres, représentaient soit des gènes, soit des fragments de gènes. Les études directes de ces séquences (études « manuelles » en quelque sorte) étaient alors suffisantes pour obtenir des résultats sur l'organisation fonctionnelle des gènes, c'est-à-dire pour comprendre ce pour quoi ils codaient et la manière dont leur expression était contrôlée, adaptée à l'environnement ou à la mise en marche d'un « programme » génétique. Très rapidement, avec l'automatisation des procédures de détermination des séquences d'ADN, de nombreuses séquences de plus en plus longues ont été produites. Les pratiques « manuelles » sont devenues inefficaces. Il a fallu introduire des procédures informatisées d'analyse des séquences. La bio-informatique est en grande partie née de ce besoin.

Les grandes étapes de la bio-informatique

Alors que les premiers ordinateurs et leurs programmes se sont développés après la Seconde Guerre mondiale, il a fallu attendre 1962 pour que le Français Philippe Dreyfus donne le nom d'« informatique » à la science du traitement de l'information. Si le terme de bio-informatique n'est apparu qu'en 1995, la discipline qu'il représente, qui est née vers 1980, est issue de la convergence temporelle d'une science et d'une technique arrivées ensemble à maturité : respectivement, la biologie moléculaire et le traitement de l'information par ordinateur. Pour la biologie moléculaire, le pas décisif a été la publication, en 1977, des méthodes de séquençage de l'ADN – mises au point, à peu près simultanément, par Frederick Sanger en Grande-Bretagne, Allan Maxam et Walter Gilbert aux États-Unis –, suivies de près par l'arrivée sur le marché des premiers robots séquenceurs automatiques (au milieu des années 1980). Parallèlement, les techniques de construction d'ordinateurs ont fait des progrès vers la miniaturisation, en proposant les micro-ordinateurs personnels, et les nouveaux langages de programmation, tels le Fortran 77 (1977) et le langage C (1978), ont été novateurs dans la capacité de traiter les caractères A, C, G, T aussi bien que les formules mathématiques. L'éclosion simultanée de ces techniques a permis à l'Anglais Rodger Staden d'être un pionnier de la bio-informatique en écrivant les premiers programmes d'analyse de séquences dès 1977.

À partir de 1990, les perfectionnements apportés par la robotique aux appareils de séquençage automatique de l'ADN mettent à la disposition des biologistes des automates performants qui donneront l'impulsion de départ au séquençage de génomes complets de grande taille d'ADN mitochondrial pour un nombre considérable d'organismes (la taille moyenne d'un ADN mitochondrial est de 15 000 nucléotides) d'abord, puis de virus (la première grande réussite fut le phage lambda du colibacille de 50 000 nucléotides). Enfin, les progrès techniques permettent la détermination de génomes bactériens de grande taille. Ainsi, en 1995, la bactérie Haemophilus influenzae est entièrement séquencée par le T.I.G.R. (The Institute of Genome Research) aux États-Unis. Les chercheurs connaissent alors l'enchaînement des 1,8 million de nucléotides qui constituent ce génome. Les génomes d'organismes complexes – drosophile, homme, souris – devaient rapidement suivre. On mesure alors le saut d'échelle : c'est une phrase immense et d'apparence continue qu'il va falloir analyser. Pour faire une comparaison avec les mathématiques, c'est comme si vous disposiez du nombre 3,141 592 653 5 (les premières décimales du nombre π) et que vous ayez à l'analyser pour trouver sa signification.

La recherche, à partir du seul contenu d'une séquence d'ADN génomique, des séquences codantes pour des protéines et de la fonction de ces protéines, définit le champ dominant de la bio-informatique. Elle nécessite, dans ce dessein, d'allier les compétences des biologistes et des informaticiens pour pouvoir analyser des masses de données considérables. Par exemple, le génome humain, dont la séquence quasi complète a été publiée en février 2001 par les revues scientifiques Science et Nature, est ainsi représenté par trois milliards de nucléotides. L'ensemble des données accumulées sur les différents organismes partiellement séquencés atteignait, en 1995, quelque 300 millions de nucléotides, et était incorporé dans des banques de données informatiques que des précurseurs bien inspirés avaient déjà constituées et alimentées depuis 1982. Ces banques de données servent de références pour le décryptage des futurs génomes. L'usage des ordinateurs pour la comparaison répétitive de séquences avec les banques de données biologiques est non seulement devenu nécessaire mais est jugé incontournable. La capacité de stockage de ces outils est quasi infinie dans le sens où elle s'adapte à la croissance des banques de données ; la vitesse de calcul augmente avec chaque génération d'ordinateurs et la répétitivité de tâches rébarbatives devient un atout de première importance que l'informaticien exploitera dans la programmation. À cela s'ajoutent des contraintes de temps, le délai le plus court étant garant du succès d'un projet de recherche. Ces tâches à accomplir, devenant trop vastes pour un seul chercheur, entrent dans les caractéristiques d'un processus informatisé.

Les banques de données biologiques

L'origine des banques de données biologiques remonte à l'utilisation des premiers ordinateurs par des cristallographes ou des biochimistes. Parmi ceux-ci, Margaret Dayhoff, biochimiste américaine, fut la première à voir l'intérêt de rassembler toutes les données sur les séquences des protéines afin d'étudier leurs relations évolutives et de les classer en familles. Elle publia le premier atlas de protéines contenant la séquence et la structure de 65 d'entre elles (Atlas of Protein Sequence and Structure) en 1965. Cet atlas fut périodiquement mis à jour et diffusé sur papier jusqu'en 1978. Distribué sur support magnétique à partir de 1978, il est désormais disponible en ligne depuis 1981, via Internet (Margaret Dayhoff). Cet atlas, de plus en plus volumineux, est devenu, en 1984, la banque de données P.I.R. (Protein Information Resource) de la National Biomedical Research Foundation (N.B.R.F.), la première concernant les protéines et qui reste une référence pour leur analyse. Elle contenait, en 2004, quelque 283 000 séquences protéiques qui totalisaient 96 millions d'acides aminés.

Parallèlement et de manière concertée, deux banques de données de séquences nucléiques ont pris leur essor de chaque côté de l'Atlantique, en 1982. Aux États-Unis, la GenBank a pris corps au L.A.N.L. (Los Alamos Nuclear Laboratory) avec Doug Brutlag et Temple Smith ; depuis 1987, elle est gérée et distribuée par le N.C.B.I. (National Center for Biotechnology Information). La banque nucléique européenne, quant à elle, a pris le nom du laboratoire au sein duquel elle a été développée à Heidelberg (Allemagne) : E.M.B.L. (European Molecular Biology Laboratory). Depuis 1997, une antenne spéciale pour l'informatique a été créée à Cambridge : l'E.B.I. (European Bioinformatics Institute), pour poursuivre le développement de la banque E.M.B.L.

Étant donné le travail considérable que représente le maintien de ces deux banques, les organismes ont décidé de joindre leurs efforts, à partir de 1986, pour créer des formats standard utilisés pour décrire les caractéristiques des séquences et pour stocker leurs annotations.

Depuis 1987, la recherche japonaise possède sa banque nucléique, la D.N.A. Data Bank of Japan (D.D.B.J.). Celle-ci s'est ralliée d'entrée de jeu aux deux précédentes pour former l'ensemble D.D.B.J.-E.M.B.L.-GenBank qui contenait quelque 40 millions de séquences et 43 milliards de nucléotides à la fin de 2004. Devant la croissance exponentielle du nombre de nucléotides séquencés (doublement des données tous les seize mois), il est indispensable que plusieurs organismes soient associés pour maintenir un bon niveau de qualité et de disponibilité.

Une deuxième banque de données concernant les protéines a vu le jour en 1986 à l'université de Genève : Swiss-Prot. Créée par Amos Bairoch, elle rassemble les protéines extraites des séquences nucléiques de la banque E.M.B.L., par analyse des caractéristiques et traduction des séquences d'ADN en protéines selon le code génétique. Une protéine donnée n'apparaît dans la banque qu'une seule fois, ce qui qualifie la banque Swiss-Prot de non redondante : en effet les séquences d'acides nucléiques d'un même gène, produites par des expérimentateurs différents, coexistent souvent dans les banques nucléiques. Si une autre protéine de séquence identique ou similaire se présente, elle fait l'objet d'une annotation supplémentaire jointe à la première entrée. Ce travail de tri et d'annotations donne à cette banque de données toute sa valeur scientifique et en fait un outil de référence unique. Elle contenait en 2004 quelque 164 000 séquences protéiques et 60 millions d'acides aminés.

Les protéines adoptent une structure dans l'espace qui leur confèrent leur fonctionnalité. Un nombre croissant de protéines ont vu leur structure déterminée, essentiellement par diffraction de cristaux de protéines par des rayons X. La première banque de données structurales P.D.B. (Protein Database Brookhaven) reprend les données issues de la cristallographie. Elle contient les coordonnées de position des atomes les uns par rapport aux autres, permettant de placer chaque atome de la protéine dans l'espace et donc de reconstituer une structure entière. Ces données (28 000 structures en 2004), parfaitement résolues ou déterminées, qui intéressent les structuralistes, servent de point de référence pour les applications de modélisation moléculaire ou de cristallographie.

Il existe aujourd'hui des centaines d'autres banques de données destinées aux biologistes, qu'elles soient spécialisées dans des domaines très particuliers ou se veuillent plus généralistes (comme celles précédemment citées). Leur contribution aux avancées de la recherche biomédicale est fondamentale.

Les logiciels d'analyse

Assemblage des fragments

Une fonction essentielle de la bio-informatique est l'aide à la « mise en forme » des génomes de grande taille. En effet, grâce aux apports de la robotique, le biologiste peut désormais séquencer des génomes complets. Toutefois, la technologie des robots ne permet pas de traiter plus de 700 nucléotides sur un seul fragment d'ADN à la fois : le génome est donc découpé, au préalable, en menus fragments – qui se recouvrent partiellement et dont on détermine les séquences – qui, par construction, se chevauchent. Après la détermination, par des automates, de la séquence en nucléotides de milliers de fragments d'ADN produits à partir d'un génome donné, il faudra assembler ces fragments pour obtenir le génome dans sa totalité, c'est-à-dire la molécule entière d'ADN. Ce travail, appelé assemblage, se fait à l'aide d'un ordinateur, sans lequel la reconstitution d'un génome complet ne serait pas accessible dans un délai raisonnable. Le nombre d'essais qu'il est nécessaire d'effectuer avant de trouver le véritable emplacement de chaque fragment le long de la macromolécule d'ADN est considérable. Le problème est semblable à celui que pose la reconstruction d'un puzzle, les pièces correspondant aux fragments de séquence d'environ 500 à 700 nucléotides. Deux fragments d'ADN sont contigus lorsque leurs zones de chevauchement possèdent des séquences en nucléotides quasi identiques. Lorsque le génome séquencé était petit (moins de 100 fragments), l'assemblage pouvait être effectué manuellement avec une méthode d'essais successifs. Pour les génomes de grande taille, l'ordinateur et les programmes d'aide à la résolution deviennent incontournables.

Pour ce faire, les informaticiens ont développé des méthodes plus rapidement convergentes que les essais successifs : ce sont les algorithmes d'assemblage. Pour savoir si deux fragments se recoupent, il faut les comparer pour établir un degré de ressemblance ou score. L'assemblage proprement dit consiste à reprendre tous les fragments, en commençant par ceux qui présentent le meilleur score, et à les assembler en constituant un agrégat sur lequel le programme informatique va ajouter de façon répétitive les autres fragments sélectionnés par ordre de score décroissant. Dans cette approche simplifiée, l'intérêt du calcul de score préalable permet de ne pas explorer toutes les combinaisons possibles, et de parcourir une seule fois la liste des fragments. Ce gain de temps est considérable puisque cette méthode prend quelques heures pour assembler 100 000 fragments, la méthode combinatoire complète demandant quelques dizaines d'années  

Analyse des séquences

Après assemblage des différents fragments d'ADN, on obtient la séquence complète d'un génome ou d'un chromosome. Le biologiste qui connaît la séquence complète du génome de l'organisme qu'il étudie est en possession de quelques milliards de nucléotides codés par quatre lettres – A, C, G, T – et dont l'enchaînement constitue l'héritage génétique du vivant. Cette longue phrase va être analysée par des programmes informatiques afin d'identifier les séquences qui correspondent vraisemblablement à des gènes. Pour ce faire, il faut rechercher les séquences dites ouvertes – c'est-à-dire capables de coder pour une protéine –, identifier les signaux possibles de début et de fin de transcription, puis proposer une fonction plausible à la séquence déduite du gène. La procédure d'analyse est largement comparative : les séquences de ces gènes seront confrontées avec celles des banques de données qui sont des portions de gènes connus codant pour des molécules connues mais appartenant à d'autres organismes. La comparaison peut aussi être effectuée avec la séquence de gènes connus de l'organisme considéré, qui se ressemblent plus ou moins (en totalité ou seulement pour des régions) en termes de séquences d'ADN ou de protéines à la séquence étudiée, mais seulement plus ou moins homologues en termes de séquences en nucléotides ou en acides aminés.

L'analyse de séquences repose sur l'hypothèse qu'une similarité du contenu entre deux séquences implique une similitude de fonction et réciproquement. Cette comparaison pourra être effectuée au niveau du génome avec comme cible une banque nucléique, ou alors en comparant la séquence d'une protéine déduite du gène étudié avec le contenu d'une banque protéique. Plus la banque utilisée présente de commentaires scientifiques pertinents (ou annotations), plus les conclusions issues de la comparaison apporteront des résultats intéressants. Parmi les programmes pionniers de l'analyse de séquences, il faut citer le paquetage logiciel de Rodger Staden qui, dès 1980, a incorporé dans un même ensemble des programmes de comparaison, d'assemblage et d'interrogation des banques de données.

Un autre logiciel fondamental est le programme BLAST (Basic Local Alignment Search Tool) publié en 1990 par l'Américain Stephen Altschul et ses collaborateurs au N.C.B.I. Ce programme est celui qui est le plus utilisé aujourd'hui en analyse de séquences. Conçu pour parcourir les banques de données le plus rapidement possible, il utilise celles-ci sous une forme codée adaptée aux comparaisons qu'il va effectuer. L'algorithme utilisé est fondé sur la recherche de mots dans un texte, comme en linguistique, agrémenté d'une évaluation de score. Une étude de la probabilité de trouver une séquence de taille donnée dans une banque de taille connue permet de pondérer ce score et de donner en résultats les occurrences de meilleur score et leur probabilité de vraisemblance.

Annotation d'une séquence

L'annotation d'une séquence a pour but de donner une description complète du fonctionnement des gènes de cette séquence. Elle nécessite des analyses comparatives des génomes, elles-mêmes de plus en plus automatisées, qui permettent de déduire l'existence de gènes probables dans la séquence d'un génome, de connaître leur séquence et leurs limites physiques et, si certains éléments structuraux sont présents et identifiables, de prédire certaines des propriétés des molécules pour lesquelles ils codent. Une bonne partie de l'activité des laboratoires de biologie est ainsi consacrée à cette « biologie sèche », la recherche de séquences génomiques parentes de séquences déjà connues mais permettant l'accomplissement de nouvelles fonctions par diversification évolutive. On notera en effet que la majorité des séquences actuelles d'un génome complexe dérivent d'un petit nombre de séquences précurseurs, par duplication et diversification, du fait de l'évolution.

De nombreux logiciels bio-informatiques ont été développés. Ils permettent d'exploiter tel point particulier des génomes ou des protéines et d'en tirer des conclusions ou des hypothèses significatives au plan biologique ou évolutif. Chacun de ces programmes repose sur un algorithme particulier et des bases logiques.

Analyse des transcriptomes et des protéomes

Le dogme classique de la biologie moléculaire énonce que les gènes sont transcrits en ARNm qui sont ensuite décodés en protéines. Tous les ARN codés dans le génome ne sont pas des ARNm : nous mentionnerons ici, la présence d'autres types d'ARN, non messagers, et en particulier les ARN ribosomaux, les ARN de transfert qui sont bien connus et, surtout, les ARN dits interférents (ARNi, en anglais siRNA pour short interfering ribonucleic acid) dont la découverte chez les plantes vers 1990 et la généralisation à tous les organismes ont ouvert des horizons inattendus à l'étude du contrôle de l'activité des gènes ainsi qu'à la relecture des génomes. Schématiquement, on peut dire que l'ensemble des ARNm et des protéines issues de leur décodage représentent le niveau d'adaptation d'une cellule à un environnement donné et son niveau ou état de différenciation. Un des enjeux de la bio-informatique est d'identifier ces ensembles d'ARNm et de protéines, et leurs variations lors du passage d'un état à un autre, par exemple dans des situations physiopathologiques par comparaison avec une situation normale : quels gènes exprimés signent la différence entre une fibre musculaire lisse et une cellule du myocarde, ou entre un cancer à mauvais pronostic et un cancer apparemment du même type mais à bon pronostic, etc. ?

L'usage des séquences des gènes ou des ADNc permet de concevoir des supports sur lesquels sont greffés des oligonucléotides dont chacun est spécifique d'un ARNm donné identifié lors de travaux antérieurs. On fabrique ainsi des « puces à ADN » qui regroupent, selon une topologie précise, les composants individuels de l'ensemble des ARNm dont il est important de suivre l'expression. Ces « puces à ADN » peuvent être soit générales (contenant plusieurs milliers de sondes oligonucléotidiques différentes qui sont représentatives d'un grand nombre de séquences codantes), soit spécialisées (permettant, par exemple, la recherche de cytokines ou de protéines du cytosquelette ou encore des ADN variables d'une espèce bactérienne ou virale à une autre, etc.). On peut, en isolant le contenu en ARNm d'un petit groupe de cellules, amplifier par PCR (polymerase chain reaction) chacun de ces ARNm indépendamment, puis les rendre fluorescents pour les visualiser et les hybrider aux oligonucléotides placés, de façon définie, sur un support de verre ou de plastique. Les séquences complémentaires des oligonucléotides fixés sur le support resteront attachées de manière stable et apparaîtront sous forme d'une tache fluorescente. L'examen du support après réaction montre un profil de taches fluorescentes représentatives de l'état des cellules avec une intensité et une longueur d'onde d'émission évocatrice de la proportion relative de chaque ARNm dans le matériel de départ. La restitution informatique de ces informations donne alors des résultats, encore inimaginables il y a quelques années seulement, sur les jeux de gènes actifs ou réprimés dans tel ou tel état physiopathologique, sur leur identité et sur leur activité : le résultat de ces études est ce que l'on appelle le transcriptome, donnée expérimentale qui substitue à l'étude gène à gène l'étude de groupes de gènes tous liés par l'adaptation à un état de la cellule ou du tissu considéré. Cette variante de la biologie sèche tend à devenir importante dans de nombreuses études fondamentales, comme en différenciation cellulaire, par exemple. L'étude des profils tumoraux devient un élément du pronostic et du traitement, et l'on retrouvera également l'usage de « puces à ADN » de conception voisine dans l'identification d'espèces bactériennes fongiques ou virales, de leur virulence et de leur sensibilité ou résistance aux antibiotiques. En quelques années, la génomique a débouché sur l'application clinique.

La dernière phase de l'expression d'un programme génétique est la production d'un jeu de protéines caractéristique de l'état de différenciation et de l'état physiologique des cellules. Elle ne se superpose pas exactement au profil précédent déduit des ARNm, dans la mesure où un ARNm peut donner naissance à plusieurs protéines et où une même protéine peut être modifiée secondairement dans la cellule.

Si l'on peut distribuer dans un plan l'ensemble des protéines des cellules étudiées, on aboutit à une sorte de carte dans laquelle chaque protéine et ses produits de modification éventuels apparaissent avec une localisation bien précise. La comparaison des cartes produites – par exemple, par une cellule au repos (état A) et par une cellule activée (état B) – va donner des informations sur les protéines qui « changent de statut » lors du passage d'un état A à un état B. Ce genre d'analyse n'est pas une nouveauté. En reprenant des techniques d'électrophorèse bidimensionnelle, mises au point par Patrick O'Farrel, les protéines sont séparées par un déplacement horizontal proportionnel à leur charge électrique, puis se dirigent sur un axe vertical selon leur taille (les plus petites migrant le plus vite, donc le plus loin). Après coloration, jusqu'à deux mille taches sont visualisées sur le plan défini par les deux axes précédents : on obtient ce que l'on appelle une carte, un profil ou encore un « pattern » ou protéome. Ces profils sont reproductibles, ce qui permet de comparer les variations des taches – en termes de localisation et d'intensité – qui peuvent survenir dans des situations qui s'écartent d'un état de référence. À l'analyse visuelle directe des débuts s'est rapidement substitué l'usage de logiciels qui, en s'appuyant sur la localisation et l'intensité de taches bien repérées correspondant à des invariants, permettent une normalisation et donc des analyses comparatives fiables. Grâce aux progrès de la chimie des protéines, on peut extraire les protéines contenues dans une tache, les soumettre à une hydrolyse enzymatique ou chimique, purifier certains fragments des peptides ainsi obtenus et y déterminer leur séquence en acides aminés.

Avec l'introduction, vers la fin des années 1990, de la détermination des séquences de peptides par spectrométrie de masse, l'étude directe de protéines faiblement représentées est devenue accessible. Il est désormais au moins théoriquement possible, lorsqu'une tache est jugée intéressante, en suivant des processus parfaitement normalisés et automatisés, d'aller jusqu'à la détermination d'un fragment de sa séquence en acides aminés. Si celle-ci est déjà connue, elle se retrouvera dans les banques de données spécialisées et, de là, on pourra remonter à la protéine de départ. Si elle ne l'est pas, on peut, en se servant du code génétique, déduire les différentes séquences d'ADN qui ont pu coder cette séquence puis tester ces séquences avec le contenu d'une banque génomique de l'organisme étudié en utilisant les logiciels comparatifs décrits précédemment. D'autres techniques, par exemple fondées sur les interactions protéine-protéine, sont également disponibles. Avec certaines réserves qui sont moins d'ordre informatique que liées aux séquences d'ADN disponibles, on saura in fine de quelle protéine provient très probablement le fragment dont on a déterminé la séquence par spectrométrie de masse et qui a été extraite du gel d'électrophorèse. Cette stratégie constitue l'ossature de la protéomique qui est devenue un outil important en microbiologie, domaine dans lequel des centaines de gènes font l'objet d'une régulation adaptative commune lorsque les conditions de vie ou de virulence d'une bactérie changent. L'informatique est, ici encore, un outil essentiel au moins à deux niveaux : pour la mise au point de logiciels comparatifs d'images et pour l'exploitation des banques de données de protéines ou d'ADN. La bio-informatique a permis de développer, au début des années 2000, des « puces à protéines » (proteochips), sortes d'équivalents au niveau polypeptidique des « puces à ADN », spécialisées dans l'étude de familles de protéines. Les utilisations de ces « puces à protéines » rejoignent celles des « puces à ADN » et leurs applications sont voisines. Cependant, ni les techniques, ni les appareils nécessaires à la lecture de ces nouvelles puces ne sont encore à la disposition de la plupart des laboratoires.

En 1980, les pratiques « manuelles » de séquençage sont devenues inefficaces face aux longues séquences que les biologistes prévoient d'analyser. L'invention des robots séquenceurs et l'introduction de procédures informatisées pour l'analyse des séquences sont les réponses proposées pour retrouver de l'efficacité. Ces innovations sont considérées comme les premiers pas de la bio-informatique. Les banques de données nucléiques accumulent depuis lors les génomes complets d'organismes variés, mais dont les gènes sont loin d'être tous identifiés. Le génome humain (3,2 milliards de nucléotides) monopolise de nombreuses compétences pour mettre en évidence les 30 000 gènes qui s'y cachent. Dans l'avenir, la bio-informatique sera-t-elle simplement un stade supplémentaire de l'analyse des génomes, ou va-t-elle permettre de poser des questions entièrement nouvelles en biologie ? Cette question est totalement ouverte.

  Bernard CAUDRON

Thèmes associés

Bibliographie

  • M. Dayhoff, « Computer aids to protein sequence determination », in J. Theor. Biol., vol. 8, pp. 97-112, 1964 ; « Computer analysis of protein evolution », in Scientific American, no 221, pp. 86-95, 1969
  • A. Maxam & W. Gilbert, « A new method for sequencing DNA », in Proceedings of the National Academy of Science, vol. 74, pp. 560-564, 1977
  • K. Rutherford et al., « Artemis : sequence visualisation and annotation », in Bioinformatics, vol. 16, pp. 944-945, 2000
  • R. Staden, « Sequence data handling by computer », in Nucleic Acids Research, vol. 4, no 11, pp. 4037-4051, 1977.

Sites Internet

  • Artemis, un outil de visualisation et d'annotation de séquence : http ://www.sanger.ac.uk/Software/Artemis/Examples
  • J.-M. Claverie, La Biologie structurale, déc. 2000, Information génétique et structurale, U.P.R. 2589 C.N.R.S., Marseille : http ://igs-server.cnrs-mrs.fr/cnrs.html
  • P. Dessen, « Les Secrets de la séquence », in Biofutur, no 146, pp. 39-43, juin 1995 : http ://www.infobiogen.fr/people/dessen/biofutur95.html
  • Le génome humain au génoscope, Centre national de séquençage, Évry : http ://www.genoscope.cns.fr/externe/Français/Questions/FAQ.html
  • V. Jongeneel, Bio-informatique ? 19 déc. 2000, Institut suisse de bio-informatique, Epalinges : http ://sic.epfl.ch/SA/publications/FI00/fi-10-00/10-00-page3.html
  • Logiciels pour la biologie, Institut Pasteur, Paris : http ://bioweb.pasteur.fr/

Source : Encyclopédie Universalis

Category : BIOLOGIE | Write a comment | Print

Comments

| Contact author |