L'éditeur de Downcodes vous propose une introduction complète à la base de données NCBI. Le NCBI (National Center for Biotechnology Information) est un centre affilié aux National Institutes of Health (NIH). Il gère de nombreuses bases de données biomédicales importantes, qui fournissent des ressources de données massives et de puissants outils d'analyse pour la recherche biomédicale mondiale. Cet article examinera en profondeur les huit principales bases de données du NCBI : GenBank, PubMed, BLAST, Protein, Nucleotide, Gene, OMIM et GEO, et présentera en détail leurs fonctions et applications respectives.
NCBI dispose de plusieurs bases de données, notamment GenBank, PubMed, BLAST, Protein, Nucleotide, Gene, OMIM, GEO, etc. Chaque base de données possède ses propres fonctions uniques, qui, ensemble, fournissent un support puissant et des ressources de données pour la recherche biomédicale.
La base de données GenBank est une vaste base de données publique de séquences génétiques qui permet aux utilisateurs de rechercher, télécharger et analyser les données de séquences génétiques de divers organismes. Par exemple, les chercheurs peuvent rechercher ici la séquence génétique d’une certaine espèce, effectuer une analyse comparative et même soumettre de nouvelles données de séquence.
1. GENBANK
La base de données GenBank est la plus grande base de données publique de séquences d'ADN au monde et est gérée par le National Center for Biotechnology Information (NCBI), une filiale des National Institutes of Health (NIH). Il contient une grande quantité de données de séquence obtenues à partir d'une variété d'organismes, et de nouvelles données sont ajoutées chaque jour. Les principales fonctions de GenBank incluent, sans s'y limiter, le stockage, la récupération et l'échange d'informations sur les séquences génétiques. En outre, GenBank coopère avec d'autres bases de données de séquences internationales telles que l'EMBL en Europe et le DDBJ au Japon pour assurer le partage mondial des données sur les séquences génétiques.
GenBank prend en charge différents types de recherches de séquences, telles que la recherche par mots-clés, noms d'espèces, noms d'auteurs, etc. Pour faciliter la recherche, GenBank propose également un outil de soumission en ligne permettant aux chercheurs de soumettre de nouvelles séquences génétiques. Ces soumissions seront publiées auprès d'institutions de recherche scientifique et d'individus du monde entier après avoir passé l'annotation et le contrôle qualité.
2. PUBLIÉ
PubMed est un système gratuit de recherche de littérature qui collecte principalement des documents de revues dans le domaine biomédical. Les fonctions de PubMed sont très puissantes et diversifiées. Elles incluent non seulement la recherche d'informations abstraites sur la littérature traditionnelle, mais peuvent également créer des liens directs vers des ressources en texte intégral, fournir des outils de gestion de la littérature et même disposer de services API spéciaux d'exploration de données. Par exemple, les chercheurs peuvent utiliser PubMed pour rechercher les derniers résultats de recherche sur une certaine maladie ou un certain gène afin d'obtenir une inspiration théorique et expérimentale.
La plupart des enregistrements de la base de données PubMed contiennent également des résumés de publications et des liens cliquables vers des informations de référence, et beaucoup fournissent des liens d'accès gratuits au texte intégral (articles dans PMC). De plus, la fonctionnalité My NCBI de PubMed permet aux utilisateurs de personnaliser les stratégies de recherche, d'enregistrer les résultats de recherche et de créer des alertes par courrier électronique.
3. EXPLOITATION
BLAST est un outil général d'alignement de séquences qui peut trouver des séquences très similaires à une séquence donnée. La base de données BLAST contient une grande quantité de données de séquence obtenues auprès de GenBank et d'autres sources, et fournit une variété de programmes d'alignement, tels que nucléotide BLAST pour la comparaison de séquences nucléotidiques et protéine BLAST pour la comparaison de séquences protéiques. La fonction de BLAST est d'aider les utilisateurs à identifier l'origine et la fonction des séquences, à déduire les relations génétiques et à identifier l'homologie entre les séquences.
L'utilisation de BLAST est très simple. Les chercheurs n'ont qu'à saisir une séquence, et BLAST renverra rapidement une série de séquences similaires et d'informations associées, telles que la similarité avec la séquence cible, les régions correspondantes, etc. Ces informations sont extrêmement importantes pour découvrir de nouveaux gènes, étudier les fonctions des gènes et mener des études d'évolution systématiques.
4. PROTÉINE
La base de données Protein du NCBI est une base de données axée sur les séquences et les fonctions des protéines. Elle collecte des données sur les séquences protéiques à partir de sources telles que GenBank, RefSeq, TPA et PDB, et fournit une variété d'outils de recherche et d'analyse. La caractéristique de la base de données Protein est de fournir des informations d'annotation détaillées pour les séquences protéiques, y compris, mais sans s'y limiter, une description fonctionnelle, des informations structurelles, des séquences similaires, des citations bibliographiques, etc.
La base de données sur les protéines est également étroitement intégrée aux outils BLAST, permettant l'alignement et l'analyse des séquences protéiques. Les chercheurs utilisent souvent ces informations pour prédire la fonction d’une protéine, explorer son association avec une maladie ou concevoir et fabriquer des protéines pour des applications en bioingénierie.
5. NUCLÉOTIDE
La base de données Nucleotide fait spécifiquement référence à la base de données maintenue par NCBI pour les séquences nucléotidiques uniques. Un grand nombre d'enregistrements de séquences d'ADN et d'ARN sont collectés ici, et l'interface de recherche permet aux utilisateurs de récupérer des informations en fonction de diverses conditions (telles que l'espèce, le nom du gène, l'ID de séquence, etc.). La base de données Nucleotide est largement utilisée dans l'analyse bioinformatique, la recherche en biologie moléculaire et la recherche génétique.
Grâce à la base de données Nucleotide, les chercheurs peuvent accéder et télécharger rapidement des informations spécifiques sur les séquences génétiques, et effectuer ensuite des clonages de gènes, des comparaisons de séquences, des analyses de variations et d'autres travaux. La puissance de cette base de données réside dans le fait qu’elle fournit une énorme quantité d’informations et qu’elle est mise à jour en temps réel. Elle est également liée à d’autres bases de données NCBI pour fournir aux chercheurs scientifiques un service unique de requête d’informations sur les nucléotides.
6. GÈNE
La base de données Gene est spécialement utilisée pour stocker les gènes connus et prédits et leurs informations. Chaque enregistrement génétique contient des informations complètes depuis la séquence, l'expression génique, la fonction jusqu'aux modifications épigénétiques. La base de données Gene fournit non seulement aux utilisateurs des informations génétiques sur une seule espèce, mais relie également les enregistrements du même gène chez différentes espèces pour faciliter la recherche génomique comparative.
L'une des fonctions principales de la base de données Gene est de fournir des informations d'annotation détaillées sur les gènes, notamment le nom du gène, l'introduction, le modèle d'expression, les maladies associées, etc. Les utilisateurs peuvent acquérir une compréhension approfondie du contenu de la recherche sur des gènes spécifiques grâce à la base de données Gene, qui est cruciale pour l'étude des mécanismes des maladies et la découverte de cibles médicamenteuses.
7.OMIM
OMIM, Online Mendelian Inheritance in Man, est une base de données en ligne de maladies génétiques et de gènes. Il contient des informations détaillées sur les maladies génétiques humaines et diverses mutations génétiques. L'objectif de l'OMIM est d'extraire les descriptions phénotypiques et les détails génotypiques de toutes les maladies génétiques connues et de devenir une ressource importante pour l'étude de la pathologie génétique humaine.
Les informations contenues dans la base de données OMIM comprennent généralement les caractéristiques cliniques, les modèles génétiques, les bases moléculaires de la maladie, etc. Grâce à OMIM, les chercheurs peuvent accéder rapidement à des données détaillées sur les maladies génétiques associées, ce qui est d'une grande aide pour la recherche sur les mécanismes des maladies, le conseil génétique et les méthodes de traitement.
8. GÉO
GEO, Gene Expression Omnibus, est une base de données qui stocke des données d'expression génique à haut débit, en particulier des données de puces à ADN et de séquençage de nouvelle génération. GEO accepte les données expérimentales soumises par des domaines de recherche interdisciplinaires et fournit des services de requête et de téléchargement de ces données aux chercheurs scientifiques.
Les données de la base de données GEO peuvent être utilisées pour de nombreux types de recherche biomédicale, telles que la comparaison des différences d'expression génique entre différents échantillons, l'analyse de l'impact d'une certaine méthode de traitement sur l'expression génique, etc. Cette base de données fournit également les outils d'analyse correspondants, permettant aux chercheurs d'analyser et de visualiser les modèles d'expression génétique en ligne.
De manière générale, NCBI rassemble un grand nombre de ressources de bases de données dans le domaine biomédical et fournit aux chercheurs un puissant support de données et des outils de recherche. Chaque base de données a ses propres fonctions et utilisations et joue un rôle essentiel dans l'avancement des sciences biologiques et de la recherche médicale.
1. Quelles sont les principales bases de données du NCBI (National Center for Biotechnology Information) ? A quoi servent ces bases de données ?
NCBI est une ressource importante qui fournit des informations pertinentes pour les sciences de la vie. Les principales bases de données suivantes et leurs fonctions seront présentées ci-dessous :
PubMed : Il s'agit d'une base de données de littérature biomédicale. Grâce à la sous-base de données PubMed Central (PMC), les utilisateurs peuvent obtenir gratuitement de nombreuses publications biomédicales de haute qualité. GenBank : Il s'agit d'une base de données contenant des informations sur les séquences d'ADN qui fournit aux chercheurs une plate-forme mondiale pour partager, rechercher et accéder aux informations sur les séquences biologiques. GenBank stocke des centaines de millions d’informations sur les séquences du génome, des gènes et des protéines. Sequence Read Archive (SRA) : cette base de données stocke une grande quantité de données de séquençage à haut débit, notamment le séquençage de fragments d'ADN, le séquençage d'ARN, le séquençage de protéines et d'autres informations, dans lesquelles les chercheurs peuvent trouver des ensembles de données adaptés à leurs propres recherches. Banque de données sur les protéines (PDB) : Il s'agit d'une base de données sur la structure tridimensionnelle des protéines qui stocke une grande quantité d'informations sur la structure des protéines. Les chercheurs peuvent obtenir des données sur la structure des protéines via PDB et comprendre la relation entre la structure et la fonction des protéines. Gene Expression Omnibus (GEO) : Il s'agit d'une base de données d'expression génique qui stocke une grande quantité de données de transcriptome et de profil d'expression. Les chercheurs peuvent utiliser les bases de données GEO pour trouver des informations sur l’expression des gènes liées à des processus biologiques ou à des maladies spécifiques.2. Dans la base de données fournie par NCBI, quels types de données génomiques sont capturés par NCBI ? Comment ces données sont-elles utilisées dans la recherche ?
Les données génomiques capturées par NCBI comprennent de nombreux types, dont principalement les catégories suivantes :
Génome : séquence du génome d'un organisme entier, y compris les séquences d'ADN chromosomique et mitochondrial. EST (Expressed Sequence Tag) : fragments de séquence d'ADNc obtenus par des méthodes de séquençage, qui peuvent être utilisés pour étudier les fonctions des gènes. HTG (High Throughput Genome Sequence) : court fragment de séquence d'ADN généré par séquençage à haut débit, utilisé pour construire la structure de départ de la séquence du génome. GSS (Genome Survey Sequence) : Fragments d'ADN aléatoires utilisés pour la couverture du séquençage du génome. TSA (Transcriptome Shotgun Assembly) : séquence globale du transcriptome obtenue en combinant et en épissant des fragments EST. WGS (Whole Genome Shotgun Sequence) : séquence désordonnée du génome entier, utilisée pour le séquençage et l'annotation du génome entier.Ces données génomiques sont largement utilisées dans des domaines de recherche tels que la recherche sur la fonction des gènes, la comparaison du génome et l'analyse évolutive, le développement de médicaments et le diagnostic de maladies, etc. Les chercheurs peuvent utiliser ces données pour analyser la structure, la fonction et le mécanisme de régulation des gènes, révéler la variation génétique et le processus évolutif des organismes, trouver l'association entre des gènes et des maladies spécifiques et soutenir la médecine personnalisée.
3. Quelles bases de données NCBI peuvent être utilisées pour analyser les séquences et les structures protéiques ? Comment ces bases de données aident-elles les chercheurs à mener des recherches sur les protéines ?
NCBI fournit plusieurs bases de données pour analyser les séquences et les structures des protéines. Voici quelques-unes des bases de données importantes :
UniProt : Il s'agit d'une base de données complète sur les protéines qui fournit des informations sur la séquence, la structure, la fonction et l'interaction des protéines. Les chercheurs peuvent utiliser UniProt pour trouver des protéines d’intérêt et comprendre leurs propriétés et fonctions fondamentales. Banque de données sur les protéines (PDB) : Cette base de données stocke une grande quantité de données sur la structure tridimensionnelle des protéines déterminées par cristallographie. Les chercheurs peuvent utiliser les informations structurelles contenues dans le PDB pour étudier la conformation d'une protéine, son mécanisme d'action et ses interactions avec d'autres molécules. Base de données DomAIn conservée (CDD) : cette base de données collecte les domaines fonctionnels conservés dans des séquences protéiques connues et fournit des informations d'annotation et de classification des domaines. Les chercheurs peuvent utiliser le CDD pour analyser les combinaisons de domaines fonctionnels et les caractéristiques structurelles des protéines afin de déduire leurs fonctions et leurs similitudes. Base de données de liaison structure-fonction (SFLD) : cette base de données intègre la relation entre la séquence protéique, la structure et la fonction et fournit des informations détaillées d'annotation et de classification. Les chercheurs peuvent utiliser SFLD pour explorer la relation entre la fonction et la structure des protéines et approfondir leur compréhension de la fonction et de l’évolution des protéines.Grâce à ces bases de données, les chercheurs peuvent obtenir une grande quantité d'informations sur la séquence et la structure des protéines, effectuer des comparaisons de séquences, des prédictions de structure, des annotations fonctionnelles, des analyses de similarité et d'autres études, afin d'explorer en profondeur la fonction et le mécanisme de régulation des protéines et de mener des recherches sur prise en charge des domaines connexes.
J'espère que cet article de l'éditeur de Downcodes pourra vous aider à mieux comprendre la base de données NCBI et son application dans la recherche biomédicale. Si vous avez des questions, n'hésitez pas à les poser !