O editor de Downcodes traz para você uma introdução abrangente ao banco de dados NCBI. O NCBI (Centro Nacional de Informações sobre Biotecnologia) é um centro afiliado aos Institutos Nacionais de Saúde (NIH). Ele mantém muitos bancos de dados biomédicos importantes, que fornecem recursos massivos de dados e ferramentas de análise poderosas para pesquisas biomédicas globais. Este artigo examinará em profundidade os oito principais bancos de dados do NCBI: GenBank, PubMed, BLAST, Protein, Nucleotide, Gene, OMIM e GEO, e apresentará detalhadamente suas respectivas funções e aplicações.
O NCBI possui vários bancos de dados, incluindo GenBank, PubMed, BLAST, Protein, Nucleotide, Gene, OMIM, GEO, etc. Cada banco de dados tem suas próprias funções exclusivas, que juntas fornecem suporte poderoso e recursos de dados para pesquisas biomédicas.
O banco de dados GenBank é um grande banco de dados público de sequências genéticas que permite aos usuários pesquisar, baixar e analisar dados de sequências genéticas de vários organismos. Por exemplo, os pesquisadores podem pesquisar aqui a sequência genética de uma determinada espécie, realizar análises comparativas e até mesmo enviar novos dados de sequência.
1. GENBANK
O banco de dados GenBank é o maior banco de dados público de sequências de DNA do mundo e é mantido pelo Centro Nacional de Informações sobre Biotecnologia (NCBI), uma subsidiária dos Institutos Nacionais de Saúde (NIH). Ele contém uma grande quantidade de dados de sequência obtidos de uma variedade de organismos e novos dados são adicionados todos os dias. As principais funções do GenBank incluem, entre outras, armazenamento, recuperação e troca de informações de sequência genética. Além disso, o GenBank coopera com outras bases de dados de sequências internacionais, como o EMBL da Europa e o DDBJ do Japão, para garantir a partilha global de dados de sequências genéticas.
O GenBank suporta vários tipos de pesquisas de sequências, como pesquisas por palavras-chave, nomes de espécies, nomes de autores, etc. Para facilitar a pesquisa, o GenBank também disponibiliza uma ferramenta de submissão online para que os pesquisadores enviem novas sequências genéticas. Essas submissões serão publicadas para instituições de pesquisa científica e indivíduos em todo o mundo após passarem por anotação e controle de qualidade.
2. PUBMED
PubMed é um sistema gratuito de recuperação de literatura que coleta principalmente documentos de periódicos na área biomédica. As funções do PubMed são muito poderosas e diversificadas. Ele não inclui apenas a recuperação de informações abstratas da literatura tradicional, mas também pode vincular diretamente a recursos de texto completo, fornecer ferramentas de gerenciamento de literatura e até mesmo ter serviços especiais de API de mineração de dados. Por exemplo, os pesquisadores podem usar o PubMed para pesquisar os resultados de pesquisas mais recentes sobre uma determinada doença ou um determinado gene para obter inspiração teórica e experimental.
A maioria dos registros no banco de dados PubMed também contém resumos de publicações e links clicáveis para informações de referência, e muitos fornecem links de acesso gratuito ao texto completo (artigos no PMC). Além disso, o recurso My NCBI do PubMed permite aos usuários personalizar estratégias de pesquisa, salvar resultados de pesquisa e criar alertas por e-mail.
3. EXPLOSÃO
BLAST é uma ferramenta geral de alinhamento de sequências que pode encontrar sequências altamente semelhantes a uma determinada sequência. O banco de dados BLAST contém uma grande quantidade de dados de sequência obtidos do GenBank e de outras fontes, e fornece uma variedade de programas de alinhamento, como o BLAST de nucleotídeos para comparação de sequências de nucleotídeos e o BLAST de proteínas para comparação de sequências de proteínas. A função do BLAST é ajudar os usuários a identificar a origem e função das sequências, inferir relações genéticas e identificar homologia entre sequências.
Usar o BLAST é muito simples. Os pesquisadores só precisam inserir uma sequência, e o BLAST retornará rapidamente uma série de sequências semelhantes e informações relacionadas, como semelhança com a sequência alvo, regiões correspondentes, etc. Esta informação é extremamente importante para descobrir novos genes, estudar funções genéticas e conduzir estudos sistemáticos de evolução.
4. PROTEÍNA
O banco de dados de proteínas do NCBI é um banco de dados focado em sequências e funções de proteínas. Ele coleta dados de sequências de proteínas de fontes incluindo GenBank, RefSeq, TPA e PDB e fornece uma variedade de ferramentas de pesquisa e análise. A característica do banco de dados de proteínas é fornecer informações de anotação detalhadas para sequências de proteínas, incluindo, mas não se limitando a, descrição funcional, informações estruturais, sequências semelhantes, citações de literatura, etc.
O banco de dados de proteínas também está totalmente integrado às ferramentas BLAST, permitindo o alinhamento e a análise de sequências de proteínas. Os pesquisadores costumam usar essas informações para prever a função de uma proteína, explorar sua associação com doenças ou projetar e projetar proteínas para aplicações de bioengenharia.
5. NUCLEOTÍDEO
O banco de dados Nucleotide refere-se especificamente ao banco de dados mantido pelo NCBI para sequências de nucleotídeos únicos. Um grande número de registros de sequências de DNA e RNA são coletados aqui, e a interface de pesquisa permite aos usuários recuperar informações de acordo com uma variedade de condições (como espécie, nome do gene, ID da sequência, etc.). O banco de dados Nucleotide é amplamente utilizado em análises de bioinformática, pesquisas de biologia molecular e pesquisas genéticas.
Através do banco de dados Nucleotide, os pesquisadores podem acessar e baixar rapidamente informações específicas de sequências genéticas e conduzir subsequentemente clonagem de genes, comparação de sequências, análise de variação e outros trabalhos. O poder deste banco de dados é que ele fornece uma enorme quantidade de informações e é atualizado em tempo real. Ele também está vinculado a outros bancos de dados do NCBI para fornecer aos pesquisadores científicos um serviço completo de consulta de informações de nucleotídeos.
6. GENES
O banco de dados Gene é especialmente usado para armazenar genes conhecidos e previstos e suas informações. Cada registro genético contém informações abrangentes desde sequência, expressão genética, função até modificações epigenéticas. O banco de dados Gene não apenas fornece aos usuários informações genéticas de uma única espécie, mas também vincula registros do mesmo gene em espécies diferentes para facilitar a pesquisa genômica comparativa.
Uma das principais funções do banco de dados de genes é fornecer informações detalhadas de anotação de genes, incluindo nome do gene, introdução, padrão de expressão, doenças relacionadas, etc. Os usuários podem obter uma compreensão aprofundada do conteúdo da pesquisa de genes específicos por meio do banco de dados Gene, que é crucial para o estudo dos mecanismos de doenças e a descoberta de alvos de medicamentos.
7. OMIM
OMIM, Online Mendelian Inheritance in Man, é um banco de dados online de doenças genéticas e genes. Ele contém informações detalhadas sobre doenças genéticas humanas e várias mutações genéticas. O objetivo do OMIM é extrair descrições fenotípicas e detalhes genotípicos de todas as doenças genéticas conhecidas e tornar-se um recurso importante para o estudo da patologia genética humana.
A informação na base de dados do OMIM geralmente inclui as características clínicas, padrões genéticos, base molecular da doença, etc. Através do OMIM, os investigadores podem aceder rapidamente a dados detalhados sobre doenças genéticas relacionadas, o que é de grande ajuda para a investigação sobre mecanismos de doenças, aconselhamento genético e métodos de tratamento.
8. GEO
GEO, Gene Expression Omnibus, é um banco de dados que armazena dados de expressão gênica de alto rendimento, especialmente dados de microarray e sequenciamento de próxima geração. GEO aceita dados experimentais enviados de áreas de pesquisa interdisciplinares e fornece serviços de consulta e download desses dados para pesquisadores científicos.
Os dados do banco de dados GEO podem ser usados para muitos tipos de pesquisa biomédica, como comparar diferenças de expressão gênica entre diferentes amostras, analisar o impacto de um determinado método de tratamento na expressão gênica, etc. Este banco de dados também fornece ferramentas de análise correspondentes, permitindo aos pesquisadores analisar e visualizar padrões de expressão genética online.
Em geral, o NCBI reúne um grande número de recursos de banco de dados na área biomédica e fornece aos pesquisadores poderosos suporte de dados e ferramentas de pesquisa. Cada banco de dados tem suas próprias funções e usos exclusivos e desempenha um papel fundamental no avanço das ciências biológicas e da pesquisa médica.
1. Quais são as principais bases de dados do NCBI (National Center for Biotechnology Information)? Para que são usados esses bancos de dados?
O NCBI é um recurso importante que fornece informações relevantes para as ciências da vida. Os seguintes bancos de dados principais e suas funções serão apresentados a seguir:
PubMed: Este é um banco de dados de literatura biomédica. Por meio do subbanco de dados PubMed Central (PMC), os usuários podem obter gratuitamente muita literatura biomédica de alta qualidade. GenBank: Este é um banco de dados contendo informações de sequências de DNA que fornece aos pesquisadores uma plataforma global para compartilhar, pesquisar e acessar informações de sequências biológicas. O GenBank armazena centenas de milhões de informações sobre genomas, genes e sequências de proteínas. Arquivo de leitura de sequência (SRA): Este banco de dados armazena uma grande quantidade de dados de sequenciamento de alto rendimento, incluindo sequenciamento de fragmentos de DNA, sequenciamento de RNA, sequenciamento de proteínas e outras informações, onde os pesquisadores podem encontrar conjuntos de dados adequados para suas próprias pesquisas. Banco de dados de proteínas (PDB): Este é um banco de dados de estrutura tridimensional de proteínas que armazena uma grande quantidade de informações sobre a estrutura de proteínas. Os pesquisadores podem obter dados de estrutura de proteínas por meio do PDB e compreender a relação entre estrutura e função de proteínas. Gene Expression Omnibus (GEO): Este é um banco de dados de expressão genética que armazena uma grande quantidade de dados de transcriptoma e perfil de expressão. Os pesquisadores podem usar bancos de dados GEO para encontrar informações de expressão gênica relacionadas a processos biológicos ou doenças específicas.2. Na base de dados fornecida pelo NCBI, que tipos de dados genômicos são capturados pelo NCBI? Como esses dados são usados na pesquisa?
Os dados do genoma capturados pelo NCBI incluem muitos tipos, incluindo principalmente as seguintes categorias:
Genoma: A sequência do genoma de um organismo inteiro, incluindo sequências de DNA cromossômico e mitocondrial. EST (Expressed Sequence Tag): fragmentos de sequências de cDNA obtidos através de métodos de sequenciamento, que podem ser utilizados para estudar funções genéticas. HTG (High Throughput Genome Sequence): Um pequeno fragmento de sequência de DNA gerado por sequenciamento de alto rendimento, usado para construir a estrutura inicial da sequência do genoma. GSS (Genome Survey Sequence): Fragmentos aleatórios de DNA usados para sequenciar a cobertura do genoma. TSA (Transcriptome Shotgun Assembly): A sequência geral do transcriptoma obtida pela combinação e splicing de fragmentos EST. WGS (Whole Genome Shotgun Sequence): Sequência desordenada do genoma inteiro, usada para sequenciamento e anotação de todo o genoma.Esses dados genômicos são amplamente utilizados em campos de pesquisa, como pesquisa de função genética, comparação de genoma e análise evolutiva, desenvolvimento de medicamentos e diagnóstico de doenças, etc. Os investigadores podem utilizar estes dados para analisar a estrutura, função e mecanismo regulador dos genes, revelar a variação genética e o processo evolutivo dos organismos, encontrar a associação entre genes e doenças específicas e fornecer suporte para a medicina personalizada.
3. Quais bancos de dados do NCBI podem ser usados para analisar sequências e estruturas de proteínas? Como esses bancos de dados ajudam os pesquisadores a conduzir pesquisas sobre proteínas?
O NCBI fornece vários bancos de dados para analisar sequências e estruturas de proteínas. A seguir estão alguns dos bancos de dados importantes:
UniProt: Este é um banco de dados de proteínas abrangente que fornece informações sobre sequência, estrutura, função e interação de proteínas. Os pesquisadores podem usar o UniProt para encontrar proteínas de interesse e compreender suas propriedades e funções básicas. Banco de Dados de Proteínas (PDB): Este banco de dados armazena uma grande quantidade de dados de estrutura tridimensional de proteínas determinadas por cristalografia. Os pesquisadores podem usar as informações estruturais do PDB para estudar a conformação de uma proteína, mecanismo de ação e interações com outras moléculas. Banco de dados DomAIn conservado (CDD): Este banco de dados coleta domínios funcionais conservados em sequências de proteínas conhecidas e fornece anotação de domínio e informações de classificação. Os pesquisadores podem usar o CDD para analisar combinações de domínios funcionais e características estruturais em proteínas para inferir suas funções e semelhanças. Banco de dados de ligação estrutura-função (SFLD): Este banco de dados integra a relação entre sequência, estrutura e função da proteína e fornece anotações detalhadas e informações de classificação. Os pesquisadores podem usar o SFLD para explorar a relação entre a função e a estrutura das proteínas e aprofundar sua compreensão da função e da evolução das proteínas.Através desses bancos de dados, os pesquisadores podem obter uma grande quantidade de informações sobre sequências e estruturas de proteínas e realizar comparação de sequências, previsão de estrutura, anotação funcional, análise de similaridade e outros estudos, de modo a explorar profundamente a função e o mecanismo regulador das proteínas e fornecer pesquisas em suporte de campos relacionados.
Espero que este artigo do editor do Downcodes possa ajudá-lo a entender melhor o banco de dados NCBI e sua aplicação na pesquisa biomédica. Se você tiver alguma dúvida, fique à vontade para perguntar!