El editor de Downcodes le ofrece una introducción completa a la base de datos NCBI. NCBI (Centro Nacional de Información Biotecnológica) es un centro afiliado a los Institutos Nacionales de Salud (NIH). Mantiene muchas bases de datos biomédicas importantes, que proporcionan recursos de datos masivos y poderosas herramientas de análisis para la investigación biomédica global. Este artículo analizará en profundidad las ocho bases de datos principales del NCBI: GenBank, PubMed, BLAST, Protein, Nucleotide, Gene, OMIM y GEO, y presentará sus respectivas funciones y aplicaciones en detalle.
NCBI tiene múltiples bases de datos, incluidas GenBank, PubMed, BLAST, Protein, Nucleotide, Gene, OMIM, GEO, etc. Cada base de datos tiene sus propias funciones únicas, que en conjunto brindan un poderoso soporte y recursos de datos para la investigación biomédica.
La base de datos GenBank es una gran base de datos pública de secuencias genéticas que permite a los usuarios buscar, descargar y analizar datos de secuencias genéticas de varios organismos. Por ejemplo, los investigadores pueden buscar aquí la secuencia genética de una determinada especie, realizar análisis comparativos e incluso enviar nuevos datos de secuencia.
1. BANCO GEN
La base de datos GenBank es la base de datos pública de secuencias de ADN más grande del mundo y está mantenida por el Centro Nacional de Información Biotecnológica (NCBI), una subsidiaria de los Institutos Nacionales de Salud (NIH). Contiene una gran cantidad de datos de secuencia obtenidos de una variedad de organismos y cada día se agregan nuevos datos. Las funciones principales de GenBank incluyen, entre otras, el almacenamiento, la recuperación y el intercambio de información sobre secuencias genéticas. Además, GenBank coopera con otras bases de datos de secuencias internacionales, como el EMBL de Europa y el DDBJ de Japón, para garantizar el intercambio global de datos de secuencias genéticas.
GenBank admite varios tipos de búsquedas de secuencias, como búsqueda por palabras clave, nombres de especies, nombres de autores, etc. Para facilitar la investigación, GenBank también proporciona una herramienta de envío en línea para que los investigadores envíen nuevas secuencias genéticas. Estos envíos se publicarán para instituciones de investigación científica e individuos de todo el mundo después de pasar la anotación y el control de calidad.
2. PUBLICADO
PubMed es un sistema gratuito de recuperación de literatura que recopila principalmente documentos de revistas del campo biomédico. Las funciones de PubMed son muy poderosas y diversas. No solo incluye la recuperación de información abstracta de literatura tradicional, sino que también puede vincularse directamente a recursos de texto completo, proporcionar herramientas de administración de literatura e incluso tener servicios API de minería de datos especiales. Por ejemplo, los investigadores pueden utilizar PubMed para buscar los últimos resultados de investigación sobre una determinada enfermedad o un determinado gen para obtener inspiración teórica y experimental.
La mayoría de los registros de la base de datos PubMed también contienen resúmenes de publicaciones y enlaces a información de referencia en los que se puede hacer clic, y muchos proporcionan enlaces gratuitos de acceso al texto completo (artículos en PMC). Además, la función My NCBI de PubMed permite a los usuarios personalizar estrategias de búsqueda, guardar resultados de búsqueda y crear alertas por correo electrónico.
3. EXPLOSIÓN
BLAST es una herramienta general de alineación de secuencias que puede encontrar secuencias que sean muy similares a una secuencia determinada. La base de datos BLAST contiene una gran cantidad de datos de secuencias obtenidos de GenBank y otras fuentes, y proporciona una variedad de programas de alineación, como BLAST de nucleótidos para comparar secuencias de nucleótidos y BLAST de proteínas para comparar secuencias de proteínas. La función de BLAST es ayudar a los usuarios a identificar el origen y la función de secuencias, inferir relaciones genéticas e identificar homologías entre secuencias.
Usar BLAST es muy simple. Los investigadores solo necesitan ingresar una secuencia, y BLAST devolverá rápidamente una serie de secuencias similares e información relacionada, como similitud con la secuencia objetivo, regiones coincidentes, etc. Esta información es extremadamente importante para descubrir nuevos genes, estudiar funciones genéticas y realizar estudios sistemáticos de evolución.
4. PROTEÍNA
La base de datos de proteínas del NCBI es una base de datos centrada en secuencias y funciones de proteínas. Recopila datos de secuencias de proteínas de fuentes que incluyen GenBank, RefSeq, TPA y PDB, y proporciona una variedad de herramientas de búsqueda y análisis. La característica de la base de datos de proteínas es proporcionar información de anotación detallada para secuencias de proteínas, que incluye, entre otras, descripción funcional, información estructural, secuencias similares, citas bibliográficas, etc.
La base de datos de proteínas también está estrechamente integrada con las herramientas BLAST, lo que permite la alineación y el análisis de secuencias de proteínas. Los investigadores suelen utilizar esta información para predecir la función de una proteína, explorar su asociación con enfermedades o diseñar y diseñar proteínas para aplicaciones de bioingeniería.
5. NUCLEÓTIDO
La base de datos de nucleótidos se refiere específicamente a la base de datos mantenida por el NCBI para secuencias de nucleótidos individuales. Aquí se recopila una gran cantidad de registros de secuencias de ADN y ARN, y la interfaz de búsqueda permite a los usuarios recuperar información de acuerdo con una variedad de condiciones (como especies, nombres de genes, ID de secuencia, etc.). La base de datos de nucleótidos se utiliza ampliamente en análisis bioinformáticos, investigaciones de biología molecular e investigaciones genéticas.
A través de la base de datos de Nucleotide, los investigadores pueden acceder y descargar rápidamente información de secuencias genéticas específicas y realizar posteriores clonaciones de genes, comparaciones de secuencias, análisis de variaciones y otros trabajos. El poder de esta base de datos es que proporciona una gran cantidad de información y se actualiza en tiempo real. También está vinculada a otras bases de datos del NCBI para proporcionar a los investigadores científicos un servicio integral de consulta de información sobre nucleótidos.
6. GEN
La base de datos Gene se utiliza especialmente para almacenar genes conocidos y predichos y su información. Cada registro genético contiene información completa desde la secuencia, la expresión genética, la función y las modificaciones epigenéticas. La base de datos Gene no solo proporciona a los usuarios información genética de una sola especie, sino que también vincula registros del mismo gen en diferentes especies para facilitar la investigación genómica comparativa.
Una de las funciones principales de la base de datos Gene es proporcionar información detallada de anotaciones de genes, incluido el nombre del gen, la introducción, el patrón de expresión, las enfermedades relacionadas, etc. Los usuarios pueden obtener una comprensión profunda del contenido de la investigación de genes específicos a través de la base de datos Gene, que es crucial para el estudio de los mecanismos de las enfermedades y el descubrimiento de objetivos farmacológicos.
7. OMIM
OMIM, Herencia mendeliana en línea en el hombre, es una base de datos en línea de genes y enfermedades genéticas. Contiene información detallada sobre enfermedades genéticas humanas y diversas mutaciones genéticas. El objetivo de OMIM es extraer descripciones fenotípicas y detalles genotípicos de todas las enfermedades genéticas conocidas y convertirse en un recurso importante para estudiar la patología genética humana.
La información de la base de datos OMIM suele incluir las características clínicas, patrones genéticos, bases moleculares de la enfermedad, etc. A través de OMIM, los investigadores pueden acceder rápidamente a datos detallados sobre enfermedades genéticas relacionadas, lo que resulta de gran ayuda para la investigación sobre los mecanismos de las enfermedades, el asesoramiento genético y los métodos de tratamiento.
8. GEO
GEO, Gene Expression Omnibus, es una base de datos que almacena datos de expresión genética de alto rendimiento, especialmente microarrays y datos de secuenciación de próxima generación. GEO acepta datos experimentales enviados desde campos de investigación interdisciplinarios y proporciona servicios de consulta y descarga de estos datos a investigadores científicos.
Los datos de la base de datos GEO se pueden utilizar para muchos tipos de investigación biomédica, como comparar las diferencias de expresión genética entre diferentes muestras, analizar el impacto de un determinado método de tratamiento en la expresión genética, etc. Esta base de datos también proporciona las herramientas de análisis correspondientes, lo que permite a los investigadores analizar y visualizar patrones de expresión genética en línea.
En general, NCBI reúne una gran cantidad de recursos de bases de datos en el campo biomédico y proporciona a los investigadores potentes herramientas de investigación y soporte de datos. Cada base de datos tiene sus propias funciones y usos únicos y desempeña un papel integral en el avance de las ciencias biológicas y la investigación médica.
1. ¿Cuáles son las principales bases de datos del NCBI (Centro Nacional de Información Biotecnológica)? ¿Para qué se utilizan estas bases de datos?
NCBI es un recurso importante que proporciona información relevante para las ciencias biológicas. A continuación se presentarán las siguientes bases de datos principales y sus funciones:
PubMed: esta es una base de datos de literatura biomédica a través de la subbase de datos PubMed Central (PMC), los usuarios pueden obtener mucha literatura biomédica de alta calidad de forma gratuita. GenBank: esta es una base de datos que contiene información de secuencias de ADN que proporciona a los investigadores una plataforma global para compartir, buscar y acceder a información de secuencias biológicas. GenBank almacena cientos de millones de información sobre genoma, genes y secuencias de proteínas. Archivo de lectura de secuencias (SRA): esta base de datos almacena una gran cantidad de datos de secuenciación de alto rendimiento, incluida la secuenciación de fragmentos de ADN, secuenciación de ARN, secuenciación de proteínas y otra información, donde los investigadores pueden encontrar conjuntos de datos adecuados para su propia investigación. Banco de datos de proteínas (PDB): es una base de datos de estructuras tridimensionales de proteínas que almacena una gran cantidad de información sobre la estructura de las proteínas. Los investigadores pueden obtener datos de la estructura de las proteínas a través de PDB y comprender la relación entre la estructura y la función de las proteínas. Gene Expression Omnibus (GEO): Esta es una base de datos de expresión genética que almacena una gran cantidad de datos de transcriptomas y perfiles de expresión. Los investigadores pueden utilizar las bases de datos GEO para encontrar información sobre expresión genética relacionada con enfermedades o procesos biológicos específicos.2. En la base de datos proporcionada por el NCBI, ¿qué tipos de datos genómicos captura el NCBI? ¿Cómo se utilizan estos datos en la investigación?
Los datos del genoma capturados por NCBI incluyen muchos tipos, principalmente las siguientes categorías:
Genoma: secuencia del genoma de un organismo completo, incluidas las secuencias de ADN cromosómico y mitocondrial. EST (Expressed Sequence Tag): fragmentos de secuencia de ADNc obtenidos mediante métodos de secuenciación, que pueden utilizarse para estudiar funciones genéticas. HTG (Secuencia del genoma de alto rendimiento): un fragmento corto de secuencia de ADN generado mediante secuenciación de alto rendimiento, que se utiliza para construir el marco inicial de la secuencia del genoma. GSS (Genome Survey Sequence): fragmentos aleatorios de ADN utilizados para secuenciar la cobertura del genoma. TSA (Transcriptome Shotgun Assembly): la secuencia general del transcriptoma obtenida mediante la combinación y empalme de fragmentos EST. WGS (Whole Genome Shotgun Sequence): Secuencia desordenada del genoma completo, utilizada para secuenciar y anotar todo el genoma.Estos datos genómicos se utilizan ampliamente en campos de investigación, como la investigación de la función genética, la comparación del genoma y el análisis evolutivo, el desarrollo de fármacos y el diagnóstico de enfermedades, etc. Los investigadores pueden utilizar estos datos para analizar la estructura, función y mecanismo regulador de los genes, revelar la variación genética y el proceso evolutivo de los organismos, encontrar la asociación entre genes específicos y enfermedades y brindar apoyo a la medicina personalizada.
3. ¿Qué bases de datos del NCBI se pueden utilizar para analizar secuencias y estructuras de proteínas? ¿Cómo ayudan estas bases de datos a los investigadores a realizar investigaciones sobre proteínas?
NCBI proporciona múltiples bases de datos para analizar secuencias y estructuras de proteínas. Las siguientes son algunas de las bases de datos importantes:
UniProt: Esta es una base de datos de proteínas completa que proporciona información sobre la secuencia, estructura, función e interacción de las proteínas. Los investigadores pueden utilizar UniProt para encontrar proteínas de interés y comprender sus propiedades y funciones básicas. Banco de datos de proteínas (PDB): esta base de datos almacena una gran cantidad de datos de estructura tridimensional de proteínas determinados por cristalografía. Los investigadores pueden utilizar la información estructural del PDB para estudiar la conformación, el mecanismo de acción y las interacciones de una proteína con otras moléculas. Base de datos Conservated DomAIn (CDD): esta base de datos recopila dominios funcionales conservados en secuencias de proteínas conocidas y proporciona información de clasificación y anotación de dominios. Los investigadores pueden utilizar CDD para analizar combinaciones de dominios funcionales y características estructurales en proteínas para inferir sus funciones y similitudes. Base de datos de enlace estructura-función (SFLD): esta base de datos integra la relación entre la secuencia, estructura y función de las proteínas y proporciona información detallada de clasificación y anotación. Los investigadores pueden utilizar SFLD para explorar la relación entre la función y la estructura de las proteínas y profundizar su comprensión de la función y la evolución de las proteínas.A través de estas bases de datos, los investigadores pueden obtener una gran cantidad de información sobre secuencias y estructuras de proteínas, y realizar comparaciones de secuencias, predicciones de estructuras, anotaciones funcionales, análisis de similitudes y otros estudios, para explorar en profundidad la función y el mecanismo regulador de las proteínas y proporcionar investigaciones en campos relacionados.
Espero que este artículo del editor de Downcodes pueda ayudarle a comprender mejor la base de datos NCBI y su aplicación en la investigación biomédica. Si tiene alguna pregunta, ¡no dude en preguntar!