Programa de Genómica Computacional (PGC)
- Curación de artículos científicos
- Extracción de Información de artículos y resumen automático
-
Algoritmos para el análisis de datos genómicos
- Predicción de promotores
- Análisis de corregulación genética
- Predicción de TFBS
- Divulgación del conocimiento
- Representación del conocimiento
- Integración y visualización
Curación de artículos científicos
El proceso de curación tradicional consiste en la lectura de artículos científicos para extraer información, en nuestro caso, sobre la regulación que afecta la expresión genética en E. coli K-12 y guardar dicha información en la base de datos RegulonDB. El objetivo de nuestro grupo es mantener esta curación lo más actualizada posible.
Actualmente estamos desarrollando una plataforma para llevar a cabo la curación de manera digital, lo cual ofrece una alternativa para evitar errores tipográficos en la anotación de los datos, además de disminuir la cantidad de papel empleado en impresiones. El curador marcará la palabra en el artículo que desee curar y al colocarse en el campo de una forma de captura, la palabra seleccionada se colocará automáticamente en dicho campo. Otro tipo de curación que hemos desarrollado es la curación asistida que utiliza técnicas de minería de textos que permiten hacer uso de filtros cuidadosamente diseñados para detectar las frases que tengan la información que nos interesa curar. Hasta el momento hemos desarrollado filtros para anotación de las Interacciones de Regulación (IR) y para condiciones de crecimiento que afectan las IRs o directamente a los genes.
PROYECTOS
• Curación tradicional
• Curación asistida
• RegulonDB
• EcoCyc
• RegulonDB-HT
Algoritmos para el análisis de datos genómicos
Dada la riqueza de información resguardada en RegulonDB, sobre la regulación genética de Escherichia coli K12, nuestro interés es descubrir nuevo conocimiento al analizar los datos.
Hemos desarrollado algoritmos para la búsqueda y descubrimiento de patrones de sitios de unión de los factores de transcripción(TFs) en E. coli, algoritmos para la predicción de promotores y algoritmos para la búsqueda de coexpression entre genes a través de perfiles de expresión genética, por mencionar algunos, cuyos resultados han enriquecido el conocimiento en RegulonDB.
PROYECTOS
• Algoritmos para la Predicción de sitios de unión de TFs
• Algoritmos para la predicción de Ortólogos microbianos
• Algoritmos para la Predicción de Inicios de transcripción
• Algoritmos para el análisis de la coregulación genética
Integración y visualización del conocimiento
En primer lugar, somos conscientes de que la naturaleza del conocimiento es representación. En segundo lugar, consideramos que lo que RegulonDB ha hecho a través de los años, es acelerar el acceso a datos e información sobre la regulación del inicio de la transcripción en E. coli K-12. El desafío que nos guía es:
¿Cómo implementar representaciones que puedan acelerar el acceso al conocimiento?
Esto no es sólo una cuestión filosófica. En la práctica tomamos el "conocimiento" como cada frase que está contenida en el corpus de documentos que apoyan los datos e información en RegulonDB, que transmite conocimiento. Estimamos que nos falta codificar en RegulonDB aproximadamente del 70 al 75% del total de frases.
PROYECTOS
• RegulonDB
• Genetic Sensory Response Units
• L-RegulonDB
• Base de datos Multigenómica sobre regulación genética
• RegulonDB-HT
Representación del conocimiento usando modelos
Dado que RegulonDB cuenta con una gran cantidad de información sobre regulación transcripcional, existen proyectos en el laboratorio dedicados a hacer más efectiva su comunicación, de forma que la comunidad pueda obtener una visión global del conocimiento y le sea posible generar nuevas hipótesis, así como elucidar nuevos principios generales a partir de datos ya existentes. Los proyectos en esta línea están orientados a dos grandes objetivos:
1) La categorización de datos y las relaciones entre ellos mediante el diseño de ontologías y modelos relacionales.
2) El desarrollo de nuevos conceptos que permitan obtener una nueva perspectiva de datos ya publicados.
PROYECTOS
• Ontología de Condiciones de Crecimiento
• Ontología sobre la Regulación Genética
Divulgación del conocimiento
El Programa de Genómica Computacional del Centro de Ciencias Genómicas, por ser pionero en el área de la bioinformática en México, y que por años ha trabajado en la recopilación, integración y representación de la regulación genética, tiene el compromiso de divulgar éste conocimiento, siendo de hecho uno de los objetivos básicos de la UNAM.
Nuestro interés es facilitar la comprensión de contenidos relacionados a la genómica y a la bioinformática, a la sociedad en general. Además, queremos permitir el acceso de forma ordenada y estandarizada a la información que generamos a través del repositorio institucional. Y finalmente, capacitaremos a la comunidad que se quiera especializar en temas de frontera sobre genómica y bioinformática.
PROYECTOS
• Repositorio Institucional de Conocimiento Genómico
• Enciclopedia de Métodos y Procesos
• Talleres Internacionales de Bioinformática
Extracción de Información de artículos y resumen automático
Extración de Información. En general, la extracción de información (EI) obtiene un conjunto de datos estructurados que describen un evento a partir de fuentes de datos no estructurados (documentos, videos o imágenes). En el área biomédica, esta tarea ha sido utilizada para extraer, por ejemplo, datos sobre interacciones proteína-proteína y gene-gene a partir de colecciones de artículos científicos. Nosotros tenemos particular interés en utilizar las técnicas propuestas en la EI para extraer interacciones regulatorias entre factores de transcripción y genes o unidades de transcripción, junto con las condiciones en las que se producen.
Actualmente, contamos con dos métodos para extraer estas interacciones. Uno basado en reglas sintácticas y otro basado en filtros con listas de palabras. Dado que la extracción de estos datos es complicada por las diversas formas de expresar las interacciones en los artículos, seguimos mejorando los métodos existentes para recuperar más y mejores interacciones y condiciones. Este método deberá tener la capacidad de ser utilizado en distintas colecciones de artículos de distintas bacterias. El objetivo último de esta línea de investigación es construir una red de regulación transcripcional a partir de la literatura.
Resumen Automático. El resumen automático de documentos permite generar una versión compacta de un documento o colección de documentos manteniendo la información relevante. Esta tarea puede ser usada para obtener un resumen sobre las características de una entidad biológica, una enfermedad o un tratamiento. En nuestro caso, estamos buscamos generar resúmenes en forma automática sobre características de factores de transcripción a partir de colecciones de artículos científicos.
PROYECTOS
• Extracción automática de interacciones de regulación y condiciones de crecimiento
• Resumen semiautomático sobre características de factores de transcripción
• L-RegulonDB
• Bases de datos Multigenómica
Algoritmos para la predicción de Sitios de Unión de Reguladores Transcripcionales.
Introducción
El estudio de los sistemas de regulación genética ha sido siempre de interés en la biología molecular, sin embargo, antes de la era genómica, la caracterización de un sitio regulador era un proceso largo. La bioinformática proporcionó una forma de utilizar la información experimental para crear modelos para predecir nuevos sitios de reguladores transcripcionales. Hoy en día, las técnicas genómicas proporcionan numerosos sitios de unión en un solo experimento, pero el número de falsos positivos puede ser muy alto, esto ha hecho de la bioinformática un componente integrador en el análisis, uso e interpretación de los resultados.
Objetivo del proyecto
Implementar algoritmos y metodologías para la búsqueda y descubrimiento de patrones de Reguladores transcripcionales, que permitan reducir el número de falsos positivos.
Descripción
Hemos desarrollado e implementado estrategias de bioinformática para descubrir nuevos posibles sitios de unión para las proteínas que interactúan con el ADN conocido como factores de transcripción, estos métodos se basan en la búsqueda y el descubrimiento de patrones.
Una de los mayores problemas en los métodos de comparación de patrones, utilizados para encontrar nuevos sitios de unión, es el alto número de falsos positivos. Para abordar este problema, integramos dos métodos a nuestros procesos:
• El primer método evalúa la calidad de los modelos computacionales conocidos como Matrices de Puntuación Específica de Posiciones (PSSMs). Estas matrices se utilizan para predecir sitios de unión de factores de transcripción. Como resultado de este estudio se propone la utilización de un enfoque multigenómico para mejorar las PSSMs y están disponibles como parte de RegulonDB.
• El segundo método propone la utilización de información multigenómica, derivada de la conservación de interacciones reguladoras en genomas estrechamente relacionadas, como forma de reducir la cantidad de falsos positivos.
Ha habido otros métodos y enfoques dirigidos a mejorar la calidad de predicciones similares, sin embargo, la mayoría de estos métodos requieren mucha información experimental que sólo está disponible para pocos organismos. En el laboratorio, no sólo buscamos descubrir la nueva biología de E. coli K12 sino también desarrollar métodos que se pueden aplicar a cualquier organismo con un genoma anotado.
Contacto:
Referencias
[1] Medina-Rivera A, Abreu-Goodger C, Thomas-Chollier M, Salgado H, Collado-Vides J, van Helden J. Theoretical and empirical quality assessment of transcription factor-binding motifs. Nucleic Acids Res. 2011 Feb;39(3):808-24. doi:10.1093/nar/gkq710. PubMed PMID: 20923783; PubMed Central PMCID: PMC3035439.
[2] Medina-Rivera A, Defrance M, Sand O, Herrmann C, Castro-Mondragon JA, Delerce J, Jaeger S, Blanchet C, Vincens P, Caron C, Staines DM, Contreras-Moreira B, Artufel M, Charbonnier-Khamvongsa L, Hernandez C, Thieffry D, Thomas-Chollier M, van Helden J. RSAT 2015: Regulatory Sequence Analysis Tools. Nucleic Acids Res. 2015 Jul 1;43(W1):W50-6. doi: 10.1093/nar/gkv362. PubMed PMID: 25904632; PubMed Central PMCID: PMC4489296.
Algoritmos para el análisis de la correlación genética.
Introducción
A pesar del gran esfuerzo que nuestro grupo ha realizado para integrar la literatura científica en la red más completa que existe de regulación transcripcional en Escherichia coli, 2919 genes de un total de 4650, aún no están incluidos en dicha red. Como alternativa para completar estas interacciones faltantes hemos desarrollado una línea de investigación para obtener, a partir de experimentos computacionales, basados en datos genómicos, nuevas modalidades de regulación transcripcional que nos permiten identificar y agregar a nuestra base de datos interacciones genéticas nuevas; de esta forma, RegulonDB se enriquece no sólo a partir de la exhaustiva revisión de la literatura, sino que genera nuevo conocimiento a partir de los datos genómicos masivos existentes en la literatura misma.
Objetivo del proyecto
Desarrollar algoritmos computacionales que permitan un análisis global de las bases de datos de expresión genética (conformadas por varios experimentos en distintas condiciones), y obtener conocimiento biológico sobre la regulación transcripcional en E. coli, e implementar estos algoritmos en pipelines que permitan la reproducibilidad de la investigación por otros grupos de la comunidad científica.
Descripción
El proyecto implementa algoritmos computacionales basados en “machine learning” que analizan las fuentes de datos de expresión genética obteniendo nuevo conocimiento biológico sobre la regulación transcripcional [Martínez et al 2016].
Las fuentes principales de información son a) RegulonDB, base de datos que contiene información experimental sobre los objetos de regulación trascripcional como lo son: regulones, unidades de transcripción y operones, que son los conceptos biológicos que tienen la propiedad de representar a un conjunto de genes relacionados que responden a un mecanismo biológico; y b) Las bases de datos de M3D y COLOMBOS, las cuales contienen información sobre los experimentos de expresión de los genes en varias condiciones en E. coli y otros organismos.
Se aplican dos tipos de algoritmos computacionales basados en agrupamiento de objetos los cuales utilizan como entrada los valores de expresión que tiene cada gen en distintas condiciones, los algoritmos nos permiten agrupar los genes que tienen un comportamiento semejante en sus valores de expresión.
Los grupos obtenidos son validados con nuestro set control que son los genes asociados a los regulones, unidades de transcripción y operones anotados en RegulonDB.
Mediante este tipo de técnicas hemos inferido la regulación de genes sin anotación o de función desconocida, mediante su participación en alguno de los grupos obtenidos con expresión génica altamente relacionados.
Contacto:
Trabajos de Tesis y Colaboraciones Abiertas:
Licenciatura
Postgrado
Servicio Social
Residencia Académica
Colaboración en Análisis de Datos
Referencias
[1] [Martinez et al 2016] In silico clustering of Salmonella global gene expression data reveals novel genes co-regulated with the SPI-1 virulence genes through HilD. Irma Martínez-Flores, Deyanira Pérez-Morales, Mishael Sánchez-Pérez, Claudia C. Paredes, Julio Collado-Vides, Heladia Salgado & Víctor H. Bustamante. Scientific Reports 6, Article number: 37858 (2016) doi:10.1038/srep37858.
Curación de artículos científicos en RegulonDB y EcoCyc
Introducción
RegulonDB es una base de datos que contiene información sobre la regulación transcripcional de E. coli K-12, la cual surge en 1991 con una colección de sitios de unión de reguladores transcripcionales publicada en el artículo “Control site location and transcriptional regulation in Escherichia coli” (Collado-Vides et al 1991). La base de datos se hizo pública por primera vez en 1998 a través del artículo “RegulonDB: a database on transcriptional regulation in Escherichia coli.“ (Huerta AM et al, 1998) RegulonDB es una base de datos de alta calidad en donde la información es curada manualmente y en donde a cada objeto se la agrega la evidencia que soporta su existencia y la fuente o referencia de donde se obtuvo la información de cada objeto.
Objetivos del proyecto
1. Mantener la curación de la regulación transcripcional lo más actualizada posible (curación al día).
2. Desarrollar un sistema digital para la curación al día.
3. Mantener la curación asistida de la información relacionada con las condiciones de crecimiento que afectan la expresión genética.
Descripción
El proceso de la curación tradicional consiste en la lectura de artículos científicos para extraer información, en nuestro caso, sobre la regulación que afecta la expresión genética en E. coli K-12, y anotar dicha información en las bases de datos RegulonDB y EcoCyc. El objetivo de nuestro grupo es hacer pública nuevas versiones de las dos bases de datos cuatro veces al año y mantenerla lo más actualizada posible.
El proceso de curación comienza con una búsqueda de artículos en PubMed, para lo cual utilizamos un conjunto de palabras clave relacionadas al tema de la regulación transcripcional. El resultado de la búsqueda es un conjunto de resumenes de artículos, los cuales se leen para seleccionar todos aquellos que contengan información relevante. Posteriormente, se obtienen los artículos completos con el fin de leerlos. El equipo de curadores sigue un conjunto unificado de criterios o directrices de curación que se amplían a medida que se incrementa nuestra experiencia. Los datos extraídos de los artículos completos se agregan a EcoCyc a través de formas de captura. Estos datos posteriormente pasan de EcoCyc a RegulonDB a través de un proceso automatizado el cual se ejecuta previo a cada liberación. Cabe mencionar que RegulonDB contiene algunos datos que no son compartidos con EcoCyc, los cuales se anotan de manera independiente para su posterior adición a RegulonDB.
El control de calidad de los datos agregados se hace de manera automática través de revisiones de consistencia. Las preguntas, observaciones y comentarios pertinentes a la regulación genética, que envían los usuarios a ambas bases de datos, son respondidas por nuestro equipo.
Si bien hay un cuidadoso proceso de curación manual, éste no está libre de errores humanos. Para evitar tales errores, hemos iniciado el proyecto para el desarrollo de una plataforma de curación digital, la cual integrará distintas herramientas computacionales para llevar a cabo la curación. Con el uso de esta nueva plataforma, también se conseguirá disminuir la cantidad de papel empleado en impresiones. La plataforma le permitirá al curador poder interactuar con la forma digital de un artículo y las formas de captura, de tal forma que a través del marcaje de textos en el artículo, éstos puedan guardarse automáticamente en las formas de captura. Se tiene contemplado que este sistema esté terminado a finales de 2017.
Otro tipo de curación que hemos desarrollado es la curación asistida, la cual utiliza técnicas de minería de textos que permite hacer uso de filtros cuidadosamente diseñados para detectar las frases de un artículo que tengan la información que nos interesa curar. Este proceso es útil y eficiente cuando se trata de hacer una curación dirigida hacia algún elemento específico de RegulonDB. Hasta el momento, hemos desarrollado filtros para anotación de las Interacciones de Regulación (IRs) y para condiciones de crecimiento que afectan las IRs o directamente a los genes.
Contacto:
Referencias
[1] Collado-Vides J, Magasanik B, Gralla JD.Control site location and transcriptional regulation in Escherichia coli. Microbiol Rev. 1991 Sep;55(3):371-94. Review.
[2] Huerta AM, Salgado H, Thieffry D, Collado-Vides J. RegulonDB: a database on transcriptional regulation in Escherichia coli. Nucleic. Acids Res. 1998 Jan 1 (C;26(1):55-9.
[3] Gama-Castro, S., Salgado, H., Santos-Zavaleta, A., Ledezma-Tejeida, D., Muñiz-Rascado, L., García-Sotelo, J. S., … Collado-Vides, J. (2016). RegulonDB version 9.0: high-level integration of gene regulation, coexpression, motif clustering and beyond . Nucleic Acids Research, 44(Database issue), D133–D143. http://doi.org/10.1093/nar/gkv1156
Agradecimientos
As an Academic Partner of Visual Paradigm, CENTER FOR GENOME SCIENCES is issued online software tools for educational use, which cover UML, BPMN, ArchiMate, Agile story mapping, etc.
Curación de artículos High-throughput
Introducción
En años recientes el número de publicaciones que utilizan tecnologías de alto rendimiento o High-throughput (HT) para estudiar la regulación genética microbiana ha ido en aumento. La curación de estas publicaciones plantea retos diferentes de los experimentos clásicos y su curación consume mucho más tiempo por parte del curador. Sin embargo, para mantener al día el conocimiento integrado de la red de regulación de E. coli, es necesario generar herramientas que nos permitan extraer, manejar y almacenar dichos resultados.
Objetivo del proyecto
Generar una metodología que nos permita incorporar los datos extraídos por tecnologías HT en una base de datos (RegulonDBHT).
1. Creación de un pipeline que permita procesar los datos crudos y extraer información relevante de ellos con un formato preestablecido.
2. Curación y extracción de datos procesado que se encuentran en material suplementario o tablas de los artículos científicos de HT.
3. Generación de diferentes pipelines que permitan la inferencia biológica de relaciones regulatorias (ej. regulación directa, regulación indirecta).
Descripción
Los HTs incluyen metodologías tales como ChIP (ChIP-chip, ChIP-seq, ChIP-exo), a genomic SELEX, RNA-seq, entre otros. Hemos comenzado a curar datos provenientes de genomic Selex (CRP, LeuO, H-NS) y de ChIP-exo (GadE, GadW, GadX, OxyR, SoxS y SoxR), los cuales se han subido a RegulonDB en forma de datasets: http://regulondb.ccg.unam.mx/menu/download/high_throughput_datasets/index.jsp
Pretendemos extraer de todos los artículos HT tanto los datos crudos (raw data) como los datos procesados. De 60 artículos relacionados a High throughput (HT) en E-coli K-12, aproximadamente 20 tienen raw data depositados en GEO y/o Array Express, con diferentes tecnologías tales como: ChIP-chip, ChIP-seq, ChIP-exo, RNA-seq, microarray y 5´RACE. Estos artículos generarán datos para TFs como: OxyR, SoxR, SoxS, Fur, RyhB, NsrR, FNR, H-NS, IHF, ArgR, GadE, GadW, GadX, Fis, PurR, Lrp, TrpR; además del factor sigma RpoD (sigma70) y del factor de terminación Rho. Esperamos poder incluir, asimismo, datos de inicios de transcripción (TSS).
Curación y extracción de Raw data
Los datos crudos se extraerán de GEO datasets y/o Arrayexpress. Se buscará que todos lleven un solo formato con la finalidad de homogenizarlos y subirlos como datasets o tracks. Asimismo, debemos documentar la llamada “meta-curación” que describe las condiciones experimentales de cada data set.
Para la visualización de los datos en tracks, se sugiere que estos se desplieguen de manera circular, se muestren los picos y se puedan regresar a los datos que regulan. Los multi track tendrán diferentes categorías tales como condiciones compartidas o TF que reaccionan a la misma condición.
Campos que deberán llevar los raw data: TF/gene/longitud del pico/Posición central del pico/Metodología/Algoritmo/Evidencia(Verena)/Referencia.
Cuando en un mismo artículo se incluyan experimentos de RNA-seq o microarreglos, se asociará la función o el efecto (indirecto) del TF sobre los genes con expresión alterada.
Datos procesados
Los datos procesados por los autores serán extraídos del artículo mismo o del material suplementario y se guardarán en tablas Excel. Para este fin, se creará una página web para que sea más fácil para los curadores visualizar las tablas.
A la par del trabajo de extracción y curación de estos datos; se está trabajando en el desarrollo de un pipeline basados en el modelo de FNR (Myers et al. 2013) para ChIP-seq.
Contacto:
Referencias
[1] Myers KS, Yan H, Ong IM, Chung D, Liang K, Tran F, Keleş S, Landick R, Kiley PJ. Genome-scale analysis of Escherichia coli FNR reveals complex features of transcription factor binding. PLoS Genet. 2013 Jun;9(6): e1003565. doi: 10.1371/journal.pgen.1003565. PubMed PMID: 23818864; PubMed Central PMCID: PMC3688515.
Enciclopedia de métodos y procesos: prototipo inicial de las Ciencias Genómicas
Introducción
Vivimos una verdadera revolución en la interacción del hombre con la información y con el conocimiento asociada a los cambios vertiginosos de las tecnologías de la información y comunicación (TICs). El acceso a la información es ya un hecho. Sin embargo, el usuario común no distingue entre información subida por cualquiera, del conocimiento editado y fundamentado.
Este proyecto se ubica en la cúspide del proceso del conocimiento al tomar el compromiso, de acelerar la disponibilidad no de la información, sino del conocimiento tal y como lo requiere no una computadora, sino una mente humana cuando ejercita su capacidad de entender.
El reto del proyecto es ofrecer una alternativa que maximice el entendimiento del conocimiento, contar con un conocimiento confiable gracias a que ha pasado por un proceso de edición, todo esto bajo la hipótesis de que todo conocimiento se puede expresar en forma fácil de entender para el no experto y en forma gradual, avanzar textos de niveles más técnicos y especializados.
Objetivo general del proyecto
Este proyecto de una enciclopedia de métodos y procesos es un módulo alineado con la misión que tenemos alrededor del verbo “entender”. La etapa actual incluye textos en español, nuestro objetivo a largo plazo es facilitar el entender a todo el mundo.
El objetivo consiste en construir una enciclopedia en español accesible en línea de métodos y su concatenación e integración en procesos y estrategias de gestión del conocimiento que permitirán al lector entender las bases del conocimiento de la genómica humana. En este proyecto el alcance se limita a métodos científicos de las ciencias genómicas y la bioinformática, con énfasis en los involucrados en la genómica personalizada.
Metas del proyecto
1) La construcción del primer prototipo de la enciclopedia. Esto involucra tres aspectos: a) El desarrollo de software acorde al modelo diseñado; b) La generación de contenido por personal capacitado en métodos de genómica y bioinformática y c) Definir la estrategia tecnológica del desarrollo tanto para el primer prototipo como para la definición e implementación de la estrategia para mantener la ventaja competitiva del producto o servicio a través de versiones futuras con un contenido más amplio y mejoras en el despliegue y navegación en la enciclopedia.
2) Validar el mercado a través del prospecto de negocio. Dentro del sistema Conogasi, la enciclopedia será un módulo adicional a ofrecer en una versión futura.
3) Definir la estrategia comercial y las bases legales de la empresa y del servicio.
4) Definición y documentación de los procesos involucrados que permitan la solidez del proyecto empresarial para poder arrancar bien a nivel nacional.
Contacto:
Repositorio Institucional de Conocimiento Genómico
Introducción
Las ciencias genómicas se encuentran en una revolución derivada del avance tecnológico que ha facilitado la obtención de grandes cantidades de información. El reto o cuello de botella es la capacidad de acceder, procesar e integrar la información y conocimiento que se publica.
En este proyecto se propone sentar las bases de la información en forma accesible, abierta, estructurada adecuadamente con los metadatos necesarios, cumpliendo con las reglas de interoperabilidad requeridas por los repositorios nacionales, del conocimiento que dicha revolución genera en genómica microbiana, disponible en forma pública a nivel nacional e internacional.
Objetivo del proyecto
El objetivo general es la generación de un repositorio institucional de elementos interpretables de genomas completos. Empezaremos con un proyecto piloto con todos los archivos de todos los genes de los genomas microbianos disponibles y sus relaciones de ortología a lograse en 6 meses, en dos etapas, en colaboración con el Dr. Gabriel Moreno Hagelsieb quien ha generado por años dichos ortólogos (Ward N. and Moreno-Hagelsieb G. 2014; Vey G. and Moreno-Hagelsieb G. 2010; Moreno-Hagelsieb G. and Latimer K. 2008). Dicha semilla se enriquecerá con los elementos del conocimiento de la regulación genética de genomas completos microbianos, y posteriormente podrán incluirse genomas de organismos superiores, en particular el humano. Este es un proyecto a largo plazo en una visión de creación, desarrollo y consolidación de un proyecto de impacto nacional e internacional.
Los objetivos específicos de la fase de creación en un proyecto de dos etapas en 6 meses son:
1. Adquirir y configurar la infraestructura computacional a usar por el repositorio genómico microbiano en su inicio.
2. Definir la estandarización de documentos y procesos para homogeneizar los datos a ser depositados en el repositorio genómico en su fase inicial.
3. Crear la estructura del repositorio institucional genómico microbiano.
4. Implementar, como proyecto piloto, la disponibilidad y flujo de ortólogos de los 2785 genomas microbianos completos disponibles a la fecha.
Contacto:
GENSOR Units
Introducción
Conocer la topología de la Red de Regulación Transcripcional de Escherichia coli K12 ha permitido analizar los circuitos lógicos que rigen su procesamiento de información1–5, sin embargo, poco sabemos aún sobre los efectos de dichos circuitos a nivel fisiológico. Los factores de transcripción son centrales en este procesamiento dada su habilidad para unirse alostéricamente con el efector o producto final de una vía de señalización que refleja cambios en el ambiente. Dicha unión provoca la creación de un complejo con habilidad de pegarse al ADN activando o inhibiendo la transcripción de un grupo determinado de genes llamado “regulón”. A nivel fisiológico estos genes darán lugar a proteínas que en conjunto orquestarán una respuesta metabólica apropiada ante la presencia de la molécula señalizadora inicial.
Estos eventos ocurren todo el tiempo durante la vida de una célula y le proveen la capacidad para reconocer y responder ante cambios en su ambiente. El flujo completo detrás de este procesamiento de información se ha integrado en unidades genéticas de respuesta sensora (“GENSOR Units” por las siglas de “genetic sensory-response units” en ingles) disponibles en la base de datos RegulonDB.
Objetivos del proyecto
Describir las unidades del procesamiento de información de Escherichia coli K-12 e identificar sus propiedades generales.
1. Utilizar un enfoque guiado por los datos (data-driven) para ensamblar GENSOR Units de cada factor de trascripción local depositado en RegulonDB.
2. Analizar la presencia de retroalimentación en las GENSOR Units
3. Cuantificar las propiedades del set entero de GENSOR Units.
Descripción
Cada GENSOR Unit cuenta con cuatro elementos:
a) La señal que es percibida por la célula.
b) La conversión de la señal en un efector capaz de ser reconocido por un factor de transcripción.
c) La inhibición o inducción de la expresión de un grupo de genes ante la presencia o ausencia del factor transcripcional.
d) La respuesta ante la presencia de la señal derivada de la acción conjunta de las funciones de los genes cuya expresión ha variado.
A la fecha se han construido 189 GENSOR Units de E. coli K-12 a través de un método semiautomático que recupera los elementos necesarios de bases de datos curadas manualmente.
El siguiente paso es analizarlas para identificar propiedades generales que utiliza la célula para detectar y procesar información. Las GENSOR Units cuentan con dos objetivos a largo plazo: (1) proveer a la comunidad de una herramienta que permita analizar, no sólo grupos de genes, sino las interacciones entre ellos, las señales antes las cuales son funcionales y la respuesta que generan; (2) ser un marco de referencia para la integración de distintos niveles de organización celular para eventualmente contar con un mapa celular donde sea posible predecir respuestas in silico a partir de la presencia de combinaciones de señales.
Contacto:
Referencias
[1] Thomas, R. & D’Ari, R. Biological feedback. (CRC Press, 1990).
[2] Kauffman, S. A. The origins of order : self-organization and selection in evolution. (Oxford University Press, 1993).
[3] Gerosa, L. & Sauer, U. Regulation and control of metabolic fluxes in microbes. Curr. Opin. Biotechnol. 22, 566–75 (2011).
[4] Savageau, M. A. Design principles for elementary gene circuits: Elements, methods, and examples. Chaos 11, 142–159 (2001).
[5] Savageau, M. A. Biochemical Systems Analysis. A Study of Function and Design in Molecular Biology. (Addison-Wesley Publishing Company, 1976).
[6] Daniela Ledezma-Tejeida, Cecilia Ishida, Julio Collado-Vides. Genome-wide mapping of transcriptional regulation and metabolism describes information-processing units in Escherichia coli (submitted).
High-Throughput Literature Curation of Genetic Regulation in Bacterial Models
Introducción
Para hacerle frente a la gran disponibilidad de información en todos los campos del conocimiento, pero en particular en genómica, estamos proponiendo nuevas estrategias de lectura basadas en técnicas de Procesamiento de Lenguaje Natural (PNL). El objetivo principal es, mediante el uso de Similitud Semántica ofrecerle al lector un enfoque diferente para indagar sobre un tema específico. Este enfoque consiste en permitirle saltar a frases en otras publicaciones que expresen la misma idea o ideas similares. Esta herramienta podría ser de particular utilidad en la curación de literatura científica.
Objetivos del proyecto
1. Desarrollar un nuevo sistema de navegación a través de artículos científicos al nivel de frases.
2. Ligar frases con la información almacenada en la base de datos RegulonDB de manera que, a través de los artículos curados sobre regulación genética, se pueda acceder a las figuras y tablas de los distintos objetos biológicos tal como están disponibles en RegulonDB.
3. Integrar en el sistema, una ontología sobre regulación genética para clasificar artículos y párrafos y así facilitar la navegación a través de las clases de dicha ontología.
Descripción
Hoy en día, la cantidad de datos e información que se está produciendo en varios campos del conocimiento, incluyendo la ciencia, representa un gran reto. En particular en genómica, la cantidad no sólo de datos, sino que incluso de información disponible en las publicaciones es de tal magnitud, que es muy difícil mantenerse al día sin el uso de herramientas cada vez más inteligentes.
Por esta razón estamos desarrollando técnicas para leer y seguir ideas de nuestro interés, más allá del contexto de la publicación en donde inicialmente las encontramos. El objetivo principal es ofrecerle al lector un enfoque diferente para indagar sobre un tema en específico. Enfoque que consiste en: permitirle saltar a frases, en otras publicaciones, que expresen la misma idea o ideas similares. Esta propuesta se podría ver como un paso hacia una clase de Realidad Aumentada en el contexto de Lenguaje Natural.
Nuestro enfoque se basa en el uso de técnicas de NLP para medir la similitud semántica entre todas las frases de un corpus y seleccionar aquellas más fuertemente relacionadas. El módulo de similitud se encuentra en constante mejora y actualmente incorpora técnicas de representación vectorial y algunas características sintácticas. En futuras versiones planeamos incorporar más características sintácticas.
Los resultados tendrán aplicación en cualquier campo en donde se realice lectura de investigación, pero puede ser de particular utilidad en la curación científica. En el proceso de curación, expertos anotan y extraen información específica de un grupo de artículos del mismo tema, y aunque la información relevante es identificada con buena precisión, esta estrategia de lectura secuencial de todo el artículo es muy tardada. Al hacer uso de enlaces semánticos, los expertos podrían saltar entre publicaciones encontrando de manera más ágil y eficiente, evidencias a favor o en contra de cada pieza de conocimiento en las bases de datos.
Contacto:
Extracción automática de interacciones de regulación y condiciones de crecimiento
Introducción
Uno de los productos obtenidos por la curación de artículos científicos para RegulonDB es la red de regulación transcripcional ( http://regulondb.ccg.unam.mx/menu/download/datasets/index.jsp. Esta red está formada por interacciones de regulación entre factores de transcripción (TFs) y genes o unidades de transcripción (TU). En este proyecto se buscan métodos para extraer automáticamente estas interacciones, así como las condiciones en las que se producen. Por el momento, nos interesan tres tipos de interacciones: activación, represión y regulación. Por ejemplo, la siguiente figura muestra la interacción de regulación (derecha) que esperaríamos obtener de la frase de un artículo científico (izquierda).

Objetivo del proyecto
Extraer automáticamente interacciones de regulación entre factores de transcripción y genes o unidades de transcripción a partir de literatura biomédica.
Metas del proyecto
1) Comparar los dos métodos existentes en el PGC para extraer redes de regulación [1,2] usando la red de E. coli mediante medidas estándar de recuperación de información.
2) Seleccionar o proponer un nuevo método para utilizarlo en nuevas colecciones de artículos.
3) Generar la red de regulación de Salmonella.
Descripción
El método propuesto recibirá como entrada una colección de artículos científicos y entregará un conjunto de interacciones de regulación y las condiciones en las que se producen.
Contacto:
Referencias
[1] Rodríguez-Penagos, C., Salgado, H., Martínez-Flores, I., and Collado-Vides, J. Automatic reconstruction of a bacterial regulatory network using Natural Language Processing. BMC Bioinformatics (2007), 8:293, doi:10.1186/1471-2105-8-293.
[2] Gama-Castro, S., Rinaldi, F., López-Fuentes, A. et al. Assisted curation of regulatory interactions and growth conditions of OxyR in E. coli K-12. Database (2014) Vol. 2014: article ID bau049; doi:10.1093/database/bau049.
Resumen semiautomático sobre características de factores de transcripción
Introducción
Uno de los productos con mayor integración de conocimiento generado por el proceso de curación es un conjunto de resúmenes sobre propiedades de factores de transcripción (transcription factors, TFs). Estos resúmenes son elaborados a partir de diversos artículos científicos que son referenciados en cada resumen. RegulonDB existen actualmente 177 resúmenes con 13 referencias únicas en promedio y una mediana de 9 para cada resumen. Para recuperar un resumen, es necesario buscar el nombre de un TF, por ejemplo CytR, y seleccionar su descripción en la sección [Regulon], la cual contiene el resumen. Un ejemplo de resumen se muestra a continuación.

Estos resúmenes fueron escritos tomando en cuenta los siguientes lineamientos de su contenido:
1. Significado de su acrónimo y si es regulador transcripcional represor, activador o dual.
2. La función en términos de su rol fisiológico.
3. Las condiciones de crecimiento bajo las cuales se expresa.
4. La conformación activa e inactiva.
5. El número, nombre y tamaño del dominio estructural que lo constituye.
6. Información sobre las características del sitio de pegado.
7. Información sobre sus mecanismos regulatorios.
8. Información sobre sus características evolutivas.
9. Indicar si el factor de transcripción tiene otras funciones no regulatorias.
Objetivo del proyecto
Generar automáticamente resúmenes sobre características de factores de transcripción para ayudar en el proceso de curación de RegulonDB.
Descripción
Debido al crecimiento acelerado de la literatura biomédica, la tarea de mantener estos resúmenes actualizados y de escribir nuevos resúmenes a partir de distintas colecciones de artículos es un trabajo arduo para los curadores. Por ello, se propone el uso de técnicas de resumen automático de documentos para crear estos resúmenes.
Contacto:
Ontología de condiciones de crecimiento que afectan la expresión genética en Eschericha coli.
Introducción
Las células han desarrollado múltiples mecanismos para detectar señales del ambiente y ajustar la maquinaria celular para crecer bajo diferentes condiciones de crecimiento. La mayoría de los sistemas de detección transducen y responden a una señal definida a través de la activación y/o represión de un conjunto particular de genes que desencadenan o suprimen una respuesta fisiológica.
En RegulonDB hemos incluido desde 2003, información parcial sobre las condiciones de crecimiento de experimentos de expresión génica reportados en la literatura. La curación manual de esta información es un proceso lento, por lo que buscamos implementar la curación semiautomática que permita acelerar este proceso.
Otra base de datos que también contiene información de condiciones de crecimiento de los experimentos de expresión génica es COLOMBOS, la cual permite explorar y analizar compendios completos de experimentos de expresión genética en bacterias.
Objetivos del proyecto
1. Establecer un vocabulario controlado para la anotación de condiciones de crecimiento para las bases de datos RegulonDB y COLOMBOS.
2. Crear una ontología especializada de las condiciones de crecimiento utilizadas en experimentos de expresión genética hechos en E. coli.
Contacto:
Ontología de la Regulación Génica
Introducción
RegulonDB es la principal base de datos sobre la regulación transcripcional de E. coli K-12. Uno de los objetivos de RegulonDB es organizar el conocimiento en modelos de representación formales que sean computables para acelerar el acceso y el procesamiento del mismo. Las bases de datos relacionales son herramientas que permiten almacenar y manejar eficientemente cantidades masivas de datos, y si bien tienen un esquema que modela las entidades del mundo real, no son muy expresivas semánticamente [1]. Nos acercamos más a tener una representación de conocimiento, en contraste con un almacén de datos, en la medida en que podemos representar enunciados verdaderos sobre un dominio de la realidad sobre los que se puede razonar para derivar más conocimiento y en la medida en que podemos aumentar la semántica de los conceptos representados, i.e., el contexto en el que el concepto tiene sentido.
Si logramos desarrollar un modelo computacional que enriquezca la cantidad de conceptos formalizados sobre la regulación génica, definiendo precisa y formalmente sus significados, en un nivel suficientemente general como para proveer el marco conceptual para la curación del conocimiento de la regulación bacteriana en general, aumentaremos el impacto y la trascendencia de RegulonDB aportando un recurso que permita el manejo computacional de tal conocimiento.
Objetivo
Hacer una descripción semántica formal de los objetos de RegulonDB usando el lenguaje ontológico owl (ontology web language).
Contacto:
Referencias
[1] Martinez-Cruz, C., Blanco, I. J., & Vila, M. A. (2012). Ontologies versus relational databases: are they so different? A comparison. Artificial Intelligence Review, 38(4), 271-290.
[2] Blake, J. (2004). Bio-ontologies—fast and furious. Nature biotechnology, 22(6), 773-774.
[3] Blondé, W., Mironov, V., Venkatesan, A., Antezana, E., De Baets, B., & Kuiper, M. (2011). Reasoning with bio-ontologies: using relational closure rules to enable practical querying. Bioinformatics, 27(11), 1562-1568.
Búsqueda de la innovación y la calidad (Procesos).
Introducción
En los últimos años, se ha llegado a considerar que la información constituye uno de los recursos estratégicos más importantes de cualquier organización y de la sociedad, pues se requiere para hacer frente a los constantes cambios en el desarrollo de la vida social y en el progreso acelerado de las tecnologías de información. Desafortunadamente, frecuentemente las actividades diarias no permiten tener el tiempo suficiente para buscar la forma de resguardarla y organizarla para que sea útil. Por lo mismo, el gran reto es primero identificar qué información se esta generando y lograr la gestión de la misma
Por lo descrito anteriormente, la gestión de proyectos bajo una metodología o modelo de procesos en centros de investigación es casi nula, ya sea porque se desconocen las herramientas para implantarla o por la resistencia al cambio. Según el informe CHAOS, que elabora el Standish Group, que es el informe más reconocido sobre el éxito y fracaso de los proyectos en el sector de las tecnologías de la información (TI), existen factores críticos que pueden hacer que un proyecto sea exitoso, entre los que sobresale el de implantar un modelo de procesos bien definido y una metodología que gestione el modelo de procesos y a toda la organización
En el Programa de Genómica Computacional, por años hemos hecho esfuerzos para implantar metodologías y modelos que nos ayuden tanto a gestionar los proyectos y a resguardar el conocimiento que se genera de los mismos. En éste trabajo se muestra la variedad de metodologías y modelos de procesos que estamos usando y cómo ha impactado en nuestro vivir diario.
Objetivos
El objetivo general es la implantación de modelos de calidad o de mejores prácticas que ayuden a los miembros del PGC a ejecutar de manera exitosa sus proyectos, y resguardar todo el conocimiento y productos que se genere en nuestro repositorio o base de conocimiento.
Descripción
En el PGC se conjuntan varias áreas de la ciencia en proyectos de investigación, de hecho, casi desde sus orígenes, ha sido promotor de una base de datos llamada RegulonDB, que ha sido fuente para la creación de proyectos de estudiantes y líneas de investigación.
La diversidad de productos generados es extraordinaria, va desde la compilación de información de artículos científicos, la creación de software especializado, el desarrollo de algoritmos de análisis de datos genómicos, el desarrollo de nuevos conceptos en biología de la regulación genética y el modelaje teórico de la red de regulación, entre otros. Esos generan tesis, reportes, publicación de artículos, etc. Desgraciadamente, toda esta riqueza por muchos años no se organizó, si bien la necesidad de resguardarla existía desde años atrás.
En este proyecto estamos trabajando en la implantación de modelos y el diseño de herramientas que nos permitan contar con nuestra base de conocimiento y evaluar el impacto de ésta con la gente del laboratorio que hace uso de ella.
Desde el 2002 se hicieron esfuerzos por implantar metodologías para la gestión de proyectos, pero fue hasta 2010, cuando el PGC a través de la unidad de desarrollo de software, logró adquirir la verificación bajo el modelo de calidad MoProsoft hasta tener ahora el nivel 2 de madurez. Esto ha permitido que los productos de software generados, logren cierta calidad y ha impactado positivamente en la organización de todas las actividades que se realizan en el PGC.
El siguiente paso, es lograr que esa cultura de organización y de trabajo, se expanda al resto del PGC, de una manera ágil.
Contacto:
Referencias
[1] CHAOS Report : https://www.standishgroup.com/store/services/pre-order-2016-chaos-report.html
Talleres Internacionales de Bioinformática (TIB)
Introducción
En septiembre de 2001 se creó el Nodo Nacional de Bioinformática EMBnet (European Molecular Biology Network) - México, por el entonces rector de la UNAM el Dr. Juan Ramón de la Fuente, con el fin de promover la Bioinformática en el país. Actualmente la sede es el Centro de Ciencias Genómicas (CCG-UNAM) y forma parte de los proyectos que impulsa el Programa de Genómica Computacional.
EMBNet es una organización mundial con casi 30 países agrupando a profesionales que sirven, soportan, mantienen y apoyan el crecimiento de la Bioinformática.
El Nodo Nacional de Bioinformática (EMBNet-México) persigue la misma filosofía, los mismos objetivos que la organización mundial:
• Proporcionar educación y entrenamiento en bioinformática.
• Aprovechar la infraestructura que los miembros del NNB tengan.
• Investigar, desarrollar y usar software de dominio público.
• Apoyar a la investigación relacionada con biotecnología y bioinformática.
• Establecer nexos entre sectores académicos y comerciales.
• Promover cooperación global con otras redes y comunidades
Una de las estrategias para cumplir el objetivo de apoyar y promover la Bioinformática en México, es a través de talleres o cursos de calidad en temas de frontera, por lo que los Talleres Internacionales de Bioinformática (TIBs) surgen a partir de ésta iniciativa.
Descripción
Para poder organizar los TIBs se crea un comité que coordinará las actividades administrativas, académicas, de difusión, de evaluación y selección, infraestructura y logística; invitando a académicos de la comunidad de la UNAM a participar.
Los TIB2017 se han realizado con el apoyo del Centro de Ciencias Genómicas (CCG-UNAM), la Licenciatura en Ciencias Genómicas (LCG-UNAM), y el Instituto de Biotecnología (IBt-UNAM) Estas dependencias proveen las instalaciones, la infraestructura tecnológica, los recursos financieros y servicios de cafetería, entre otros.
Desde sus inicios en 2010, se ha cuidado que los talleres sean de calidad, por lo que se busca expertos en el área, y que además tengan facilidad y amor a la enseñanza. Cabe destacar que hasta ahora, todos los profesores tanto nacionales como extranjeros, han sido voluntarios y con un gran compromiso por apoyar la Bioinformática en México.
Los resultados obtenidos han sido muy satisfactorios, nuestra primera edición fue en 2010, con un curso de Introducción a la Bioinformática para 40 estudiantes, y nuestro más reciente evento fue en enero de 2017, con 6 talleres (3 por semana) con profesores nacionales y extranjeros, donde asistieron alrededor de 240 personas.
Los TIB son la actividad académica de promoción a nivel nacional de mayor envergadura que realiza el CCG a través de EMBNet-México, atendiendo la gran demanda de conocimientos en bioinformática a estudiantes de posgrado, posdocs e investigadores. Con el paso del tiempo hemos probado y comprobado que en México hay una gran demanda de cursos y talleres, por lo que seguiremos organizando y fomentando, junto con nuestros colaboradores, la Bioinformática en nuestro país.
Contacto:
Referencias
[1] Sitio web del Nodo Nacional de Bioinformática, EMBNet-México
http://www.nnb.unam.mx/
[2] Sitio web de los TIB
http://congresos.nnb.unam.mx
Subir |