Pablo's research and teaching areas Anaga mountains in Tenerife, Canary Islands

Página informativa del Tópico selecto: Bioinformática aplicada para análisis genómicos de microorganismos

Presentación
Con el fin de racionalizar y eficientizar el uso de recursos humanos e instalaciones en el Campus Morelos de la UNAM, hemos organizado este curso de doctorado de manera conjunta para los Programas de Doctorado en Ciencias Bioquímicas (PDCBioq) y Biomédicas (PDCBiomed) de la Universidad Nacional Autónoma de México. Puedes descargar desde aquí la convocatoria oficial del tópico. Este curso se imparte de manera regular cada semestre par, en alternancia con nuestro curso fundamental de Introducción a la Bioinformática y el curso complementario de Introducción a la Programación en Perl para Bioinformática.
Justifiación
Una tendencia generalizada dentro de las ciencias biológicas del siglo pasado ha sido el estudiar a los componentes celulares y sus funciones de manera independiente, dentro de un esquema que pudiera llamarse "reduccionista". Basado en dicho enfoque se ha podido generar conocimiento significativo dentro de cada una de las ramas de la Biología. No obstante, en este último siglo, ha habido un marcado incremento en la cantidad de información genómica disponible, gracias a la generación de nuevas tecnologías. Claros ejemplos de ello se encuentran la secuenciación de organismos y en la cuantificación masiva de los transcritos del organismo bajo condiciones específicas de crecimiento. Las preguntas ahora residen en encontrar, qué conocimiento puede ser generado en base a esta información, y si podemos avanzar a una nueva etapa que integre las relaciones existentes entre losdiferentes componentes del genoma y su estructura. Empieza a ser generalmente reconocido que las células deben de ser vistas como sistemas que representan las interacciones entre sus productos génicos, mismos que son expresados en el momento y cantidad necesaria de acuerdo a una compleja red de regulación de la expresión genética y estado del cromosoma. En la última década ha sido evidente el crecimiento exponencial de la información contenida en diferentes tipos de bases de datos tales como el de las secuencias nucleotídicas, peptídicas, de estructuras de proteínas, o el de la transcripción, metabolismo, regulación o de inteacción entre complejos proteicos, por mencionar tan sólo algunas de ellas. Es por ello que se hace impresindible el uso de herramientas computacionales que nos permitan la obtención, caracterización, análisis e interpretación de dicha información en las Ciencias Genómicas.
Objetivos
Lograr que el alumno conozca los fundamentos básicos de las metodologías más comunes utilizadas en el área de bioinformática para el análisis de datos de secuenciación masiva, abarcando desde el ensamble y anotación de genomas, a los análisis transcriptómicos y tenga la capacidad de manipular las herramientas computacionales para el analisis de datos masivos.
Fechas, horario y lugar de celebración del curso
El curso se impartirá cada viernes, de 10:00-13:00 hrs en el auditorio del Centro de Ciencias Genómicas de la UNAM ver mapa.
Sitio web del curso
Se abrirá una cuenta en un sitio moodle para los alumnos de doctorado formalmente registrados en el curso a través de sus respectivas entidades. Desde este sitio podrán acceder a todo el material didáctico del curso.
Programa semestre 2014-2
- Sesión 1 (Carlos Daniel Vazquez IBT UNAM estudiante de doctorado invitado): Introducción al biocómputo en sistemas Unix/Linux 
- Sesión 2: Tecnologías de secuenciación de DNA (Alejandro Sanchez IBT UNAM Invitado) (Sanger, 454, Illumina, Ion Torrent, PacBio)
 	Construcción de librerías (shot-gun, paired-end, mate-pair, multiplexing)	
- Sesión 3 (Pablo Vinuesa CCG UNAM): Formatos de secuencia y códigos de calidad (ab1, phred, sff, sam, bam, cigar.
	Control de calidad y fitrado de lecturas		
- Sesión 4 (Enrique Merino IBT UNAM): Algoritmos y estrategias de ensamblado de secuencias (OLC y grafos)
	ensamblado de lecturas 454 (formato sff) con newbler
  ensamblado de lecturas de Illumina con velvet y optimización de tamaño de k-mero
	Nuevos algoritmos para ensambles híbridos (Illumina/454 /PacBio) 
- Sesión 5 (Enrique Merino IBT UNAM): mapeo de lecturas validación de ensambles de novo; predicción de genes
	remapeo con smalt y visualizacion con artemis
	Modelos ocultos de Markov y algorimos de predicción de genes: glimmer y prodigal
- Sesión 6 (Enrique Merino IBT UNAM): Anotación de genomas 
	Concepto de homología y estrategias de anotación
	Bases de datos y algoritmos de identificación de ortólogos para anotación
	Servicios públicos de anotación RAST-subsystem server
- Sesión 7 (Pablo Vinuesa, CCG-UNAM): Análisis comparativo de genomas
	genoma core y el pangenoma
	alineamientos genómicos (MUMer, mauve, ACT)
	BLAST atlas
	visualizacion de genomas y su anotación (Artemis)
- Sesión 8: Genómica funcional 1 (Rosa Maria Gutierrez  IBT UNAM/Karel  Estrada Invitado IBT UNAM): transcriptómica
	Ensamble de transcriptomas
	RNA-Seq  para el análisis del transcriptomas
	RNA-Seq y mapeo de sitios de inicio de la transcripción 
	identificación de ncRNAs y su rol en la regulación transcripcional
- Sesión 9a  : Genómica funcional 2 (Rosa Maria Gutierrez  IBT UNAM/Karel  Estrada Invitado IBT UNAM): trascriptómica
	Introducción al ambiente de cómputo estadístico y gráfico R
- Sesión 9b  : Genómica funcional 2 (Rosa Maria Gutierrez  IBT UNAM/Karel  Estrada Invitado IBT UNAM): trascriptómic
               Análisis de trascriptomas usando herramientas de Bioconductor
- Sesión 10: Genómica funcional 3 (Sergio Encarnación Invitado CCG UNAM) : proteómica
	Técnicas para análisis proteómico global
- Sesión 11: Genómica funcional 4 (Carlos Daniel Vázquez. Invitado. Alumno de doctorado IBT UNAM): el metaboloma
	Reconstrucción de vías metabólicas
	Identificación del potencial genético de producción de nuevos metabolitos
- Sesión 12: Biología de sistemas (Carlos Daniel Vázquez. Invitado. Alumno de doctorado IBT UNAM): integración.
- Sesión 14  (Pablo Vinuesa, CCG UNAM) : microbiomas y  perfiles genéticos de comunidades
	Conceptos básicos de diversidad de comunidades microbianas: riqueza, estructura, diversidad alfa, beta y gamma; 
	patrones de distribución de la diversidad microbiana - la "biosfera rara"
	Análsis de "pyrotags" y librerías de clones usando Mothur
- Sesión 15 (Luis David Alcaráz, IE): Genómica para la biodiversidad: metagenómica y genómcia funcional de comunidades microbianas
	Problemas del ensamble de metagenomas
	Algoritmos de ensamble de metagenomas
	Análisis funcional de metagenomas
          

Preguntas frecuentes

¿Tengo que formalizar mi inscripción al curso, y cómo lo hago?
Sí, deberán de formalizar el registro del curso como la actividad académica del semestre en sus respectivas entidades de posgrado. Deberán traer constancia de registro de la actividad para que se les abra cuenta en el servidor, dar acceso al material didáctico y finalmente evaluar su actividad al final del semestre.
¿Habrá disponibilidad de videoconferencia?
No, experiencias pasadas mostraron que no es viable para este tipo de cursos con muchas sesiones prácticas.
¿Necesito saber UNIX/Linux?
Es recomendable tener alguna experiencia previa, pero no es imprescindible. Para los que no la tienen, las primeras dos sesiones estarán dedicadas a presentar las bases del uso y configuración del shell (terminal) para que se sientan cómodos y eficientes trabajando en en sistemas UNIX/Linux. En cualquier caso les recomendamos mucho estudiar este tutorial de introducción al biocómputo y consultar alguno de los tutoriales listados en las pestañas de la cabecera de la página, acorde a sus conocimientos previos. Para los que empiezan, remomendamos este tutorial de introducción a UNIX/Linux.
¿Necesito llevar mi computadora?
Sí, es necesario traer tu laptop con tarjeta de red inalábrica. Si es una máquina Windows, deberán instalar PuTTY y WinSCP para poderse loguear al servidor usando el protocolo ssh (secure shell) y transferir datos entre sus máquinas y el servidor usando scp ("secure copy"). Les recomendamos leer este turorial de SSH para Windows, en el que se explica muy bien el uso e instalación de PuTTY y WinSCP.
Mi compu corre Windows. ¿Debo instalar Linux?
No, aunque sería muy recomendable hacerlo si tienes una máquina Windows (recomendamos Ubuntu 12.04 LTS o Ubuntu 13.04. Tiene incluso un instalador para Windows que hace trivial la instalación o desinstalación de Ubuntu de máquinas Windows. Ubuntu se instala en otra partición, dejando intacto tu Windows, como se explica en la liga anterior). El trabajo en biocómputo se hace esencialmente en el ambiente UNIX/Linux, como se describe en este artículo de PLoS Computational Biology titulado A Quick Guide for Developing Effective Bioinformatics Programming Skills.
Conexión a servidores UNIX/Linux desde windows
Pueden instalar PuTTY en su máquina windows para conectarse a un servidor UNIX/Linux mediante el protocolo ssh. Para mover archivos entre máquinas Windows y UNIX/Linux, recomendamos WinSCP. Si vas a instalar estos programas, recomendamos leer 10 awesome PuTTY tricks, improving PuTTY settings on Windows y PuTTY FAQ
Pues yo tengo una MAC, ¿Debo instalar Linux?
No! Tal vez no lo sepas, pero el sistema operativo MAC OS X es Unix, derivado de BSD! Solo tienes que abrir la terminal y tendrás acceso directo a todas las utilerías de Unix, incluyendo Perl.
Ups, no encuentro la terminal en mi MAC, ¿dónde está?
1. en Finder, del menú Go, busca Utilities -> Terminal. 2. Si no lo encuentras, tienes que instalar el paquete de "Developer Tools", que encontrarás en /Applications/Installers/Developer Tools/Developer.mpkg. Pueden ver este tutoral en YouTube
¿Dónde está ubicado el CCG?
Puedes consultar este mapa de baja resolución, o busca "Center for Genomic Sciences UNAM" en GoogleMaps
¿Qué más recomiendan ir estudiando para llegar bien preparados al curso?
Sin duda algo esencial es saber usar bien un editor de texto potente para programar. El editor por excelencia en el ambiente Linux/UNIX es vim. Pueden ver un breve tutorial aquí o un tutorial ineractivo. Otra opción conveniente es el editor gráfico nedit.
Además recomendamos estudiar un poco de R: The R Project for Statistical Computing El sitio contiene muy buenos tutoriales de introducción a R. El proyecto Bioconductor tiene como misión proveer de código R para análisis estadístico y gráfico de datos genómicos masivos como los producidos por diversas tecnologías de NGS.

Anuncios

Primera clase el viernes 31 de Enero
El curso inicia el viernes 31 de Enero en el lugar y hora arriba indicados.