Pablo's research and teaching areas R logo

Cursos de bioinformática en el CCG

Página informativa del curso

Presentación
Con el fin de racionalizar y eficientizar el uso de recursos humanos e instalaciones en el Campus Morelos de la UNAM, hemos organizado este curso de doctorado de manera conjunta para los Programas de Doctorado en Ciencias Bioquímicas (PDCBioq) y Biomédicas (PDCBiomed) de la Universidad Nacional Autónoma de México. Puedes descargar desde aquí la convocatoria oficial del tópico. Planeamos impartir este curso de manera regular cada semestre impar, en alternancia con nuestro curso complementario de Introducción a la Bioinformática.
Justifiación
Una tendencia actual en las ciencias de la vida es la creciente incorporación de herramientas cuantitativas para mejorar el entendimiento de los fenómenos biológicos. Esta tendencia se está acelerando debido a la explosión de la cantidad de datos provenientes de tecnologías de alto rendimiento. En este contexto la estadística juega un papel central en el análisis e interpretación de los datos en tópicos muy diversos como lo son la filogenética, el ensamblaje de secuencias, análisis de expresión diferencial de genes, la búsqueda de elementos de regulación, el análisis de las relaciones genotipo-fenotipo, etc. Las herramientas estadísticas que presentaremos en este curso son de interés tanto para estudiantes y académicos en áreas de estudio fundamentalmente cuantitativas, como lo son la bioinformática y la biología de sistemas, y para experimentalistas en una gran variedad de áreas. El análisis adecuado de los datos por medio de herramientas estadísticas es crítico antes y después de llevar a cabo experimentos. Antes de los experimentos sirven para optimizar recursos y diseñar las pruebas tal que los resultados sean confiables. Después del proceso experimental, permiten llevar a cabo un adecuado análisis y modelado de los resultados. El lenguaje de programación R es una plataforma adecuada para el análisis de datos, siendo actualmente la herramienta más utilizada para este fin. Esto se debe primordialmente a que R es un software libre con una comunidad de usuarios muy activa en el desarrollo de paquetes tanto generales como específicos, bien documentados para llevar a cabo una gran cantidad de tareas, por ejemplo, anotación de genomas, filogenética, ecología, biología de sistemas, genómica, análisis de expresión diferencial, análisis de imágenes, etc. En este momento existen más de 5,000 de dichos paquetes, todos los cuales son fáciles de instalar desde el repositorio CRAN.
Objetivos
Lograr que los participantes resuman, describan y analicen a profundidad sus datos para adecuarlos a un modelo, poder realizar contrastes de hipótesis y representar correctamente la información obtenida a través de gráficos.
Profesores resposables
Profesores invitados
  • Esteban Peguero, IBT-UNAM
  • Carlos Daniel Vázquez, IBT-UNAM
  • Teresa Romero, IBT-UNAM
Coordinadora del curso
Teresa Romero, IBT-UNAM
Fechas, horario y lugar de celebración del curso
El curso se impartirá del 12 de Agosto al 2 de Diciembre de 2016, cada viernes, de 10:00-13:00 hrs en el auditorio del Centro de Ciencias Genómicas de la UNAM ver mapa.
Sitio web moodle del curso
Se abrirá una cuenta en un sitio moodle para los alumnos de doctorado formalmente registrados en el curso a través de sus respectivas entidades. Desde este sitio podrán acceder a todo el material didáctico del curso además de ser la plataforma para entregar tareas y calificarlas.
Requisitos
Es imprescindible traer tu laptop con tarjeta de red inalábrica y con R y RStudio instalados. R es un software multiplataforma que se instala fácilmente en diversos sistemas. Además, una vez instalado R, deberán instalar el paquete RStudio, un ambiente gráfico de desarrollo integrado muy amigable, que facilita mucho el trabajo con R. Revisa por favor la lista de preguntas frecuentes para más detalles, consejos y aclaraciones sobre el curso y sus requisitos.

Programa final


Sesión 1. Primeros pasos en R. (12 de agosto) Rosa María Gutiérrez
	1.1 Uso de R desde el ambiente RStudio
	1.2 Importación, exportación y manipulación de datos
	1.3 Funciones estándar de R
	1.4 CRAN, GitHub e instalación de paquetes (add-on)
	1.5 R markdown
	1.6 Conceptos básicos de estadística: Universo, Población, Muestra, Muestra aleatoria,
	 Variable
	1.7 Técnicas de muestreo
	1.8 Tipos de variable
		1.8.1 Variables continuas y discretas
		1.8.2 Variables categóricas

Sesión 2. Estructuras de datos en R y su relación con los tipos de variables estadísticas. (19 agosto) Rosa María Gutiérrez
	2.1 Vectores: una variable, varios individuos 
	2.2 Matrices: cuando relacionar individuos importa 
	2.3 Data frames: tomar todas las variables 
	2.4 Listas y conjuntos de datos complejos
	2.5 Subsetting

Sesión 3. Estadística descripitiva y análisis exploratorio de datos. (26 agosto) Enrique Merino
	3.1 Medidas de tendencia central
		3.1.1 Media aritmética, geométrica y ponderada
		3.1.2 Mediana
		3.1.3 Moda
	3.2 Medidas de dispersión
		3.2.1 Varianza
		3.2.2 Desviación estándar
		3.2.3 Rango
	3.3 Cálculo de las medidas de tendencia central en R en distintos tipos de estructuras
	       de datos: vectores, matrices y data frames
	3.4 La función summary 
	3.5 Análisis gráfico básico de los datos para detección de outliers y otros problemas

Sesión 4. Conceptos de probabilidad y distribuciones de probabilidad. (2 septiembre) Enrique Merino
	4.1 Espacios muestrales
	4.2 Eventos
	4.3 Propiedades de la probabilidad
	4.4 Número aleatorios en R
	4.4 Cálculo de probabilidades en R
	
Sesión 5. Distribuciones muestrales. (9 septiembre) Enrique Merino
	5.1. Distribución binomial
	5.2 Distribución normal
	5.3 Distribución hipergeométrica
	5.4 Distribución de Poisson
	5.5 Generación de distribuciones de probabilidad en R
	

Sesión 6. Estadística aplicada. (23 septiembre) Teresa Romero
	6.1 Estandarizacion
		6.1.1 Prueba z
	6.2 p-values y su interpretacion
	6.3 Significancia estadística
	6.4 Tamaño de la muestra
	6.5 Intervalo de confianza
		
Sesión 7. Pruebas estadísticas básicas (paraméticas y no paramétricas). (30 septiembre) Teresa Romero
	7.1 Pruebas paramétricas
		7.1.1 T student
			7.1.1.2 T student pareada
			7.1.1.3 T student muestras independientes
	7.2 Pruebas no paramétricas
		7.2.1 U de Mann Whitney
		7.2.2 Chi cuadrada
		7.2.3 Prueba exacta de Fisher
		7.2.4 Prueba de Wilkoxon

Sesión 8: Correlación en R: teoría y práctica. (14 octubre) Pablo Vinuesa.  Presentación web | PDF | HTML
	8.0 El concepto de correlación
	8.1 Varianza, covarianza y el coeficiente de correlación de Pearson
	8.2 Correlaciones parciales
	8.3 Supuestos del estadístico de correlación de Pearson r
	8.4 El coeficiente de correlación no paramétrico de Kendall (Tau)
	8.5 Significancia del coeficiente de correlación de Pearson
        8.6 Análisis de potencia del coeficiente de correlación
        8.7 El cuarteto de Anscombe y la importancia de visualizar las relaciones entre variables mediante gráficos de dispersión
        8.8 Correlaciones prácticas
          8.8.1 Funciones del paquete de base stats para el cálculo de la correlación y su significancia en R
	  8.8.2 Ejemplos de uso de los paquetes psych::corr.test(), corrplot::corrplot(), ggm::pcor.test(), pwr::pwr.r.test()
	8.9 Ejercicios propuestos
	8.10 Referencias

Sesión 9 Regresión lineal simple y regresión polinomial en R: teoría y práctica (21 octubre) Pablo Vinuesa. Presentación web | PDF | HTML
    9.1 Introducción: el concepto de regresión y tipos de regresión
    9.2 Regresión lineal simple
    9.3 Diagnóstico del modelo de regresión y validación de supuestos
    9.4 Transformación de datos y selección de modelos
    9.5 Regresión polinomial y determinación de desviaciones de relación de linearidad entre variables
    9.6 AIC: Selección de modelos mediante el criterio de información de Akaike
    9.7 Predicciones usando el modelo seleccionado
    9.8 Graficado de bandas e intervalos de confianza
    9.9 Ejercicios
    9.10 Referencias 



Sesión 10. Análisis exploratorio y estadística para datos categóricos. (21 octubre) Carlos Daniel Vázquez
	10.1 El paquete vcd para visualización de datos categóricos mediante mosaicos 

Sesión 11. Clustering jerárquico. (28 Octubre) Carlos Daniel Vázquez
        11.1 Clustering jerárquico y su representación gráfica utilizando funciones nativas de R y
                            otros paquetes

Sesión 12. Paquete ggplot. (4 Nov.) Esteban Peguero
	12.1 Introducción a ggplot y ejemplos básicos

Sesión 13. Paquete ggplot. Construir una gráfica capa por capa. (11 Nov.) Esteban Peguero
	13.1 La gramática de las gráficas

Sesión 14. Paquete ggplot. Herramientas básicas para la construcción de gráficas. (18 noviembre) Esteban Peguero
	14.1 Escalas, ejes y leyendas

Sesión 15. Paquete ggplot. Gráficas para publicación. (25 Nov.) Esteban Peguero
	15.1 Posicionamiento
	15.2 Manipulación de datos

Sesión 16. Integración de conceptos (2 diciembre) Esteban Peguero
	16.1 Análisis de datos y su representación gráfica

     

Preguntas frecuentes

¿Tengo que formalizar mi inscripción al curso, y cómo lo hago?
Primero contacten a alguno de los profesores responsables listados en la convocatoria oficial del tópico para preguntar si hay cupo disponible. Luego deberán de formalizar el registro del curso como la actividad académica del semestre en sus respectivas entidades de posgrado. Deberán traer constancia de registro de la actividad para que se les abra cuenta en el servidor, dar acceso al material didáctico y finalmente evaluar su actividad al final del semestre.
¿Habrá disponibilidad de videoconferencia?
NO. Experiencias anteriores han mostrado que los alumnos que tratan de tomar este tipo de cursos por videoconferencia no pueden aprovecharlo adecuadamente, quedando rezagados.
¿Necesito saber UNIX/Linux?
Es recomendable tener alguna experiencia previa de trabajo con el Shell de UNIX/Linux, pero no es necesario. Si puedes, aprende UNIX/Linux, ya que el trabajo en biocómputo se hace esencialmente en este ambiente, como se describe en este artículo de PLoS Computational Biology titulado A Quick Guide for Developing Effective Bioinformatics Programming Skills. En nuestro curso complementario de Introducción a la Bioinformática enseñamos Linux.
¿Necesito conocimientos previos de Perl, Python, R u otros lenguajes de programación?
No, se trata de un curso introductorio, pero para trabajar eficientemente en bioinformática será necesario, a la postre, poder programar al menos en algún lenguaje de scripting como Shell, Perl, Python o R. Les sugerimos mucho estudien alguno de los diversos tutoriales para principiantes que podrán encontrar en la web. Un buen punto de incio es: Turoriales de R en CRAN.
¿Necesito llevar mi computadora con R instalado?
Sí, es imprescindible traer tu laptop con tarjeta de red inalábrica y con R instalado. R es un software multiplataforma (funciona en todos los sistemas operativos), que se instala fácilmente en diversos sistemas. Descárgalo desde aquí. Además, una vez instalado R, deberán instalar el paquete RStudio, un ambiente gráfico de desarrollo integrado muy amigable, que facilita mucho el trabajo con R. Descárgalo desde aquí (versión desktop con licencia libre, primera columna de la tabla) y sigan las instrucciones oficiales, muy claras, de instalación. Si necesitan más ayuda, pueden encontrarla también en youtube. Recomendamos mucho revisar los tutoriales introductorios de RStudio essentials.
¿Dónde está ubicado el CCG?
Puedes consultar este mapa de baja resolución, o busca "Center for Genomic Sciences UNAM" en GoogleMaps

Anuncios

Sesión del 26 de Agosto de 2016 en aula 3 de la Licenciatura en Ciencias Genómicas (LCG)
El viernes 26 de Agosto el auditorio del CCG estará ocupado por otro evento, por lo que la clase del 26 de Agosto se impartirá en el aula 3 de la LCG. Para acceder a la LCG se entra por la entrada principal del CCG y en vez de girar a la izquierda para subir las escaleras del auditorio, siguen de frente, subiendo unas escaleras y luego una rampa, hasta que ven un ├írea con mesas y sombrillas, a la entrada de la LCG. Suban las escaleras a la primera planta. El salón es el del fondo.