Tema8: correlación: teoría y práctica

Pablo Vinuesa, CCG-UNAM. http://www.ccg.unam.mx/~vinuesa/
14 de Octubre de 2016

Presentación

Este tema es parte del Curso Fundamental de Posgrado: Análisis Estadístico en Ciencias Biológicas Utilizando R, semestre 2017-1, de la Universidad Nacional Autónoma de México, impartido entre Agosto-Diciembre 2016 en el Centro de Ciencias Genómicas. Para más información consultar la página del curso en: http://www.ccg.unam.mx/~vinuesa/R4biosciences/.

  • La parte teórica del tema de correlación está basada en (Crawley 2015), (Everitt and Hothorn 2014) y (A. P. Field, Miles, and Field 2012).

  • Esta presentación es un resumen del capítulo de correlación escrito para este curso, el cual está accesible en formato PDF desde esta URL: http://www.ccg.unam.mx/~vinuesa/R4biosciences/docs/Tema8_correlacion.pdf

  • El código está en: http://www.ccg.unam.mx/~vinuesa/R4biosciences/docs/Tema8_correlacion.R

  • Este documento está aún en construcción y es generado con R (R Core Team 2016), rstudio (RStudio Team 2016), knitr (Xie 2016), rmarkdown (Allaire et al. 2016), pandoc (MacFerlane 2016) y LaTeX.

  • Usa CTRL+/CTRL- para ajustar tamaño a tu pantalla. Avanza/retrocede con las flechas.

1. Contenidos

1. Correlación: teoría

1.1 Introducción: el concepto de correlación  

1.2 Definiciones formales  
    1.2.1 varianza (s2)
    1.2.2 covarianza cov(x,y)
      1.2.2.1 Cálculo “a mano” de la covarianza de dos variables
      1.2.2.2 Cálculo en R de las medias y desviaciones para cada variable, 
              así como el coeficiente de covariación  

    1.2.3 El coeficiente de correlación de Pearson r (coef. de covariación 
          estandarizado)
      1.2.3.1 Cálculo del coeficiente de correlación de Pearson en R
      1.2.3.2 Correlaciones parciales

    1.2.4 Supuestos hechos por el estadístico de correlación de Pearson r
    1.2.5 El coeficiente de correlación no paramétrico de Kendall τ
    1.2.6 El coeficiente de determinación R2  

1. Contenidos -- cont.

1. Correlación: teoría -- cont.

1.3 Significancia del coeficiente de correlación (r)
    1.3.1 Cálculo de la significancia de r usando z−scores
    1.3.2 Cálculo de la significancia de r mediante el estadístico-t y la funcion
          cor.test()
    1.3.3 Análisis de potencia y significancia estadística de r  

1.4 La importancia de visualizar gráficamente los datos antes de someterlos 
    a análisis de correlación: lecciones del cuarteto de Anscombe  

    1.4.1 Código para generar las gráficas y estadísticas del cuarteto de 
          Anscombe
    1.4.2 Discusión sobre los resultados de las gráficas y análisis estadís-
          tico del cuarteto de Anscombe  

1.5 Resumen de conceptos clave  

Introducción: el concepto de correlación

Correlación: medida de la relación (covariación) lineal entre dos variables cuantitativas contínuas (x, y).

La manera más sencilla de saber si dos variables están correlacionadas es determinar si co-varían (varían conjuntamente).

La covariación no implica necesariamente causalidad, la correlación puede ser fortuita, como en el caso clásico de la correlación entre entre el número de venta de helados e incendios, debido al efecto de una tercera variable, la temperatura ambiental.

La correlación es en esencia una medida normalizada de asociación o covariación lineal entre dos variables.

El índice de correlación \( r \) puede variar entre -1 y +1, ambos extremos indicando correlaciones perfectas, negativa y positiva respectivamente.

Un valor de \( r \) = 0 indica que no existe relación lineal entre las dos variables.

Una correlación positiva indica que ambas variables varían en el mismo sentido.

Una correlación negativa significa que ambas variables varían en sentidos opuestos.

Lo interesante del índice de correlación es que \( r \) es en sí mismo una medida del tamaño del efecto, que suele interpretarse de la siguiente manera:

  • correlación despreciable: \( r \) < |0.1|
  • correlación baja: |0.1| < \( r \) <= |0.3|
  • correlación mediana : |0.3| < \( r \) <= |0.5|
  • correlación fuerte o alta: \( r \) > |0.5|

Introducción: el concepto de correlación -- cont.

Correlaciones entre pares de variables del set state.x77 (paquete base \( datasets \)). Usa \( help("state.x77") \) para más información sobre los datos.

En las Figs. C-D, se muestran los gráficos de dispersión (“scatterplots”), y rectas de regresión correspondientes al ajuste de un modelo lineal a los datos, para visualizar mejor la desviación de los puntos con respecto al modelo lineal.

¿Qué pares de variables presentan correlación positiva, negativa, y despreciable?

¿Qué puedes comentar sobre el grado de la correlación en cada caso?

plot of chunk unnamed-chunk-1

2. Definiciones formales

La correlación se define en términos de la varianza (\( s^2 \)) de las variables \( x \) e \( y \), así como de la covarianza \( cov \) de x,y. Es por tanto una medida de la variación conjunta de ambas variables (\( cov(x,y) \)).

varianza \( (s^2) \)

La varianza de una muestra representa el promedio de la desviación de los datos con respecto a la media

\[ \displaystyle Varianza: (s^2) = \frac{\sum(x_i-\bar{x})^2} {N-1} = \frac{\sum(x_i-\bar{x})(xi-\bar{x})} {N-1}\\ \]

covarianza \( cov(x,y) \)

La covarianza entre dos variables \( x \) e \( y \) es una medida de la relación “promedio” entre éstas. Es la desviación promedio del producto cruzado entre ellas con \( N-1 \) grados de libertad:

\[ \displaystyle cov(x,y) = \frac{\sum(x_i-\bar{x})(yi-\bar{y})} {N-1}\\ \]

Covariación entre dos variables

Ejemplo de dos variables que co-varían:

(respuesta ~ dosis en 5 pacientes).

Los datos:

dosis=(8,9,10,13,15);

resp=(5,4,4,6,8);

  • Un valor de covarianza positivo indica que ambas variables de desvían de la media en la misma dirección
  • uno negativo indica que las desviaciones acontecen en sentidos opuestos.

plot of chunk chunk1

Covariación entre dos variables -- cont.

Cálculo “a mano” de la covarianza de dos variables

Los datos:

dosis=(8,9,10,13,15);

resp=(5,4,4,6,8);

\( \displaystyle cov(dosis,resp)= \frac{\sum(x_i-\bar{x})(yi-\bar{y})}{N-1} = \\ \frac{(-0.4)(-3)+(-1.4)(-2)+(-1.4)(-1)+(0.6)(2)+(2.6)(4)}{4}= \frac{17}{4}=4.25\\ \)

Un valor de covarianza positivo indica que ambas variables de desvían de la media en la misma dirección, mientras que uno negativo indica que las desviaciones acontecen en sentidos opuestos.

Covariación entre dos variables -- cont.

Cálculo en R de las medias y desviaciones para cada variable, así como el coeficiente de covariación

# genermos los vectores dosis y resp
dosis <- c(5,4,4,6,8)
resp <- c(8,9,10,13,15)
# calculemos la dosis y respuesta medias
dosis.mean <- mean(dosis); resp.mean <- mean(resp);  
cat("dosis media =", dosis.mean, "; resp.mean =", resp.mean)
dosis media = 5.4 ; resp.mean = 11
# cálculo de las desviaciones de cada dosis y respuesa con respecto a sus  
# valores promedio
dosis.dev <- dosis - mean(dosis); resp.dev <- resp - mean(resp);  
cat("dosis.dev =", dosis.dev, "; resp.dev =", resp.dev)
dosis.dev = -0.4 -1.4 -1.4 0.6 2.6 ; resp.dev = -3 -2 -1 2 4
# Cálculo del coef. de covariación
Covar <- sum((dosis.dev)*(resp.dev))/(length(dosis)-1); cat("cov =", Covar)
cov = 4.25
# cálculo de la covariación entre dosis y respuesta con cov(x,y)
cov(dosis,resp)
[1] 4.25

Definiciones -- cont.

El coeficiente de correlación de Pearson r (coef. de covariación estandarizado)

El problema de usar la covarianza como medida de relación entre variables estriba en que depende de la escala de las medidas usadas. Es decir, la covarianza no es una medida estandarizada. Por tanto la covarianza no puede ser usada para comparar las relaciones entre variables medidas en diferentes unidades.

Para resolver el problema de dependencia de la escala o unidades de las mediciones (valores), necesitamos una unidad a la cual pueda convertirse cualquier medida. Esta unidad de medida libre de escala es la desviación estándar (s ó \( \sigma \)). Al igual que la varianza, mide la desviación promedio de los datos con respecto a la media aritmética por no ser otra cosa que la \( \sqrt{varianza} \) ó \( \sqrt{s^2} \). Al dividir cualquier distancia de la media por la desviación estándar, obtendremos una distancia en unidades de desviación estándar.

Por tanto, para normalizar la covarianza la tenemos que dividir por la desviación estándar. Como la covarianza se calcula para dos variables cov(x,y), tenemos que calcular la desviación estándar para cada variable, multiplicándolas entre ellas, es decir:

\[ \displaystyle \text{Coef. de correlación de Pearson} (r) = \frac{cov(x,y)} {s_xs_y} =\frac{\sum(x_i-\bar{x})(yi-\bar{y})} {(N-1)s_xs_y}\\ \]

Definiciones -- cont.

Cálculo del coeficiente de correlación de Pearson en R

\[ \displaystyle \text{Coef. de correlación de Pearson} (r) = \frac{cov(x,y)} {s_xs_y} =\frac{\sum(x_i-\bar{x})(yi-\bar{y})} {(N-1)s_xs_y}\\ \]

# Calculemos r usando la fórmula de r mostrada arriba
cor.dosis.resp <- round(cov(dosis,resp)/(sd(resp)*sd(dosis)), 2)
cat("r(dosis,respuesta) =", cor.dosis.resp)
r(dosis,respuesta) = 0.87
# Comprobemos el resultado con la función cor() de R
round(cor(dosis,resp), 2)
[1] 0.87

Nota: los coeficientes de correlación se redondean por lo general a dos decimales, por lo que hemos usado la función \( round(x, 2) \).

Definiciones -- cont.

Correlaciones parciales

Permiten evaluar la correlación entre dos variables (Var.1 y Var.2) considerando el efecto (varianza) de una tercera (Var.3) o más variables.

Eliminando la varianza compartida por las variables de interés con la o las variables auxiliares, obtenemos una medida de \( r \) que refleja los efectos de las variables de interés primario.

En R podemos hacer análisis de correlación parcial usando la función \( pcor() \) del paquete \( ggm \). Veremos en la prática el uso de las funciones \( ggm::pcor() \) y \( ggm::cpor.test() \).