miércoles, 2 de septiembre de 2009

Estadística médica sin dolor. 3: correlación y regresión

A modo de breve resumen de lo presentado en el mini-curso en la Facultad de Medicina, UBA:

Con frecuencia, los investigadores utilizan una presentación gráfica para comunicar sus resultados. Definir una "curva" en un diagrama de coordenadas cartesianas (eje vertical o de ordenadas: y; eje horizontal o de abscisas: x) requiere unir los puntos. ¿Cómo? Hay herramientas estadísticas para analizar si a un incremento en la variable x corresponde un incremento (o decremento) de la variable y. Este análisis se llama estudio de correlación. Los supuestos básicos son: que ambas variables x e y tienen una distribución gaussiana (lo cual no siempre sucede en Biología o Medicina), y que no importa si los cambios tienen sentido positivo (crecimiento de una variable) o negativo (decremento), sino "si al cambiar una variable, cambia también la otra" - en el sentido que fuere.
La correlación puede ser lineal (los puntos quedan más o menos alineados sobre una recta) o curvilínea (en campana, exponencial, potencial, etc). Hoy consideraremos solamente la correlación lineal.
Así, se calcula un parámetro r, que indica si hay correlación. El valor de r puede fluctuar entre - 1.00 (perfecta correlación, con valores decrecientes de y al incrementarse x, por lo que r tiene valor negativo) hasta + 1.00 (perfecta correlación, con valores de y que incrementan al incrementarse x). En líneas generales, valores de r de 0.90 (positivo o negativo) indican muy buena correlación. Un análisis adicional estima "cuánta" correlación hay, en base al cálculo de r2 (r cuadrado). Este parámetro estima qué proporción de la "fluctuación" o "variabilidad" de y puede explicarse por la fluctuación o variabilidad de x. R2 (r cuadrado) puede valer entre 0.00 y 1.00 (no puede adquirir valores negativos).
El análisis de correlación "está indicado" cuando se desea examinar si una variable gaussiana, aleatoria, se modifica al modificarse otra variable, y es muy útil como exploración preliminar en estudios epidemiológicos: el número de nacidos vivos versus la probabilidad de desarrollar litiasis biliar; el número de cigarrillos fumados versus un indicador espirométrico de función pulmonar, o la probabilidad de desarrollar enfisema, temperatura corporal versus frecuencia cardíaca, etc.
Cabe aclarar que la presencia de correlación no permite inferir causalidad.

En realidad, cuando el investigador selecciona experimentalmente los valores de x (ej, dosis de un fármaco), o cuando x no fuese una variable gaussiana, se comete un error al utilizar el análisis de correlación, y corresponde un análisis de regresión. En éste, se examina si los puntos de la gráfica pueden asimilarse a una ecuación lineal (ecuación de la recta), y cuál sería la ecuación (en el formato: y = a. bx). El cálculo estima la ecuación de la recta, de modo que la dispersión (en sentido vertical) se minimice. Esto se expresa como "cuadrados mínimos", indicando que esa dispersión o diferencia (elevada al cuadrado para remover el signo) se lleva a su menor expresión con la recta elegida.
Nuevamente, este análisis no establece causalidad.

Para eventos binarios (supervivencia; intervalo libre de recaída, etc), se adapta el método conocido como Kaplan Meier, y se realiza un análisis de Cox. Por lo expresado, el análisis de regresión binario de Cox es muy adecuado para evaluar un riesgo binario en el tiempo, como en el caso de las curvas de supervivencia. Cada paciente contribuye al seguimiento por el tiempo que permanece bajo observación, de modo que la "cola" de la curva tiene mucho mayor margen de error.

Cordialmente,
Pedro Politi

2 comentarios:

  1. Estaba esperando esta última edición.

    Entonces, por qué un alumno de medicina querría conocer estos conceptos?

    Y yo como alumno te diría que (entre otras cosas)...

    -porque permite conocer la razón por la cual meterse con las "colas de los gráficos" puede ser un problema si uno intenta establecer conclusiones. A la inversa sucede cuando escucha a alguien sacar conclusiones de ese tipo... entonces vos ya lo mirás cruzado...

    -porque permite saber cual es límite de hacer un análisis de subgrupo. O sea que a mi nadie me venga con que en un subgrupo se vió una reducción de tal evento, etc... todo muy lindo, pero si queres probar tu hipótesis... hacete un nuevo ensayo doble ciego, randomizado, bien diseñado y todos los chiches y recién ahí hablamos.

    -porque para analizar un ensayo, uno debe conocer los valores a calcular y qué significan. Un ejemplo paradigma de esto es un ensayo en mujeres sobre AAS donde el NNH (number needed to harm) supera al NNT (number needed to treat) entonces... saber cual es la implicancia de eso, es de mucho valor.

    -porque permite, basicamente, tener una idea como si fue un "behind the scenes" de los grandes ensayos clínicos en la medicina y muchas otras cosas en donde la estadística también está metida.

    En síntesis, "saber es poder", y ésta es una herramienta muy poderosa.

    Saludos y gracias por la actualización.

    ResponderEliminar
  2. Este comentario ha sido eliminado por un administrador del blog.

    ResponderEliminar