Analicemos ahora las variables continuas, denominando así las que se expresan por valores numéricos, tienen un rango de valores, y siempre tienen un valor intermedio entre dos valores cualesquiera (hasta el límite de resolución o sensibilidad del test o aparato). Además, estas variables son aditivas: si peso 50 kg, y aumento 5 kg, paso a pesar (me guste o no) 55 kg.
En contraste, los puntajes (puntaje de Gleason para calificar una biopsia de cáncer de próstata en función de su diferenciación o agresividad; puntaje de estado funcional de Karnofsky en Oncología; clase de insuficiencia cardíaca según la NYHA: I, II, III, IV) no son aditivos, ni tienen puntos intermedios.
Lo primero a decidir al iniciar el análisis de los datos es si éstos se disponen al azar, en una distribución del tipo "campana de Gauss", o distribución gaussiana. La forma más simple es construir con ellos un histograma: un gráfico de barras que en ordenadas tiene la frecuencia de cada valor, y en abscisas, los valores medidos.
Si la distribución es gaussiana, o se aproxima a ella, puede realizarse una serie de suposiciones, entre ellas, la simetría alrededor de un valor central, la distribución aleatoria de los datos, y la pertinencia de ciertos modelos matemáticos para su análisis. Un ejemplo de distribución no-gaussiana se da en el perfil farmacogenético poblacional respecto del metabolismo del fármaco antituberculoso, isoniacida: hay metabolizadores rápidos y lentos.
Se indican diferentes tipos de tests de significación estadística para datos de distribución gaussiana y no-gaussiana. Por ejemplo, Chi cuadrado y el test de T de Student se aplican solamente a distribuciones gaussianas de los datos.
También debemos establecer si se trata de datos independientes (por ej, grupo A versus grupo B; tratamiento experimental versus control), o bien de datos apareados (el típico diseño: "antes versus después", en que cada paciente es su propio control).
Los datos apareados tienen la ventaja de requerir menos pacientes, pero computan el doble de observaciones, y lo que se analiza no es cada dato sino la diferencia entre el "antes" y el "después".
Examinemos ahora una curva de distribución gaussiana de los datos: tiene forma de campana. En ordenadas, la frecuencia y en abscisa, los valores. La campana es, por definición, simétrica, alrededor de un valor central (el promedio o media aritmética, denominado "la media"). Hay una dispersión de los datos, a valores mayores y menores que la media.
Los indicadores de dispersión son varios: el rango (mínimo-máximo), la varianza (expresa cuánto difieren los valores respecto de la media), el desvío estándar (es la raíz cuadrada de la varianza), y si tomáramos varias muestras y quisiéramos saber qué probabilidad tienen de representar a la misma población, la media de las muestras también tiende a disponerse en forma gaussiana, alrededor de la "verdadera" media poblacional, y por tanto, los valores hallados de la media tienen una dispersión que se denomina "error estándar de la media".
Otra medida de dispersión útil en Medicina es el coeficiente de variación, y se lo calcula como el cociente entre el desvío estándar / la media, todo eso multiplicado por 100. Se lo expresa como porcentaje. Si la media de latidos por minuto en una muestra es 78, con un desvío estándar de 9 latidos/min, entonces el CV será: 100 x 9 / 78 = 11.5 %.
Habiendo dos o más muestras, se puede calcular la "varianza pooled" o ponderada como la media ponderada de las varianzas. La "ponderación" se realiza multiplicando la varianza de cada muestra por el número de datos menos uno, y sumando los valores de todas las muestras.
Si tenemos ahora una serie de datos de hemoglobina de mujeres no embarazadas, y otra serie de resultados de hemoglobina, pero de mujeres embarazadas, podríamos preguntarnos si ambas series pertenecen a una misma población (es decir, no difieren más que por azar) o no. El test de T permite este análisis. En este caso, es una variable continua (hemoglobina) y grupos independientes. El test se plantea si las medias de cada grupo difieren entre sí en más de lo esperable por azar. En otras palabras, se plantea si la "verdadera" diferencia entre medias es cero. Por lo tanto, si las medias se distribuyen aleatoriamente, la varianza de la diferencia entre medias es la suma de varianzas en ambos grupos.
El test de Student calcula el valor de T como la diferencia entre medias de dos muestras independientes, dividido por el desvío estándar de la diferencia. Si ambas medias provienen de la misma población, el valor de T será pequeño (idealmente, cero). Luego se calcula la probabilidad P de que el valor hallado de T se deba al azar. Estos valores se hallan en tablas.
El test de T puede adaptarse a dos muestras de datos apareados. En este caso, lo que se computa es la diferencia antes-después. Así como en el caso de datos independientes examinamos si la diferencia de las medias es significativamente diferente de cero, en el test de T para datos apareados analizamos si la media de las diferencias es significativamente diferente de cero.
Habiendo programas de cálculo automatizado, lo más importante para el médico es saber cuándo usar este test (indicaciones) y cuándo no (contraindicaciones).
El test de T "está indicado"... para comparar dos grupos de datos de variables continuas, es decir, dos muestras. Deben tener distribución gaussiana.
El test de T "está contraindicado":
- si los datos no tienen distribución gaussiana (por ej, distribución binomial)
- si son puntajes, categorías, proporciones o preferencias (es decir, si no son variables continuas)
- si se trata de más de dos muestras o grupos. Utilizar el test de T en múltiples comparaciones en una serie de más de dos grupos o muestras introduce un gran error de cálculo que invalida los resultados del test. Para comparar más de dos grupos, se puede utilizar el análisis de varianza, que se explicará en otro momento.
Cordialmente,
Dr. Pedro Politi