Como sesgar los resultados de un ensayo clínico (1): Análisis de subgrupos.

Imagina que eres médico, y un día llega un paciente con depresión a tu consulta. Recuerdas que, casualmente, hace unas semanas leíste un estudio sobre un antidepresivo: la reboxetina. Como te gusta comprobar la eficacia de los medicamentos que prescribes, consultas algunas bases de datos y encuentras un estudio bien diseñado, imparcial y con resultados exageradamente positivos. Nada puede salir mal: la reboxetina, aprobada por la Medicines and Healthcare products Regulatory Agency (MHRA), es mejor que un placebo. Además, en otros tres estudios vimos que funcionaba igual de bien que otros antidepresivos.

Al cabo de unos años, te enteras de la publicación de un reciente estudio en la British Medical Journal en el que se muestra que en realidad no había un único estudio, sino siete: uno de los siete, el que leímos, fue publicado. Los otros seis, en los que no se encontraron diferencias con el placebo, no. También se analizaron los estudios publicados en los que se comparaba con otros antidepresivos. La sorpresa vino cuando los investigadores encontraron cinco estudios negativos sin publicar, en los cuales parecía que la reboxetina funcionaba ligeramente peor que los inhibidores selectivos de la recaptación de serotonina, que son los antidepresivos más recetados.

meta1

Así que, por el hecho de que no se hayan publicado todos los estudios realizados de la reboxetina, has recetado un medicamento a un paciente que funciona peor que los usados genéricamente. Pues bien, esta historia no es ficticia. Es una historia real, narrada en las charlas TED por Ben Goldacre, autor de MalaCiencia y MalaFarma. Hay subtítulos en castellano.

 

 

¿Y esto ocurre en general o solo con la reboxetina y algunos otros casos aislados? Tal y como narra Ben en la charla, unos investigadores tomaron todos los ensayos que se presentaron a la FDA para conseguir la autorización comercial de dichos fármacos y luego buscaron en la literatura académica para ver si habían sido publicados. En los registros de la FDA encontraron un total de 74: 38 con resultados positivos y 36 con resultados negativos. Luego, al buscar en la literatura académica, encontraron 37 de los 38 estudios publicados con resultados positivos, pero solo 3 de los 36 estudios con resultados negativos. Así que un médico que consulte la literatura académica está siendo, sin lugar a dudas, engañado.

Y es solo un ejemplo real del potencial daño que puede hacer el sesgo de publicación en el campo de la medicina. Si estuviésemos hablando de antitumorales, estaríamos matando, literalmente, a personas por no publicar todos los datos disponibles. La mala praxis científica (como la ocultación de estudios negativos)  o la falta de conocimientos en el campo de la estadística (como una malinterpretación de los análisis de subgrupos) pueden costar vidas humanas.

Para hacernos una pequeña idea de estos problemas, pretendo realizar una tirada de artículos en los que los iremos viendo en profundidad junto a los perjuicios que pueden causar y las posibles soluciones que han sido presentadas con tal de garantizar una medicina más fiable, más precisa, y en general, una medicina mejor.

 

Análisis de subgrupos: La aspirina funciona peor en las personas Géminis o Libra

Cuando se realiza un ensayo clínico es común dividir a los pacientes en varios grupos de riesgo una vez tenemos todos los datos crudos. Por ejemplo, si estudiamos la efectividad de la aspirina, podríamos, una vez tenemos todos los datos, ver si es efectiva o dañina en ancianos o diabéticos. Esta división es útil para comprobar si hay grupos de riesgo que merecen una atención especial y poder actuar de manera más óptima al recetar un fármaco. Podría ser que la aspirina funcionase peor en un diabético que en una persona no diabética, y los afectos secundarios superen el beneficio que aporta, por lo cual, si el médico conoce ese dato, le recetaría otro analgésico en el que el beneficio que aporte sea superior a los perjucios que pueda conllevar su toma. Tenemos varios ejemplos en la literatura académica de estas subdivisiones. Por ejemplo, en 1978, se publicó en The New England Journal of Medicine un estudio en el que se observó que la aspirina era efectiva en prevenir infartos de miocardios en mujeres (ataques de corazón), pero, al parecer, no lo era como prevención de ataques isquémicos (ictus de corta duración).  También se encontraron diferencias significativas entre pacientes diabéticos y no diabéticos. No obstante, este hallazgo no se sostiene con otro análisis realizado y publicado en 1977 y ambos estudios arrojan resultados contradictorios.

Otros estudios en los que se han observado subgrupos significativos, como los que pueden verse en la Tabla 1 (de Roberto Candia B., Solange Rivera, Ignacio Neumann. Análisis de subgrupos: «¿Mejoran la interpretación de los resultados o nos inducen al error?» Revista Medica Chile, 2012 vol: 140: 673-680, pueden consultarse las referencias dentro del artículo citado); han sido refutados de manera posterior o no se sostienen con las publicaciones académicas.

123

¿Cómo se explica que en la literatura académica se encuentren ensayos clínicos idénticos pero con resultados contradictorios? No es normal que cuando se replica un ensayo, se obtenga un resultado diferente. La clave de todo radica en una palabra que he mencionado: normal. Efectivamente, no es normal, pero tampoco es imposible. Generalmente, se acepta un 5 % de error (α=0.05) cuando se realiza un estudio. Dicho de otra manera, si replicamos un estudio cien veces, cinco de estas replicaciones nos darán resultados contradictorios con los 95 restantes.

El problema viene cuando un estudio quiere abarcar muchas cosas, como es el caso de uno publicado en 1988 en la revista The Lancet en el cual se estudió la eficacia de la aspirina por vía oral y la estreptoquinasa por vía intravenosa como medida de prevención para el infarto agudo de miocardio. En general, se descubrió que ambos medicamentos funcionan notablemente bien. El estudio abarcó el seguimiento de más de 17.000 personas con riesgo de infarto agudo de miocardio y una vez se recolectaron los datos, a petición de algunos revisores, se dividió el estudio en subgrupos para observar si habían grupos en los que hallar un mayor o menor potencial de prevención de dichas sustancias. Los investigadores añadieron un grupo más; un análisis según el signo zodiacal (un subgrupo estúpido) para mostrar el riesgo que supone dividir el estudio a posteriori. Se observó que en los pacientes que son Géminis o Libra la aspirina… ¡No funcionaba en absoluto! Lo cual no tiene ni pies ni cabeza pues el signo zodiacal no debería influir de ninguna manera. ¿Cómo se explica esto?

Muy sencillo. Cuando utilizamos un nivel de significación de α=0.05 (cinco de cada cien dan un falso positivo), tenemos que tener en cuenta que se aplica para cada subgrupo. Es decir, cada subgrupo que hacemos contiene una significación de α=0.05. Por lo que si hacemos un subgrupo (un único estudio que observa únicamente un parámetro), tenemos una probabilidad de errar de 1-(1-α)^1, es decir, un 5 %. Obvio. Pero si hacemos dos subgrupos… la probabilidad de encontrar un falso positivo es de 1-(1-α)^2, que es 9,75 %. Para tres subgrupos, la probabilidad de que alguno de ellos sea un falso positivo es del 14,26 %. Y en este estudio se han hecho ni más ni menos que ¡50 subgrupos! Donde la probabilidad de que alguno de ellos sea un falso positivo alcanza la friolera cifra de error de más del 92 %. Un noventa y dos por ciento. Un error escandaloso.

Ahora imagina que en lugar del signo zodiacal utilizamos un subgrupo más creíble como podría serlo el sobrepeso. El sobrepeso está relacionado con enfermedades cardiovasculares, por lo que si la aspirina, al utilizar ese subgrupo, no funciona (igual que hemos visto con las personas que son Géminis o Libra), resulta que estaríamos poniendo en riesgo la vida de bastantes personas al no recetarles el fármaco. Es por ese motivo que hay que tener mucho cuidado con los análisis de subgrupos e interpretarlos correctamente para evitar este tipo de sesgos.

 

¿Qué hacer cuando vemos varios subgrupos?

La evidencia científica en el campo de la medicina no es un resultado positivo de un ensayo clínico o un metanálisis en el cual aparece una leve correlación, sino un continuo de evidencia coherente tanto consigo mismo como con el resto de áreas científicas. Es por ello que hay que ir con cuidado con la interpretación de los subgrupos en ensayos clínicos por varios motivos.

  • Al existir un riesgo potencial de falso positivo en algún subgrupo nos doblega a ser cautelosos con los resultados y no precipitarnos con conclusiones definitivas. Y debemos ser más escépticos mientras más subgrupos haya.
  • Los subgrupos que se han establecidos a priori (antes de recopilar los datos) posiblemente tengan un índice menor de sesgo que no aquellos que han sido establecidos a posteriori del estudio. Si el estudio fuese sobre la probabilidad de obtener cara en una tirada al aire de una moneda durante varias semana podríamos ver un repunte en los martes que nos induzca a comprobar si dicho repunte es significativo o no. Así pues, es más fácil caer en error con subgrupos a posteriori que no a priori.
  • Se recomienda que el número de subgrupos sea lo más útil y reducido posible, estudiando únicamente aquellas variables biológicas que sean pausibles.
  • Los subgrupos deben tener carácter de generadores de hipótesis y no un carácter conclusivo. Es decir, deben utilizarse como método de tanteo, y si se sospecha de que un resultado significativo de un subgrupo puede ser correcto, se requiere ahondar en él investigando.

En general, un análisis de subgrupo nos ofrece información útil y valiosa pero ha de ser interpretado con cautela debido a que pierde potencia estadística a medida que aumentamos el número de grupos. Actualmente existen herramientas estadísticas que nos pueden ayudar a, al menos, hacernos una idea de qué tan fiable es el análisis de subgrupos de un estudio, llamados test de interacción, pero eso no nos exime de interpretarlos correctamente. Así que, ojo con los subgrupos, porque que algo sea estadísticamente significativo no quiere decir que sea cierto. La suerte es muy traicionera.

Referencias

Eyding D., Lelgemann, M., Grouven, U., Harter, M., Kromp, M., Kaiser, T. et al, «Reboxetine for acute treatment of major depression: systematic review and meta-analysis of published and unpublished placebo and selective serotonin reuptake inhibitor controlled trials», British Medical Journal, 2010 vol: 341,  c4737

Erick H. Turner, M.D., Annette M. Matthews, M.D., Eftihia Linardatos, B.S., Robert A. Tell, L.C.S.W., and Robert Rosenthal, Ph.D. «Selective Publication of Antidepressant Trials and Its Influence on Apparent Efficacy», The New England Journal of Medicine, 2008 vol: 358 (3) : 252-260

The Canadian Cooperative Study Group. «A randomized trial of aspirin and sulfinpyrazone in threatened stroke». The New England Journal of Medicine, 1978 vol: 299 (2): 53-59

Roberto Candia B., Solange Rivera, Ignacio Neumann. Análisis de subgrupos: «¿Mejoran la interpretación de los resultados o nos inducen al error?» Revista Medica Chile, 2012 vol: 140: 673-680

ISIS -2 (Second International Study of Infarct Survival) Collaborative Group. «Randomised trial of intravenous streptokinase, oral aspirin, both or neither among. 17 187 cases of suspected acute myocardial infarction: ISIS-2.» The Lancet, 1988 vol: 2 (8607): 349-360

Brookes ST, Whitley E, Peters TJ, Mulheran PA, Egger M, Davey Smith G. Subgroup analyses in randomised controlled trials: quantifying the risks of false-positives and false-negatives. Health Technol Assess, 2001 vol: 5 (33): 1-56.

 

The following two tabs change content below.

Adrián Gómez

Estudiante de química en la Universidad de Barcelona. No sabe por qué pero le atrae todo lo que implique sesgos y pseudociencia. Curiosamente escéptico y escépticamente curioso. Enamorado de Tim Minchin.

Sobre Adrián Gómez

Estudiante de química en la Universidad de Barcelona. No sabe por qué pero le atrae todo lo que implique sesgos y pseudociencia. Curiosamente escéptico y escépticamente curioso. Enamorado de Tim Minchin.
Añadir a favoritos el permalink.