Ensayos
clínicos: por qué casi todos los resultados publicados son falsos
[Versión para
imprimir]
Artículo original: Ioannidis JP.
Why most published research findings are false. PLoS Med 2005; 2:
e124. [Resumen]
[Artículos
relacionados] [Texto
completo]
El número de artículos de investigación publicados en las
revistas médicas es enorme, y sigue creciendo a un fuerte ritmo. Existe
evidencia empírica de que los estudios que arrojan resultados “negativos” se
publican menos a menudo y con más retraso que los que producen resultados
“positivos”. Esta práctica, corresponsabilidad de autores, editores e
industria farmacéutica, perjudica los intereses de los pacientes, y desde
esta óptica se ha recomendado que se de prioridad a la publicación de los
estudios con resultados negativos, que tienen una indudable utilidad para
salvaguardar la salud de los ciudadanos y ahorrar grandes sumas de dinero, y
que se haga un escrutinio muy cuidadoso de los estudios con resultados
positivos, por cuanto éstos pueden no ser veraces y conducir así a prácticas
médicas erróneas.
Habitualmente consideramos a los estudios publicados que
presentan resultados "positivos" (a favor de la eficacia de un determinado
tratamiento) como concluyentes; sin embargo, no es infrecuente que estudios
posteriores contradigan esos resultados, creando un clima de nihilismo e
incredulidad que en nada beneficia ni a la investigación ni a la práctica
médica.
Ioannidis ha publicado recientemente un ensayo en el que
argumenta algo que a primera vista pudiera parecer sorprendente: la
mayoría de los resultados positivos de la investigación médica son falsos.
Se trata no de un hallazgo empírico, ya que en cada estudio individual es
difícil si no imposible comprobar la veracidad de sus hallazgos, si no es
a posteriori, sino de un razonamiento deductivo expresado en
formulaciones matemáticas sencillas.
La “significación estadística”, arbitrariamente fijada
por lo general en un valor de P < 0,05, no implica la veracidad de los
resultados de un estudio de investigación. El valor de P mide la
probabilidad de que las diferencias encontradas se deban al azar. Si la P es
suficientemente pequeña, se asume que las diferencias es improbable que sean
debidas al azar, pero nada más. Sin embargo, que las diferencias encontradas
no se deban al azar no significa necesariamente que se deban a la
intervención realizada por los investigadores, sino que pueden ser debidas a
otros factores que tienen una influencia mayor en uno de los grupos
estudiados. La significación estadística, por tanto, se debe interpretar
siempre a la luz de la calidad del diseño y la realización del estudio, que
elimine la posible existencia de sesgos, y a un correcto análisis de los
datos.
Otra limitación de la “significación estadística” es la
multiplicidad de pruebas de significación, en análisis intermedios, análisis
de subgrupos, o comprobación de múltiples hipótesis en un único estudio, que
hacen que la probabilidad de encontrar por azar un resultado positivo no sea
en realidad el valor nominal de la P, sino mucho mayor. En los análisis
intermedios se deben emplear correcciones a la baja, de manera que se deben
considerar significativos solo valores de P bastante menores de 0,05. En
análisis de subgrupos, no se deben realizar pruebas de significación
estadística convencionales, sino análisis de homogeneidad de los subgrupos.
Cualquier resultado positivo de análisis de subgrupos o de desenlaces
considerados secundarios en el diseño del estudio, deben considerarse como
hallazgos generadores de hipótesis, que deben confirmarse en estudios
posteriores, y nunca como resultados "positivos".
La potencia del estudio, que depende del tamaño muestral
(el número de individuos estudiados) es uno de los principales determinantes
de la significación estadística, de manera que cuando el estudio incluye
pocos pacientes debe haber grandes diferencias entre los grupos estudiados
para alcanzar la significación, mientras que cuando el número es
suficientemente grande, las diferencias, por pequeñas que sean, alcanzan
significación estadística, aún cuando la magnitud del efecto (“effect
size”) sea pequeña, por lo que no es sinónimo de relevancia clínica.
Esto ocurre por ejemplo en los megaensayos de cardiología, donde se incluyen
a menudo decenas de miles de pacientes, en los que se encuentran pequeñas
diferencias a favor de un tratamiento en la ocurrencia de un desenlace
compuesto por la suma de varios desenlaces individuales, que alcanzan
significación en el desenlace compuesto pero son dudosamente relevantes.
Sin embargo, como Ioannidis hace lúcidamente notar, la
probabilidad de que los resultados de un estudio sean ciertos depende no
solo de la magnitud del efecto, la significación estadística y la potencia
del estudio, sino también de un factor habitualmente olvidado, que es la
probabilidad previa de que dichos resultados sean ciertos. La probabilidad
previa depende de cada campo de investigación, y suele ser baja; sabemos por
el teorema de Bayes que si la probabilidad previa es baja, incluso con un
resultado positivo es improbable que los resultados de un estudio sean
ciertos. La probabilidad previa depende de la plausibilidad biológica de la
hipótesis de investigación, apoyada por datos de la investigación básica,
por datos epidemiológicos sólidos, por datos experimentales preliminares y,
sobretodo, por resultados de investigaciones previas realizadas con
solvencia metodológica. En muchos casos estos elementos son inexistentes, y
una probabilidad previa baja cuestiona cualquier resultado "positivo" de un
ensayo clínico.
Además de los anteriores existen otros dos factores, que
a menudo no son suficientemente apreciados y que cuando están presentes
comprometen en gran medida la credibilidad de los hallazgos "positivos" de
la investigación: la presencia de sesgos y la repetición de los estudios.
Los sesgos son errores sistemáticos introducidos por los investigadores en
la fase de diseño o en cualquiera de las fases posteriores del estudio, que
alteran (falsean) los resultados. La publicación selectiva de la que
hablábamos al principio del artículo es un tipo de sesgo: el sesgo de
publicación, pero hay otros muchos, como la ausencia de cegamiento o
aleatorización.
Por último, existe otro factor que hace aún más
improbable la veracidad de los resultados positivos de un estudio de
investigación: la multiplicidad de estudios. Cuando un tratamiento se prueba
en múltiples ocasiones, la probabilidad de que una de ellas resulte positiva
por azar es elevada. Esto ocurre a menudo en los campos “calientes” de la
investigación, en los que son muchos los grupos que estudian simultáneamente
cuestiones similares, en una carrera por encontrar cuanto antes resultados
positivos.
Factores que influyen en la veracidad de un resultado
positivo:
En la práctica no resulta fácil calcular matemáticamente
la probabilidad de que un resultado positivo sea falso, pero es útil tener
en cuenta las siguientes generalizaciones, enumeradas por Ioannidis:
-
Cuanto menor sea el tamaño del estudio (número
de individuos incluidos), más probable es que sus resultados sean falsos.
-
Cuanto menores son las diferencias encontradas entre
los grupos que se comparan (la magnitud del efecto), más probable
es que esas diferencias sean falsas.
-
Cuanto mayor sea el número de resultados
investigado en un estudio, más probable es que las diferencias entontradas
en alguno(s) de ellos sean falsas.
-
Cuanto menos rígidos sean el diseño, las
definiciones empleadas, los resultados estudiados y el análisis realizado,
más probable es que sus resultados sean falsos.
-
Cuanto mayores sean los intereses existentes en
un determinado campo, más probable es que sus resultados sean falsos. Esto
incluye no solo los intereses económicos, sino también los prejuicios de
los investigadores y de las asociaciones científicas.
-
Cuanto más actual sea un campo científico, más
probable es que los hallazgos sean falsos.
El autor aboga por el cumplimiento estricto de las normas
existentes para la conducción, análisis y publicación de los ensayos
clínicos, así como por la revisión sistemática de toda la investigación
realizada en un determinado campo, en vez de fiarse en los resultados de una
única investigación. Los grandes estudios deberían reservarse para
cuestiones relevantes, donde se prevea encontrar un beneficio importante
para una porción importante de la población, después de un riguroso proceso
de investigación básica y/o observacional, de manera que la probabilidad
previa de encontrar resultados positivos con el estudio final sea elevada:
esto no solo evitará perder recursos valiosos y escasos, sino también,
permitirá considerar los resultados obtenidos como válidos.
Enlaces:
-
Wacholder S, Chanock S, Garcia-Closas M, El ghormli L,
Rothman N. Assessing the probability that a positive report is false: An
approach for molecular epidemiology studies. J Natl Cancer Inst 2004; 96:
434-442. [Resumen]
[Artículos
relacionados] [Texto
completo]
-
Bhandari M, Montori VM, Schemitsch EH. The undue
influence of significant p-values on the perceived importance of study
results. Acta Orthop 2005; 76: 291-295. [Resumen]
[Artículos
relacionados] [Texto
completo]
-
Chan AW, Hrobjartsson A, Haahr MT, Gotzsche PC, Altman
DG. Empirical evidence for selective reporting of outcomes in randomized
trials: Comparison of protocols to published articles. JAMA 2004; 291:
2457–2465. [Resumen]
[Artículos
relacionados] [Texto
completo (registro gratuito)]
-
Ioannidis JP, Trikalinos TA. Early extreme
contradictory estimates may appear in published research: The Proteus
phenomenon in molecular genetics research and randomized trials. J Clin
Epidemiol 2005; 58: 543–549. [Resumen]
[Artículos
relacionados]
-
Ioannidis JPA. Contradicted and initially stronger
effects in highly cited clinical research. JAMA 2005; 294: 218–228. [Resumen]
[Artículos
relacionados] [Texto
completo (registro gratuito)]
-
Sterne JA, Davey Smith G. Sifting the evidence: What's
wrong with significance tests. BMJ 2001; 322: 226-231. [Resumen]
[Artículos
relacionados] [Texto
completo]
Eduardo Palencia Herrejón
Hospital Gregorio Marañón, Madrid
©REMI, http://remi.uninet.edu.
Junio
2006.
Palabras clave: Metodología de la investigación, Ensayo clínico aleatorizado,
Potencia estadística, Significación estadística, Sesgos, Multiplicidad de
estudios, Análisis de subgrupos, Desenlaces compuestos.
Busque en REMI con Google:
Envía tu comentario para su
publicación |