REMI 2006; 6 (12): A61. Lectura crítica de un estudio sobre diagnóstico: insuficiencia suprarrenal en el shock séptico

Revista Electrónica de Medicina Intensiva
Artículo nº A61. Vol 6 nº 12, diciembre 2006
Autor: Jaime Latour Pérez

http://remi.uninet.edu/2006/12/REMIA061.htm

Lectura crítica de un estudio sobre diagnóstico: insuficiencia suprarrenal en el shock séptico

En un reciente artículo, Annane y colaboradores [1] sugieren que la prueba de estimulación con ACTH en pacientes con sepsis grave o shock séptico permite identificar a aquellos pacientes con insuficiencia suprarrenal. ¿Hasta qué punto podemos confiar en estas conclusiones? Y, lo que es más importante, ¿debemos utilizar la prueba de estimulación con ACTH en los pacientes con sepsis? Para discutir estos puntos, examinaremos un escenario clínico hipotético (tabla I).

Tabla I. Escenario clínico

Se trata de una mujer de 65 años, que refiere como únicos antecedentes patológicos una historia de cólicos nefríticos de repetición y que ingresa en UCI por un cuadro de shock séptico de origen urinario. Tras el inicio precoz de la antibioterapia, la reanimación hemodinámica orientada por objetivos, y el abordaje del foco séptico mediante sondaje ureteropélvico, se remonta la TA, y recupera diuresis pero sigue necesitando drogas vasoactivas. De acuerdo con las guías de la campaña sobrevivir a la sepsis actualmente vigentes [2], en esta enferma estaría indicado iniciar la administración de corticoides a dosis bajas (recomendación grado C). Se plantea la discusión sobre si se debe realizar la prueba de estimulación con ACTH administrando 250-μg de ACTH y suspender los corticoides en caso de que los niveles de cortisol determinados mediante inmunoensayo (Immulite test®) se elevaran en más de 9 μg/dL a los 30-60 minutos (recomendación grado E).

Las guías de usuarios de la literatura científica propuestas por el Evidence-Based Medicine Working Group [3] proponen que una evaluación clínica debe cumplir 3 requisitos para que sea útil para la práctica clínica. Primero, el estudio debe ser “suficientemente válido” (no sesgado). Segundo, la naturaleza y la magnitud de los resultados deben ser relevantes. Sólo cuando se cumplen los dos anteriores tiene sentido plantearse el tercer requisito: la prueba debe ser aplicable en el paciente individual, teniendo en cuenta las circunstancias locales, los valores del enfermo, los costes y el impacto potencial sobre el manejo del enfermo.

A. ¿Es el estudio suficientemente válido?

El problema real para el clínico enfrentado a la lectura crítica de la literatura médica no consiste en saber si el estudio es perfecto (prácticamente nunca lo es) sino en valorar si, aún con deficiencias, es suficientemente válido. Para ello seguiremos la lista de preguntas que CASP-España propone para la lectura de estudios de diagnóstico [4]. Las 3 primeras preguntas se consideran como preguntas “de eliminación” (que identifican el mínimo exigible a un estudio para considerarlo suficientemente válido). Las preguntas 4 y 5 son “preguntas de matiz” (y ayudan a precisar el grado de validez del estudio).

1. ¿Existió una comparación con una prueba de referencia adecuada?

En esencia, una evaluación diagnóstica consiste en la comparación de los resultados de la prueba con los de una prueba de referencia (patrón de oro) que dictamina si los resultados de la misma son correctos (verdaderos positivos y verdaderos negativos) o están equivocados (falsos positivos y falsos negativos). Si el patrón de oro no clasifica adecuadamente el estatus de enfermedad, los resultados de esa comparación no reflejarán fielmente la exactitud diagnóstica de la prueba, y el estudio estará sesgado.

En el caso del enfermo crítico, la valoración de la función suprarrenal es un tema controvertido debido a las dificultades adicionales que presentan estos pacientes (disminución de la globulina transportadora de corticosteroides, aumento de la fracción libre de cortisol, presencia de anticuerpos heterófilos, resistencia tisular al cortisol) [5]. Sin embargo, aún contando con todas esas limitaciones, la prueba de metopirona utilizada en el estudio de Annane y col. [1] está considerada como la prueba de referencia estándar para el diagnóstico de insuficiencia suprarrenal. Ciertamente, existe en el estudio un retraso entre la determinación de la prueba de ACTH y la prueba de referencia, pero la magnitud del retraso parece razonable y está discutida por los autores.

2. ¿Incluyó la muestra un espectro adecuado de pacientes?

Las evaluaciones que comparan un grupo de pacientes claramente enfermos (insuficiencia suprarrenal confirmada) con sujetos sanos (estudios de tipo “caso-control”) sobreestiman la capacidad de discriminación de una prueba, y no son por lo general aceptables para ser utilizados en la práctica clínica [6].

Aunque Annane y col. [1] analizan un grupo de pacientes sin sepsis y un grupo de voluntarios como referencias externas, realmente la comparación entre la prueba de ACTH y la de metopirona se hace en 2 cohortes de pacientes con sepsis grave o shock séptico (es decir en pacientes con sospecha de disfunción suprarrenal). Por lo tanto no se trata de un estudio “caso-control”.

En el estudio se aplican unos criterios de exclusión (infección por VIH, enfermedades endocrinas o hepáticas, tratamiento con etomidato u otros fármacos, etc.) que podrían condicionar su validez externa y limitar la aplicabilidad de los resultados del estudio a ciertos pacientes. Salvando estas exclusiones (razonables y especificadas en la figura 1 del artículo), los pacientes se pueden considerar como consecutivos. Sorprende sin embargo que la velocidad de reclutamiento en las 2 cohortes de pacientes con sepsis sea muy diferente (2,3 frente a 4 pacientes por mes). Es importante subrayar este detalle, que retomaremos más adelante cuando comparemos los resultados en las dos cohortes de pacientes.

3. ¿Existió una adecuada descripción de la prueba?

Este punto es importante ya que la evidencia empírica muestra que los estudios que no describen adecuadamente la prueba sobreestiman su capacidad discriminante [6]. En el estudio de Annane y col. la prueba y los puntos de corte utilizados para definir el resultado como positivo o negativo están minuciosamente descritos, lo que permite la replicación del estudio. Por lo tanto, la respuesta a esta pregunta sería claramente positiva.

4. ¿Hubo evaluación “ciega” de los resultados?

En condiciones ideales, la persona que realiza la prueba no debe conocer el resultado de la prueba de referencia estándar y viceversa. El objetivo de este enmascaramiento es asegurar la objetividad de la medida y prevenir el sesgo de medición. En el estudio de Annane no se refiere que se haya realizado algún tipo de enmascaramiento. Sin embargo, aunque este requisito es esencial en las evaluaciones diagnósticas que comportan cierta subjetividad en la medición (como en las pruebas de imagen), no lo es tanto cuando se trata de una prueba objetiva y automatizada como es la determinación de los niveles de cortisol (de ahí que CASP-España no la considere como “pregunta de eliminación”).

5. ¿La decisión de realizar el patrón de oro fue independiente del resultado de la prueba problema?

En los estudios de diagnóstico realizados en condiciones clínicas reales es frecuente que la aplicación de la prueba de referencia dependa del resultado de la prueba cuya validez se investiga. Ello ocurre por ejemplo cuando la prueba de referencia es cruenta y resulta inético aplicarla a pacientes que han dado negativo en la prueba y a los que se les supone una baja probabilidad de enfermedad. En este caso es frecuente que los pacientes sean excluidos del estudio, o bien que se les aplique una prueba de referencia distinta, generalmente más imperfecta, lo que podría generar un sesgo de referencia (work-up selection bias en el primer caso y work-up detection bias en el segundo).

Dado que en el estudio de Annane y col. teóricamente todos los pacientes reciben la prueba en estudio y la prueba de referencia, no parece plausible la existencia de este tipo de sesgos.

Por tanto, de acuerdo con las preguntas de CASP, el estudio de Annane parece suficientemente válido. A la misma conclusión se llega si examinamos el estudio mediante otros instrumentos de evaluación de pruebas diagnósticas como el STARD [7] y el QUADAS [8]. Procede, por tanto, pasar al siguiente punto.

B. ¿Cuáles son los resultados?

El estudio de Annane y col. analiza dos cohortes de pacientes con sepsis (además de una cohorte de sujetos sanos y una cohorte de pacientes críticos sin sepsis, que no forman parte del núcleo de la evaluación). Aunque este aspecto no está recogido en las guías de CASP (que lo reservan para las guías de predicción clínica), la validación de los resultados de la evaluación diagnóstica en un grupo distinto de pacientes constituye un punto fuerte del diseño, ya que permite contrastar la consistencia (reproducibilidad) de los resultados.

Inicialmente, los autores exploran el funcionamiento de la prueba en la primera cohorte de pacientes con sepsis (cohorte de derivación) mediante un análisis gráfico y un análisis de las curvas ROC. Este análisis muestra que las únicas curvas ROC aceptables son las de incremento del cortisol total y del cortisol libre tras la estimulación (áreas bajo la curva [ABC] de 0,73 [IC95% 0,60-0,84] y 0,71 [0,59-0,88] respectivamente), mientras que las áreas bajo la curva del cortisol basal y del cortisol libre carecen de capacidad discriminante (intervalo de confianza del ABC por debajo de 0,50). Además los autores encuentran que la combinación de un “cortisol basal menor de 10 μg/dl ó un incremento del cortisol menor de 9 μg/dl” constituye el mejor predictor de la presencia de insuficiencia suprarrenal. A continuación los autores intentan validar estos puntos de corte mediante una cohorte distinta de pacientes (cohorte de validación).

6. ¿Se pueden calcular los Cocientes de Probabilidad (CP)?

Los autores presentan con claridad los datos de la tabla diagnóstica 2x2 de la cohorte de validación (tabla 5 del artículo). La reconstrucción de los datos de la cohorte de derivación es más problemática, ya que los autores ofrecen datos contradictorios:

- En el Resumen y en el apartado de Resultados (investigación hormonal, 2º párrafo) la prevalencia de fallo suprarrenal es del 51% (31/61).

- En cambio en el documento de datos suplementarios del artículo, publicado en línea (tablas E2 y E3), dicha prevalencia es del 62% (38/61).

Los parámetros de sensibilidad, especificidad y CP+ de la tabla 4 del artículo coinciden exactamente con los calculados a partir del suplemento, por lo que adoptaremos estos últimos (tabla II)

Tabla II
	Insuficiencia suprarrenal	No insuficiencia suprarrenal
Cohorte de derivación
Prueba de ACTH +	17	1
Prueba de ACTH -	21	22
Cohorte de validación
Prueba de ACTH +	20	2
Prueba de ACTH -	4	14

7. ¿Cuál es la precisión de los resultados?

Los datos de la tabla II permiten estimar la sensibilidad, especificidad y cocientes de probabilidad de un cortisol basal menor de 10 μg/dl ó un incremento del cortisol menor de 9 μg/dl, así como la precisión (intervalos de confianza) de dichos parámetros (tabla III)

Tabla III
Parámetros	Cohorte de derivación	Cohorte de validación	P prueba de heterogeneidad
Sensibilidad	0,45 (0,29-0,62)	0,83 (0,63-0,95)	0,002
Especificidad	0,96 (0,78-1,00)	0,88 (0,62-0,98)	0,351
CP+	10,29 (1,47-72,26)	6,67 (1,80-24,68)	0,713
CP-	0,58 (0,43-0,78)	0,19 (0,08-0,48)	0,009

A la vista de estos resultados, resulta llamativa la inconsistencia entre la sensibilidad detectada en la cohorte de derivación y la de la cohorte de validación. Esta inconsistencia se puede comprobar formalmente mediante una prueba de heterogeneidad, que muestra que las diferencias entre las estimaciones de la sensibilidad y del cociente de probabilidad negativo en las dos cohortes son estadísticamente significativas (tabla III).

Los autores no discuten la razón de esta inconsistencia, por lo que resulta difícil dar una respuesta. Como se afirmó más arriba, la distinta velocidad de reclutamiento en las 2 cohortes suscita la sospecha de diferencias en el espectro de pacientes; sin embargo, la tabla 2 del artículo muestra que los perfiles de las dos cohortes de pacientes son bastante homogéneos. Otra posibilidad es que se trate sencillamente de un error de tipo I y que realmente la sensibilidad de la prueba sea homogénea en las dos subpoblaciones. En cualquiera de los dos casos, el problema para el lector es que desconoce cuál es la sensibilidad correcta.

Aunque los autores hacen hincapié en los resultados de la cohorte de validación, la sensibilidad de la prueba en la cohorte de derivación es claramente inadecuada para descartar insuficiencia suprarrenal. Ciertamente, los autores proponen otros criterios alternativos para excluir la insuficiencia suprarrenal, como la presencia conjunta de un nivel de cortisol tras la estimulación ≥44 μg/dL y de un incremento ≥16 μg/dL (apartado de Resultados, penúltimo párrafo) o, simplemente, la existencia de unos niveles de cortisol basales o tras la estimulación ≥44 μg/dL (figura 3 del artículo). Sin embargo, respecto al primero de estos criterios, los autores no informan sobre la reproducibilidad de los resultados en la cohorte de validación. Y respecto al segundo, la figura 2B del artículo muestra que al menos 6 de los 13 pacientes con un cortisol tras la estimulación ≥44 μg/dL eran falsos negativos (sensibilidad de 0,54). Tampoco se puede dar por bueno el valor predictivo negativo de la tabla 4 del artículo, ya que aparentemente se trata de un error: el valor predictivo negativo calculado a partir de la tabla 2x2 no es 0,96 (IC 95% 0,89-1,0) sino 0,51 (IC 95% 0,35-0,67).

Se podría pensar que, aunque la prueba no es adecuada para descartar insuficiencia suprarrenal (baja sensibilidad y cociente de probabilidad negativo), quizá fuera útil para confirmar su presencia (alta especificidad y cociente de probabilidad positivo). Un examen más detenido muestra, sin embargo, que el intervalo de confianza de la especificidad y el cociente de probabilidad positivo son demasiado amplios y merecen, por tanto, una baja credibilidad para el clínico.

En resumen, el examen detallado de los resultados revela la existencia de dos problemas importantes en el estudio. Primero, los resultados para la sensibilidad (y el CP-) no son fiables (heterogeneidad entre las cohortes de derivación y de validación) y por tanto son inadecuados para descartar la enfermedad. Y, segundo, los intervalos de confianza de la especificidad (y el CP+) son demasiado amplios para confirmar la presencia de enfermedad.

C. ¿Son estos resultados aplicables en el escenario clínico?

La incertidumbre acerca de la sensibilidad y el CP- de la prueba compromete seriamente su aplicación clínica. Sin embargo, podemos plantearnos, como ejercicio académico, su aplicabilidad en el escenario de la tabla 1, asumiendo las propiedades de la prueba estimadas a partir de la cohorte de derivación. A este respecto, CASP propone 3 preguntas que pueden ayudar a decidir sobre la aplicabilidad de la prueba, asumiendo que ésta es suficientemente válida y relevante.

8. ¿Serán satisfactorios en el ámbito del escenario la reproducibilidad de la prueba y su interpretación?

En ocasiones, las circunstancias locales en que se va a aplicar el tratamiento hacen que la exactitud de la prueba sea distinta de la estimada en el artículo. En el estudio CORTICUS el laboratorio local clasificó a los pacientes de forma distinta al laboratorio central como respondedores o no respondedores en el 21% de los casos, poniendo de manifiesto una excesiva variabilidad en algunos de los inmunoensayos utilizados [9, 10]. Por lo tanto, aunque el entorno del estudio no es demasiado diferente del escenario particular (tabla I), parece razonable presumir una menor exactitud de la prueba en este último contexto.

9. ¿Es aceptable la prueba en este caso?

La prueba de ACTH se ha utilizado con éxito en múltiples servicios de medicina intensiva en escenarios similares. Por tanto la prueba parece aceptable en este caso (es decir compatible con las preferencias del paciente, costes, etc.).

10. ¿Modificarán los resultados de la prueba la decisión sobre cómo actuar?

En principio, una prueba diagnóstica no es un fin en sí misma, sino un medio para optimizar el tratamiento del enfermo. De forma un tanto simplista, se puede afirmar que si el resultado no va a cambiar el manejo del paciente, dicha prueba es inútil. Para contestar a la pregunta sobre el impacto potencial de la prueba debemos considerar 2 aspectos:

- Primero, debemos considerar en qué medida la prueba es capaz de modificar la estimación de la probabilidad de enfermedad (insuficiencia suprarrenal). En el caso que nos ocupa el interés se centra en la probabilidad de insuficiencia suprarrenal tras un resultado negativo: para ser útil la prueba, dicha probabilidad debería ser lo suficientemente baja como para permitir la suspensión de los corticoides. Para obtener esta información debemos utilizar el teorema de Bayes; sin embargo, si asumimos una probabilidad pre-prueba del 62% (la de la cohorte de derivación del estudio de Annane), entonces la probabilidad de insuficiencia suprarrenal se puede estimar directamente a partir de la tabla 2:

P(Enfermedad|prueba -) = 21/(21+22) = 0,49

Por lo tanto, aunque el resultado fuera negativo, la probabilidad de insuficiencia suprarrenal parece demasiado elevada.

- El segundo aspecto a considerar se refiere a la verdadera utilidad de los corticosteroides a dosis bajas en la sepsis. Aunque las guías de la campaña "sobrevivir a la sepsis" [2] recomiendan su utilización, los resultados del estudio CORTICUS, recientemente presentados, cuestionan esta recomendación, al menos en los enfermos menos graves [11]. Obviamente, si los corticoides entraran en desuso, carecería de sentido realizar una prueba diagnóstica orientada a su retirada (aunque no se descartaría su utilidad como índice pronóstico o como prueba diagnóstica para la utilización de futuros tratamientos).

En última instancia, la pregunta clave para el clínico sería: ¿debemos tratar (o no tratar) a todos los pacientes por igual o actuar de acuerdo con los resultados de la prueba de ACTH? Pero ésta no es una pregunta de exactitud diagnóstica sino una pregunta de efectividad. Y el tipo de estudio adecuado para contestarla no es un estudio observacional sino un ensayo clínico aleatorizado.

Enlaces:

Annane D, Maxime V, Ibrahim F, Alvarez JC, Abe E, Boudou P. Diagnosis of adrenal insufficiency in severe sepsis and septic shock. Am J Respir Crit Care Med 2006; 174: 1319-1326.[Resumen] [Artículos relacionados]
Oxman AD, Sackett DL, Guyatt GH. Users' guides to the medical literature. I. How to get started. The Evidence-Based Medicine Working Group. JAMA 1993; 270: 2093-2095. [Resumen] [Artículos relacionados]
Dellinger RP, Carlet JM, Masur H, et al. for the Surviving Sepsis Campaign Management Guidelines Committee. Surviving Sepsis Campaign guidelines for management of severe sepsis and septic shock. Crit Care Med 2004; 32: 858-873. [Resumen] [Artículos relacionados] [PDF 644 Kb]
Programa de lectura crítica CASPe. 10 preguntas para entender un artículo sobre diagnóstico. [PDF 56 Kb, 5 pág]
Marik PE. The diagnosis of adrenal insufficiency in the critically ill patient: does it really matter? Crit Care 2006; 10: 175-178. [Resumen] [Artículos relacionados]
Lijmer JG, Mol BW, Heisterkamp S et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999; 282: 1061-1066. [Resumen] [Artículos relacionados]
Bossuyt PM, Reitsma JB, Bruns DE et al for the STARD group. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Family Practice 2004; 21: 4-10. [Resumen] [Artículos relacionados] [Texto completo] [PDF 117 Kb]
Whiting P, Rutjes AWS, Reitsma JB et al. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol 2003; 3: 25-38. [Resumen] [Artículos relacionados] [Texto completo] [PDF 301 Kb]
Palencia Herrejón E. ISICEM 2006, primera parte. Corticoides en el shock séptico. [REMI 2006; 6 (4): A43]
Cohen J, Ward G, Prins J, Jones M, Venkatesh B. Variability of cortisol assays can confound the diagnosis of adrenal insufficiency in the critically ill population. Intensive Care Med 2006; 32: 1901-1905. [Resumen] [Artículos relacionados]
Palencia Herrejón E. Barcelona, ESICM 2006: principales ensayos clínicos presentados. [REMI 2006; 6 (10): A56]

Palabras clave: Insuficiencia suprarrenal, Sepsis grave, Shock séptico, Prueba de ACTH, Prueba de metopirona, Diagnóstico.