Lectura crítica de un estudio sobre diagnóstico:
insuficiencia suprarrenal en el shock séptico
[Versión para imprimir]
En un reciente
artículo, Annane y colaboradores [1]
sugieren que la prueba de estimulación con ACTH en pacientes con sepsis grave
o shock séptico permite identificar a aquellos pacientes con insuficiencia
suprarrenal. ¿Hasta qué punto podemos confiar en estas conclusiones? Y, lo
que es más importante, ¿debemos utilizar la prueba de estimulación con ACTH en
los pacientes con sepsis? Para discutir estos puntos, examinaremos un
escenario clínico hipotético (tabla I).
Tabla I. Escenario clínico
|
Se trata de una mujer
de 65 años, que refiere como únicos antecedentes patológicos una historia
de cólicos nefríticos de repetición y que ingresa en UCI por un cuadro de
shock séptico de origen urinario. Tras el inicio precoz de la
antibioterapia, la reanimación hemodinámica orientada por objetivos, y el
abordaje del foco séptico mediante sondaje ureteropélvico, se remonta la
TA, y recupera diuresis pero sigue necesitando drogas vasoactivas. De
acuerdo con las guías de la campaña sobrevivir a la sepsis actualmente vigentes [2],
en esta enferma estaría indicado iniciar la administración de corticoides
a dosis bajas (recomendación grado C). Se plantea la discusión sobre si
se debe realizar la prueba de estimulación con ACTH administrando 250-μg de
ACTH y suspender los corticoides en caso de que los niveles de cortisol
determinados mediante inmunoensayo (Immulite test®) se elevaran en más de
9 μg/dL a los 30-60 minutos (recomendación grado E). |
|
Las guías de usuarios de la literatura
científica propuestas por el Evidence-Based Medicine Working Group [3]
proponen que una evaluación clínica debe cumplir 3 requisitos para que sea
útil para la práctica clínica. Primero, el estudio debe ser “suficientemente
válido” (no sesgado). Segundo, la naturaleza y la magnitud de los resultados
deben ser relevantes. Sólo cuando se cumplen los dos anteriores tiene
sentido plantearse el tercer requisito: la prueba debe ser aplicable en el
paciente individual, teniendo en cuenta las circunstancias locales, los
valores del enfermo, los costes y el impacto potencial sobre el manejo del
enfermo.
A. ¿Es
el estudio suficientemente válido?
El problema real para el clínico enfrentado a
la lectura crítica de la literatura médica no consiste en saber si el
estudio es perfecto (prácticamente nunca lo es) sino en valorar si, aún con
deficiencias, es suficientemente válido. Para ello seguiremos la
lista de preguntas que CASP-España propone para la lectura de estudios de
diagnóstico [4].
Las 3 primeras preguntas se consideran como preguntas “de eliminación” (que
identifican el mínimo exigible a un estudio para considerarlo
suficientemente válido). Las preguntas 4 y 5 son “preguntas de matiz” (y
ayudan a precisar el grado de validez del estudio).
1. ¿Existió
una comparación con una prueba de referencia adecuada?
En esencia, una evaluación diagnóstica
consiste en la comparación de los resultados de la prueba con los de una
prueba de referencia (patrón de oro) que dictamina si los resultados de la
misma son
correctos (verdaderos positivos y verdaderos negativos) o están equivocados
(falsos positivos y falsos negativos). Si el patrón de oro no clasifica
adecuadamente el estatus de enfermedad, los resultados de esa comparación no
reflejarán fielmente la exactitud diagnóstica de la prueba, y el estudio estará
sesgado.
En el caso del enfermo crítico, la valoración
de la función suprarrenal es un tema controvertido debido a las dificultades
adicionales que presentan estos pacientes (disminución de la globulina
transportadora de corticosteroides, aumento de la fracción libre de cortisol,
presencia de anticuerpos heterófilos, resistencia tisular al cortisol) [5].
Sin embargo, aún contando con todas esas limitaciones, la prueba de metopirona
utilizada en el estudio de Annane y col. [1]
está considerada como la prueba de referencia estándar para el diagnóstico de
insuficiencia suprarrenal. Ciertamente, existe en el estudio un retraso
entre la determinación de la prueba de ACTH y la prueba de referencia, pero la magnitud
del retraso parece razonable y está discutida por los autores.
2. ¿Incluyó
la muestra un espectro adecuado de pacientes?
Las evaluaciones que comparan un grupo de
pacientes claramente enfermos (insuficiencia suprarrenal confirmada) con
sujetos sanos (estudios de tipo “caso-control”) sobreestiman la capacidad de
discriminación de una prueba, y no son por lo general aceptables para ser
utilizados en la práctica clínica [6].
Aunque Annane y col. [1]
analizan un grupo de pacientes sin sepsis y un grupo de voluntarios como
referencias externas, realmente la comparación entre la prueba de ACTH y la
de metopirona se hace en 2 cohortes de pacientes con sepsis grave o shock séptico
(es decir en pacientes con sospecha de disfunción suprarrenal). Por lo
tanto no se trata de un estudio “caso-control”.
En el estudio se aplican unos criterios de
exclusión (infección por VIH, enfermedades endocrinas o hepáticas,
tratamiento con etomidato u otros fármacos, etc.) que podrían condicionar su
validez externa y limitar la aplicabilidad de los resultados del estudio a
ciertos pacientes. Salvando estas exclusiones (razonables y especificadas en
la figura 1 del artículo), los pacientes se pueden considerar como
consecutivos. Sorprende sin embargo que la velocidad de reclutamiento en las
2 cohortes de pacientes con sepsis sea muy diferente (2,3 frente a 4
pacientes por mes). Es importante subrayar este detalle, que retomaremos más
adelante cuando comparemos los resultados en las dos cohortes de pacientes.
3. ¿Existió
una adecuada descripción de la prueba?
Este punto es importante ya que la evidencia
empírica muestra que los estudios que no describen adecuadamente la prueba
sobreestiman su capacidad discriminante [6].
En el estudio de Annane y col. la prueba y los puntos de corte utilizados para
definir el resultado como positivo o negativo están minuciosamente
descritos, lo que permite la replicación del estudio. Por lo tanto, la
respuesta a esta pregunta sería claramente positiva.
4. ¿Hubo
evaluación “ciega” de los resultados?
En condiciones ideales, la persona que
realiza la prueba no debe conocer el resultado de la prueba de referencia estándar y viceversa.
El objetivo de este enmascaramiento es asegurar la objetividad de la medida
y prevenir el sesgo de medición. En el estudio de Annane no se refiere que
se haya realizado algún tipo de enmascaramiento. Sin embargo, aunque este
requisito es esencial en las evaluaciones diagnósticas que comportan cierta
subjetividad en la medición (como en las pruebas de imagen), no lo es tanto
cuando se trata de una prueba objetiva y automatizada como es la
determinación de los niveles de cortisol (de ahí que CASP-España no la
considere como “pregunta de eliminación”).
5. ¿La
decisión de realizar el patrón de oro fue independiente del resultado de la
prueba problema?
En los estudios de diagnóstico realizados en
condiciones clínicas reales es frecuente que la aplicación de la prueba de
referencia dependa del resultado de la prueba cuya validez se investiga. Ello ocurre por ejemplo cuando la
prueba de referencia es cruenta y resulta inético aplicarla a pacientes que
han dado negativo en la prueba y a los que se les supone una baja probabilidad de
enfermedad. En este caso es frecuente que los pacientes sean excluidos del
estudio, o bien que se les aplique una prueba de referencia distinta,
generalmente más imperfecta, lo que podría generar un sesgo de referencia (work-up
selection bias en el primer caso y work-up detection bias en el
segundo).
Dado que en el estudio de Annane y col.
teóricamente todos los pacientes reciben la prueba en estudio y la prueba de referencia,
no parece plausible la existencia de este tipo de sesgos.
Por tanto, de acuerdo con las preguntas de
CASP, el estudio de Annane parece suficientemente válido. A la misma
conclusión se llega si examinamos el estudio mediante otros instrumentos de
evaluación de pruebas diagnósticas como el STARD [7]
y el QUADAS [8].
Procede, por tanto, pasar al siguiente punto.
B.
¿Cuáles son los resultados?
El estudio de Annane y col. analiza dos
cohortes de pacientes con sepsis (además de una cohorte de sujetos sanos y
una cohorte de pacientes críticos sin sepsis, que no forman parte del núcleo
de la evaluación). Aunque este aspecto no está recogido en las guías de CASP
(que lo reservan para las guías de predicción clínica), la validación de los
resultados de la evaluación diagnóstica en un grupo distinto de pacientes
constituye un punto fuerte del diseño, ya que permite contrastar la
consistencia (reproducibilidad) de los resultados.
Inicialmente, los autores exploran el
funcionamiento de la prueba en la primera cohorte de pacientes con sepsis (cohorte
de derivación) mediante un análisis gráfico y un análisis de las curvas
ROC. Este análisis muestra que las únicas curvas ROC aceptables son las de
incremento del cortisol total y del cortisol libre tras la estimulación
(áreas bajo la curva [ABC] de 0,73 [IC95% 0,60-0,84] y 0,71 [0,59-0,88]
respectivamente), mientras que las áreas bajo la curva del cortisol basal y
del cortisol libre carecen de capacidad discriminante (intervalo de
confianza del ABC por debajo de 0,50). Además los autores encuentran que la
combinación de un “cortisol basal menor de 10 μg/dl ó un incremento del
cortisol menor de 9 μg/dl” constituye el mejor predictor de la presencia de
insuficiencia suprarrenal. A continuación los autores intentan validar estos
puntos de corte mediante una cohorte distinta de pacientes (cohorte de
validación).
6. ¿Se
pueden calcular los Cocientes de Probabilidad (CP)?
Los autores presentan con claridad los datos
de la tabla diagnóstica 2x2 de la cohorte de validación (tabla 5 del
artículo). La reconstrucción de los datos de la cohorte de derivación es más
problemática, ya que los autores ofrecen datos contradictorios:
- En
el Resumen y en el apartado de Resultados (investigación hormonal, 2º
párrafo) la prevalencia de fallo suprarrenal es del 51% (31/61).
- En
cambio en el documento de datos suplementarios del artículo, publicado en
línea (tablas E2 y E3), dicha prevalencia es del 62% (38/61).
Los parámetros de sensibilidad, especificidad
y CP+ de la tabla 4 del artículo coinciden exactamente con los calculados a
partir del suplemento, por lo que adoptaremos estos últimos (tabla II)
Tabla II
|
|
Insuficiencia suprarrenal |
No insuficiencia
suprarrenal |
Cohorte de derivación |
|
|
Prueba de ACTH + |
17 |
1 |
Prueba de ACTH - |
21 |
22 |
Cohorte de validación |
|
|
Prueba de ACTH + |
20 |
2 |
Prueba de ACTH - |
4 |
14 |
|
7. ¿Cuál
es la precisión de los resultados?
Los datos de la tabla II permiten estimar la
sensibilidad, especificidad y cocientes de probabilidad de un cortisol basal
menor de 10 μg/dl ó un incremento del cortisol menor de 9 μg/dl, así como la
precisión (intervalos de confianza) de dichos parámetros (tabla III)
Tabla III
|
Parámetros |
Cohorte de
derivación |
Cohorte
de
validación |
P
prueba de heterogeneidad |
Sensibilidad |
0,45 (0,29-0,62) |
0,83 (0,63-0,95) |
0,002 |
Especificidad |
0,96
(0,78-1,00) |
0,88
(0,62-0,98) |
0,351 |
CP+ |
10,29 (1,47-72,26) |
6,67 (1,80-24,68) |
0,713 |
CP- |
0,58
(0,43-0,78) |
0,19
(0,08-0,48) |
0,009 |
|
A la vista de estos resultados, resulta
llamativa la inconsistencia entre la sensibilidad detectada en la cohorte de
derivación y la de la cohorte de validación. Esta inconsistencia se puede
comprobar formalmente mediante una prueba de heterogeneidad, que muestra que las
diferencias entre las estimaciones de la sensibilidad y del cociente de
probabilidad negativo en las dos cohortes son estadísticamente
significativas (tabla III).
Los autores no discuten la razón de esta
inconsistencia, por lo que resulta difícil dar una respuesta. Como se afirmó
más arriba, la distinta velocidad de reclutamiento en las 2 cohortes suscita
la sospecha de diferencias en el espectro de pacientes; sin embargo, la
tabla 2 del artículo muestra que los perfiles de las dos cohortes de
pacientes son bastante homogéneos. Otra posibilidad es que se trate
sencillamente de un error de tipo I y que realmente la sensibilidad de la
prueba
sea homogénea en las dos subpoblaciones. En cualquiera de los dos casos, el
problema para el lector es que desconoce cuál es la sensibilidad correcta.
Aunque los autores hacen hincapié en los
resultados de la cohorte de validación, la sensibilidad de la prueba en la
cohorte de derivación es claramente inadecuada para descartar
insuficiencia suprarrenal. Ciertamente, los autores proponen otros criterios
alternativos para excluir la insuficiencia suprarrenal, como la presencia
conjunta de un nivel de cortisol tras la estimulación ≥44 μg/dL y de un
incremento ≥16 μg/dL (apartado de Resultados, penúltimo párrafo) o,
simplemente, la existencia de unos niveles de cortisol basales o tras la
estimulación ≥44 μg/dL (figura 3 del artículo). Sin embargo, respecto al
primero de estos criterios, los autores no informan sobre la
reproducibilidad de los resultados en la cohorte de validación. Y respecto
al segundo, la figura 2B del artículo muestra que al menos 6 de los 13
pacientes con un cortisol tras la estimulación ≥44 μg/dL eran falsos
negativos (sensibilidad de 0,54). Tampoco se puede dar por bueno el valor
predictivo negativo de la tabla 4 del artículo, ya que aparentemente se
trata de un error: el valor predictivo negativo calculado a partir de la
tabla 2x2 no es 0,96 (IC 95% 0,89-1,0) sino 0,51 (IC 95% 0,35-0,67).
Se podría pensar que, aunque la prueba no es
adecuada para descartar insuficiencia suprarrenal (baja sensibilidad y
cociente de probabilidad negativo), quizá fuera útil para confirmar
su presencia (alta especificidad y cociente de probabilidad positivo). Un
examen más detenido muestra, sin embargo, que el intervalo de confianza de
la especificidad y el cociente de probabilidad positivo son demasiado
amplios y merecen, por tanto, una baja credibilidad para el clínico.
En resumen, el examen detallado de los
resultados revela la existencia de dos problemas importantes en el estudio.
Primero, los resultados para la sensibilidad (y el CP-) no son fiables
(heterogeneidad entre las cohortes de derivación y de validación) y por
tanto son inadecuados para descartar la enfermedad. Y, segundo, los
intervalos de confianza de la especificidad (y el CP+) son demasiado amplios
para confirmar la presencia de enfermedad.
C.
¿Son estos resultados aplicables en el escenario clínico?
La incertidumbre acerca de la sensibilidad y
el CP- de la prueba compromete seriamente su aplicación clínica. Sin
embargo, podemos plantearnos, como ejercicio académico, su aplicabilidad en
el escenario de la tabla 1, asumiendo las propiedades de la prueba estimadas a
partir de la cohorte de derivación. A este respecto, CASP propone 3
preguntas que pueden ayudar a decidir sobre la aplicabilidad de la prueba,
asumiendo que ésta es suficientemente válida y relevante.
8. ¿Serán satisfactorios en el ámbito del
escenario la reproducibilidad de la prueba y su interpretación?
En ocasiones, las circunstancias locales en
que se va a aplicar el tratamiento hacen que la exactitud de la prueba sea
distinta de la estimada en el artículo. En el estudio CORTICUS el
laboratorio local clasificó a los pacientes de forma distinta al laboratorio
central como respondedores o no respondedores en el 21% de los casos,
poniendo de manifiesto una excesiva variabilidad en algunos de los
inmunoensayos utilizados [9, 10]. Por lo tanto, aunque el entorno del estudio no es demasiado
diferente del escenario particular (tabla I), parece razonable presumir una
menor exactitud de la prueba en este último contexto.
9. ¿Es
aceptable la prueba en este caso?
La prueba de ACTH se ha utilizado con éxito
en múltiples servicios de medicina intensiva en escenarios similares. Por
tanto la prueba parece aceptable en este caso (es decir compatible con las
preferencias del paciente, costes, etc.).
10. ¿Modificarán
los resultados de la prueba la decisión sobre cómo actuar?
En principio, una prueba diagnóstica no es un
fin en sí misma, sino un medio para optimizar el tratamiento del enfermo. De
forma un tanto simplista, se puede afirmar que si el resultado no va a
cambiar el manejo del paciente, dicha prueba es inútil. Para contestar a
la pregunta sobre el impacto potencial de la prueba debemos considerar 2
aspectos:
- Primero,
debemos considerar en qué medida la prueba es capaz de modificar la estimación
de la probabilidad de enfermedad (insuficiencia suprarrenal). En el caso que
nos ocupa el interés se centra en la probabilidad de insuficiencia
suprarrenal tras un resultado negativo: para ser útil la prueba, dicha
probabilidad debería ser lo suficientemente baja como para permitir la
suspensión de los corticoides. Para obtener esta información debemos
utilizar el teorema de Bayes; sin embargo, si asumimos una probabilidad pre-prueba
del 62% (la de la cohorte de derivación del estudio de Annane), entonces la
probabilidad de insuficiencia suprarrenal se puede estimar directamente a
partir de la tabla 2:
P(Enfermedad|prueba -) = 21/(21+22) = 0,49
Por lo tanto, aunque el resultado fuera
negativo, la probabilidad de insuficiencia suprarrenal parece demasiado
elevada.
- El
segundo aspecto a considerar se refiere a la verdadera utilidad de los
corticosteroides a dosis bajas en la sepsis. Aunque las guías de la campaña
"sobrevivir a la sepsis" [2]
recomiendan su utilización, los resultados del estudio CORTICUS,
recientemente presentados, cuestionan esta recomendación, al menos en los
enfermos menos graves [11].
Obviamente, si los corticoides entraran en desuso, carecería de sentido
realizar una prueba diagnóstica orientada a su retirada (aunque no se
descartaría su utilidad como índice pronóstico o como prueba diagnóstica para
la utilización de futuros tratamientos).
En última instancia, la pregunta clave para
el clínico sería: ¿debemos tratar (o no tratar) a todos los pacientes por
igual o actuar de acuerdo con los resultados de la prueba de ACTH? Pero ésta no es una
pregunta de exactitud diagnóstica sino una pregunta de efectividad. Y el
tipo de estudio adecuado para contestarla no es un estudio observacional
sino un ensayo clínico aleatorizado.
Enlaces:
-
Annane
D, Maxime V, Ibrahim F, Alvarez JC, Abe E, Boudou P. Diagnosis of adrenal
insufficiency in severe sepsis and septic shock. Am J Respir Crit Care Med
2006; 174: 1319-1326.[Resumen]
[Artículos
relacionados]
-
Oxman AD, Sackett DL, Guyatt GH. Users' guides to the
medical literature. I. How to get started. The Evidence-Based Medicine
Working Group. JAMA 1993; 270: 2093-2095. [Resumen]
[Artículos
relacionados]
-
Dellinger RP, Carlet JM, Masur H, et al. for the
Surviving Sepsis Campaign Management Guidelines Committee. Surviving
Sepsis Campaign guidelines for management of severe sepsis and septic
shock. Crit Care Med 2004; 32: 858-873. [Resumen]
[Artículos
relacionados] [PDF
644 Kb]
-
Programa
de lectura crítica CASPe. 10 preguntas para entender un artículo sobre
diagnóstico. [PDF
56 Kb, 5 pág]
-
Marik PE. The diagnosis of adrenal insufficiency in the
critically ill patient: does it really matter? Crit Care 2006; 10:
175-178. [Resumen]
[Artículos
relacionados]
-
Lijmer JG, Mol BW, Heisterkamp S et al. Empirical
evidence of design-related bias in studies of diagnostic tests. JAMA 1999;
282: 1061-1066. [Resumen]
[Artículos
relacionados]
-
Bossuyt PM, Reitsma JB,
Bruns DE et al for the STARD group. Towards complete and accurate
reporting of studies of diagnostic accuracy: the STARD initiative.
Family Practice
2004;
21:
4-10. [Resumen]
[Artículos
relacionados] [Texto
completo] [PDF
117 Kb]
-
Whiting P, Rutjes AWS, Reitsma JB et al. The
development of QUADAS: a tool for the quality assessment of studies of
diagnostic accuracy included in systematic reviews. BMC Med Res Methodol 2003; 3: 25-38.
[Resumen]
[Artículos
relacionados] [Texto
completo] [PDF
301 Kb]
-
Palencia
Herrejón E. ISICEM 2006, primera parte. Corticoides en el shock séptico. [REMI
2006; 6 (4): A43]
-
Cohen J, Ward G,
Prins J, Jones M, Venkatesh B. Variability of cortisol assays
can confound the diagnosis of adrenal insufficiency in the critically ill
population. Intensive Care Med 2006; 32: 1901-1905. [Resumen]
[Artículos
relacionados]
-
Palencia
Herrejón E. Barcelona, ESICM 2006: principales ensayos clínicos
presentados. [REMI
2006; 6 (10): A56]
Jaime Latour Pérez
Hospital General Universitario, Elche
©REMI, http://remi.uninet.edu.
Diciembre 2006.
Palabras clave:
Insuficiencia suprarrenal, Sepsis grave, Shock séptico, Prueba de ACTH,
Prueba de metopirona, Diagnóstico.
Envía tu comentario para su
publicación |