unidad 2. cómo resolver dudas clínicas sobre pruebas … · el diagnóstico médico es un proceso...

21
1 Unidad 2. Cómo resolver dudas clínicas sobre pruebas diagnósticas Carlos Ochoa Sangrador: Servicio de Pediatría. Hospital Virgen de la Concha. Zamora. España. INTRODUCCIÓN El diagnóstico médico es un proceso dinámico en el que se intenta tomar decisiones idóneas en presencia de incertidumbre. Desde un punto de vista funcional, consideramos prueba diagnóstica a cualquier procedimiento realizado para confirmar o descartar un diagnóstico o incrementar o disminuir su verosimilitud. El área de investigación en pruebas diagnósticas es, junto con el de innovaciones terapéuticas, una de las áreas con mayor y más rápido desarrollo en la medicina actual. Es posible que este rápido desarrollo de nuevos procedimientos diagnósticos no haya tenido un paralelismo en el desarrollo de las más adecuadas estrategias de evaluación. Los rápidos avances en los métodos diagnósticos implican la necesidad de que los profesionales dispongan de la información correcta sobre sus características y la aplicabilidad en su ámbito de trabajo. Así pues, la investigación sobre pruebas diagnósticas tiene como objetivos estimar la capacidad discriminatoria de una prueba diagnóstica entre enfermos y no enfermos (sensibilidad- especificidad), determinar el rendimiento de esta (valores predictivos) o evaluar la utilidad y satisfacción de un procedimiento diagnóstico. La utilidad de una prueba diagnóstica depende de su capacidad para producir los mismos resultados cada vez que se aplica en similares condiciones (fiabilidad) y de que sus mediciones reflejen exactamente el fenómeno que se intenta medir (validez o exactitud), pero también de su rendimiento clínico y de su coste. Si evaluamos nuestra práctica clínica observaremos que a menudo empleamos procedimientos diagnósticos de los que desconocemos estos parámetros. Para conocer esta información debemos recurrir a los estudios de evaluación de pruebas diagnósticas publicados. Sin embargo, en muchos de estos estudios no siempre encontramos información válida, relevante o aplicable a nuestro entorno clínico. En esencia, realizar el diagnóstico es asignar con razonable incertidumbre (es decir, con razonable probabilidad) un paciente a una clase (o grupo) constituida por sujetos con una enfermedad o entidad nosológica. Por lo tanto, el diagnóstico es el primer paso, sin duda crucial, que nos permite la utilización de otras evidencias en la toma de decisiones sobre el paciente. El diagnóstico no es un fin en sí mismo, sino un instrumento en la toma de decisiones clínicas; de hecho, no es preciso tener una seguridad diagnóstica absoluta para adoptar la decisión terapéutica correcta. El modelo de razonamiento que subyace en un estudio sobre pruebas diagnósticas podría esquematizarse del siguiente modo: existe un fenómeno clínico que puede ser medido de forma

Upload: buithuan

Post on 25-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

1

Unidad 2. Cómo resolver dudas clínicas sobre pruebas diagnósticas

Carlos Ochoa Sangrador: Servicio de Pediatría. Hospital Virgen de la Concha. Zamora. España.

INTRODUCCIÓN

El diagnóstico médico es un proceso dinámico en el que se intenta tomar decisiones idóneas en presencia de incertidumbre. Desde un punto de vista funcional, consideramos prueba diagnóstica a cualquier procedimiento realizado para confirmar o descartar un diagnóstico o incrementar o disminuir su verosimilitud.

El área de investigación en pruebas diagnósticas es, junto con el de innovaciones terapéuticas, una de las áreas con mayor y más rápido desarrollo en la medicina actual. Es posible que este rápido desarrollo de nuevos procedimientos diagnósticos no haya tenido un paralelismo en el desarrollo de las más adecuadas estrategias de evaluación.

Los rápidos avances en los métodos diagnósticos implican la necesidad de que los profesionales dispongan de la información correcta sobre sus características y la aplicabilidad en su ámbito de trabajo. Así pues, la investigación sobre pruebas diagnósticas tiene como objetivos estimar la capacidad discriminatoria de una prueba diagnóstica entre enfermos y no enfermos (sensibilidad-especificidad), determinar el rendimiento de esta (valores predictivos) o evaluar la utilidad y satisfacción de un procedimiento diagnóstico. La utilidad de una prueba diagnóstica depende de su capacidad para producir los mismos resultados cada vez que se aplica en similares condiciones (fiabilidad) y de que sus mediciones reflejen exactamente el fenómeno que se intenta medir (validez o exactitud), pero también de su rendimiento clínico y de su coste.

Si evaluamos nuestra práctica clínica observaremos que a menudo empleamos procedimientos diagnósticos de los que desconocemos estos parámetros. Para conocer esta información debemos recurrir a los estudios de evaluación de pruebas diagnósticas publicados. Sin embargo, en muchos de estos estudios no siempre encontramos información válida, relevante o aplicable a nuestro entorno clínico.

En esencia, realizar el diagnóstico es asignar con razonable incertidumbre (es decir, con razonable probabilidad) un paciente a una clase (o grupo) constituida por sujetos con una enfermedad o entidad nosológica. Por lo tanto, el diagnóstico es el primer paso, sin duda crucial, que nos permite la utilización de otras evidencias en la toma de decisiones sobre el paciente. El diagnóstico no es un fin en sí mismo, sino un instrumento en la toma de decisiones clínicas; de hecho, no es preciso tener una seguridad diagnóstica absoluta para adoptar la decisión terapéutica correcta.

El modelo de razonamiento que subyace en un estudio sobre pruebas diagnósticas podría esquematizarse del siguiente modo: existe un fenómeno clínico que puede ser medido de forma

2

fiable y válida por un procedimiento que se llamará diagnóstico o gold standard. En este marco nos planteamos dos tipos de preguntas: ¿hay un segundo procedimiento de medida, que llamaremos test o prueba, que podría medir también este fenómeno, de modo fiable y válido? Y ¿ese segundo procedimiento tiene algún tipo de ventaja respecto al primero? Las ventajas del segundo método podrán ser teóricas, es decir, que mejore la validez y precisión del primer procedimiento (en cuyo caso estamos buscando un nuevo gold standard) o prácticas, es decir, que sea más fácil o económico, con menos riesgo o molestias, etc. (en cuyo caso estamos buscando un procedimiento que evite realizar el gold standard).

Existe un planteamiento erróneo común al interpretar pruebas diagnósticas: al aplicar una prueba diagnóstica en mi paciente, si es positiva (+) estará enfermo y si es negativa (-) estará sano. Pero el planteamiento real es el siguiente: mi paciente tiene ya una probabilidad de estar enfermo (probabilidad preprueba, que influye mucho en el resultado); al aplicar una prueba diagnóstica, si es (+) está probabilidad de enfermedad será mayor y si es (-) será menor (probabilidad posprueba).

Existen determinados aspectos en el diseño de un estudio sobre pruebas diagnósticas que pueden afectar a la precisión (errores aleatorios) o a la validez (errores sistemáticos) de las estimaciones realizadas, y de este modo pueden amenazar la calidad de la evidencia que aporta el estudio.

Si queremos tomar las mejores decisiones en la elección y aplicación de pruebas diagnósticas para nuestros pacientes, tenemos que estar preparados para integrar nuestros conocimientos y experiencia previos con la información científica de los trabajos que continuamente vienen incorporándose a la literatura médica. Para ello, necesitamos estar familiarizados con los parámetros que describen la validez y fiabilidad de las pruebas diagnósticas y aprender a evaluar la validez, relevancia y aplicabilidad de los estudios donde son estimados.

EL ABORDAJE PROBABILÍSTICO: PROBABILIDADES PREPRUEBA Y UMBRALES DIAGNÓSTICOS

Ya hemos comentado que frente al abordaje diagnóstico simplista “el paciente está o no enfermo”, debemos utilizar un abordaje más válido de índole probabilístico “el paciente tiene una probabilidad mayor o menor de tener el diagnóstico”.

Imaginemos tres pacientes en los que sospechamos una enfermedad (A, B, C). Cada uno de ellos tiene un perfil de antecedentes, síntomas y signos por los que podemos estimar si su riesgo es bajo (A), medio (B) o alto (C).

3

Estas estimaciones son a menudo fruto de nuestra experiencia clínica, aunque a veces disponemos de estudios publicados en los que se han estimado los riesgos para cada perfil de paciente.

Para algunos diagnósticos, si la probabilidad estimada es suficientemente alta o baja, no necesitaremos recurrir a pruebas diagnósticas. Para probabilidades intermedias sí será necesario. Por ello, estas estimaciones se conocen como probabilidades preprueba.

En ocasiones, la estimación que hacemos de la probabilidad diagnóstica nos permite tomar decisiones clínicas. Si la probabilidad preprueba es muy alta podremos directamente asumir el diagnóstico e indicar el tratamiento oportuno (umbral terapéutico). Si la probabilidad preprueba es muy baja podremos descartar el diagnóstico sin necesidad de recurrir a pruebas diagnósticas (umbral diagnóstico).

Los niveles en los que situamos los umbrales diagnóstico y terapéutico dependen de la frecuencia y relevancia de la enfermedad o problema a diagnosticar. En las situaciones en las que se requiera una alta certeza diagnóstica (ej. implica una cirugía invasiva), incluso con probabilidades preprueba muy altas o bajas, será necesario recurrir a pruebas diagnósticas.

Veamos un ejemplo: se han descrito una serie de criterios clínicos asociados al diagnóstico de faringoamigdalitis por Streptococcus pyogenes (temperatura ≥38 °ºC, ausencia de tos, adenopatía cervical anterior dolorosa, inflamación o exudado faríngeo, edad 3 a 14 años). Aunque estos síntomas o signos no permiten un diagnóstico fiable en la mayoría de los pacientes, podemos usarlos para realizar una estimación de la probabilidad del diagnóstico.

En una serie publicada por McIsaac et al., de 158 niños, el 34,8% tenían un cultivo faríngeo positivo (frente al 10,7% de los adultos). Cuantos más criterios tenía cada paciente, mayor era la probabilidad de cultivo positivo.

4

Aunque las predicciones basadas en distintos modelos predictivos de faringoamigdalitis estreptocócicas resultan poco fiables en la práctica clínica, podemos usar las probabilidades preprueba mostradas en el ejemplo anterior para entender los conceptos de umbral terapéutico y diagnóstico.

Parece razonable que en pacientes con alta probabilidad (para McIsaac, escala ≥4) el diagnóstico sea asumido y se pueda iniciar tratamiento (realizando o no cultivo previo si queremos un diagnóstico de certeza). De igual manera en pacientes con baja probabilidad (escala ≤1) se podría descartar el diagnóstico y prescindir del tratamiento. En el intervalo intermedio tendremos que recurrir a pruebas diagnósticas.

EVALUACIÓN DE PRUEBAS DIAGNÓSTICAS

Desde un punto de vista funcional, consideramos prueba diagnóstica cualquier procedimiento realizado para confirmar o descartar un diagnóstico o incrementar o disminuir su verosimilitud. Cuando la anamnesis y exploración física no permite establecer un diagnóstico con suficiente certeza recurrimos a las pruebas diagnósticas. Para establecer si una prueba resulta útil y cómo interpretar sus resultados tenemos que someterla a evaluación.

El modelo de razonamiento que subyace en la valoración de pruebas diagnósticas podría esquematizarse del siguiente modo: existe un fenómeno clínico que puede ser medido de forma fiable y válida por un procedimiento que se llamará patrón de referencia diagnóstico o gold standard. En ocasiones, ese patrón de referencia resulta complejo, lento, caro, arriesgado o molesto. Por ello, buscamos otro procedimiento, que denominaremos prueba diagnóstica, que tenga ventajas respecto al de referencia. Las ventajas del segundo método podrían ser teóricas (una mejora en la validez y precisión del primer procedimiento, en cuyo caso estamos buscando un nuevo gold standard), o prácticas (mayores sencillez o rapidez, menores precio, riesgos o molestias).

Para saber si podemos sustituir el patrón de referencia con la prueba diagnóstica es preciso comprobar la validez de la nueva prueba. Esto se hace comparando los resultados de la prueba a evaluar con los del patrón de referencia en una misma muestra de sujetos.

5

En la figura anexa vemos que ambas pruebas han clasificado como positivos (en rojo) a la misma proporción de sujetos, pero hay dos casos clasificados de forma diferente por la prueba diagnóstica a evaluar.

Para comparar los resultados de ambas pruebas podemos elaborar una tabla de contingencia en la que situamos en las columnas los casos clasificados por el patrón de referencia y en las filas los clasificados por la prueba diagnóstica.

Para juzgar si la prueba diagnóstica es lo suficientemente válida hay que estimar la importancia cuantitativa y cualitativa de los errores que comete.

Los casos que son correctamente clasificados por la prueba diagnóstica con respecto al patrón de referencia son los verdaderos positivos y negativos (colores lisos). Los errores son los falsos positivos y negativos (colores rayados).

Cuando aplicamos una prueba diagnóstica a un paciente es frecuente que hagamos una interpretación directa del resultado, asumiendo que si la prueba es positiva (+) el paciente está enfermo y que si la prueba es negativa (-) está sano. Sin embargo, este planteamiento es erróneo.

6

El planteamiento más adecuado es el siguiente: mi paciente tiene una probabilidad de estar enfermo que podemos estimar antes de aplicar la prueba (probabilidad preprueba); tras aplicar la prueba, si esta es positiva (+) la probabilidad de tener la enfermedad aumenta y si es negativa (-) la probabilidad disminuye.

La nueva probabilidad se conoce como probabilidad posprueba y depende tanto de la probabilidad preprueba del paciente como del grado de validez de la prueba diagnóstica. Cuanto mayores sean ambos componentes, mayor será la probabilidad posprueba.

Si la nueva probabilidad supone un cambio sustancial a la estimación previa, habremos ganado certidumbre diagnóstica. Así ocurrirá cuando la nueva estimación se sitúe por encima del umbral terapéutico o por debajo del umbral diagnóstico. Hay que tener en cuenta que los umbrales que manejamos para la probabilidad preprueba pueden cambiar para la probabilidad posprueba.

Anteriormente vimos que la probabilidad preprueba se estimaba a partir de nuestra experiencia o de estudios publicados. Para estimar la probabilidad posprueba, además de la probabilidad preprueba, necesitamos conocer la validez de la prueba diagnóstica.

Una prueba es tanto más válida cuantos menos errores comete respecto al patrón de referencia. Si una prueba diagnóstica fuera perfecta (tan válida como el patrón de referencia) las probabilidades posprueba positiva y negativa serían respectivamente 1 (100%) y 0 (0%). Sin embargo, las pruebas diagnósticas perfectas son excepcionales en biomedicina.

Por ello, el cambio de probabilidad no alcanza los valores extremos, aunque en ocasiones puede acercarse.

VALORACIÓN CRÍTICA DE ESTUDIOS DE EVALUACIÓN DE PRUEBAS

El diseño básico de un estudio de evaluación de la validez de pruebas diagnósticas se sustenta en que a una muestra adecuada de pacientes se les realiza de forma simultánea e independiente la prueba diagnóstica a evaluar y un patrón de referencia válido, que clasifique a los sujetos como enfermos o no enfermos (positivos-negativos).

7

Los resultados de la prueba a evaluar se comparan con los del patrón de referencia, de manera que a mayor concordancia entre ambas la prueba diagnóstica será más válida.

La valoración crítica de estudios de evaluación de pruebas diagnósticas debe considerar una serie de aspectos que tienen que ver con el diseño-ejecución de los estudios y con la presentación de los resultados.

Los aspectos más importantes son:

1. Patrón de referencia válido. 2. Espectro de pacientes adecuado. 3. Comparación independiente:

a. Sesgo de revisión o valoración no ciega. b. Sesgo de incorporación. c. Sesgo de secuencia o verificación diagnóstica.

4. Descripción completa de los métodos. 5. Presentación correcta de los resultados. 6. Repercusión sobre el manejo diagnóstico-terapéutico.

Patrón de referencia válido

El primer requisito para la evaluación de la validez de una prueba diagnóstica es que el estudio emplee un patrón de referencia adecuado que diferencie de forma inequívoca a los sujetos enfermos de los no enfermos. Este patrón de referencia podrá ser otra prueba diagnóstica o un conjunto de criterios de clasificación.

En ocasiones el patrón de referencia es imperfecto pudiendo producir resultados indeterminados, falsos positivos o negativos. Por ejemplo, para evaluar la validez de la leucocituria en tira reactiva para el diagnóstico de infección urinaria, lo habitual es emplear el urocultivo como patrón de referencia. Aunque el urocultivo es el patrón de referencia usado en la práctica clínica, si la técnica de recogida de este no es estéril (por ejemplo: bolsa perineal), habrá falsos positivos y resultados indeterminados (urocultivos contaminados). La exclusión de los resultados indeterminados es un error muy común que distorsiona los resultados.

8

Espectro de pacientes adecuado

El segundo requisito que debe cumplir un estudio de evaluación de la validez de una prueba diagnóstica es que la muestra de pacientes sea adecuada. El espectro de pacientes seleccionado debe ser representativo de los pacientes con sospecha de enfermedad. Si hay una desproporción de casos graves o leves o se seleccionan sujetos sanos los resultados del estudio pueden no ser generalizables.

Hay que tener en cuenta que cualquier prueba diferenciará entre sujetos graves y sanos.

Comparación independiente

Para valorar una prueba diagnóstica debe hacerse una comparación independiente con un patrón de referencia. El resultado de la prueba diagnóstica no debe influir en la interpretación del patrón de referencia y viceversa. Esto es especialmente importante cuando la interpretación de las pruebas es subjetiva.

Por evitar este tipo de sesgo interesa establecer técnicas de cegamiento o enmascaramiento en la interpretación de las pruebas.

Cuando la interpretación de las pruebas es subjetiva y no se ha realizado enmascaramiento podemos incurrir en un sesgo de revisión o de valoración no ciega.

En algunos estudios la clasificación de los sujetos en enfermos o no enfermos se realiza empleando patrones de referencia compuestos por más de una prueba o criterio. En estos estudios debe valorarse si la prueba diagnóstica se encuentra parcial o totalmente incluida entre los elementos del patrón de referencia.

Así ha ocurrido en algún estudio que ha valorado marcadores biológicos de infección neonatal. No es excepcional que el patrón de referencia de estos estudios incluya, además de los cultivos, criterios clínicos o analíticos implicados en la valoración (hemograma, PCR, etc.).

Cuando la prueba diagnóstica está incluida parcial o totalmente en el patrón de referencia incurrimos en un sesgo de incorporación.

En los estudios con diseño prospectivo, en los que a los sujetos participantes primero se les realiza la prueba diagnóstica y más tarde el patrón de referencia, puede ocurrir que el resultado de la prueba a evaluar influya en la realización del patrón de referencia.

Esto será más probable cuando el patrón de referencia sea una prueba cara o invasiva. Se conoce como sesgo de secuencia o verificación diagnóstica.

En estos casos la prevalencia o probabilidad preprueba de enfermedad puede estar sesgada e igualmente los indicadores de validez.

9

Descripción completa de métodos

Otro criterio que valorar en estos estudios es si se han descrito de forma precisa todos los métodos de realización de la prueba diagnóstica. Deben detallarse las técnicas, materiales, procedimientos y criterios de interpretación, de manera que permitan su reproducción.

Presentación correcta de los resultados

Asimismo, los resultados deberán presentarse con el detalle suficiente, mostrando todos los indicadores de validez (incluidos los cocientes de probabilidades) o al menos los datos para calcularlos: recuentos de verdaderos positivos y negativos y falsos positivos y negativos.

Repercusión sobre el manejo diagnóstico-terapéutico

Si el estudio de evaluación de una prueba diagnóstica ha sido realizado de forma correcta, cumpliendo los requisitos expuestos hasta ahora, podremos calcular las probabilidades posprueba.

El último paso de valoración será juzgar la ganancia diagnóstica que produce la prueba diagnóstica. Nos interesa ver los cambios entre la probabilidad preprueba y las probabilidades posprueba positiva y negativa y lo que es más importante si creemos que estos cambios pueden influir en nuestra toma de decisiones diagnósticas o terapéuticas. Asimismo, tendremos que juzgar si los cambios en nuestras decisiones beneficiarán al paciente.

Evaluación de resultados

Hasta ahora hemos visto que la validez de una prueba diagnóstica se establece comparándola con un patrón de referencia. Para revisar los métodos de comparación vamos a utilizar un ejemplo: reclutamos a 100 niños mayores de 3 años con síndrome miccional en los que sospechamos infección urinaria. Queremos saber la validez de la estearasa leucocitaria en tira reactiva urinaria para el diagnóstico de infección de orina.

La estrategia lógica es recoger a todos los pacientes una muestra de orina con la que realizaremos un cultivo, el patrón de referencia habitual, y una estearasa leucocitaria en tira reactiva. Compararemos los resultados de ambas pruebas.

10

El 30% de los pacientes tuvieron un cultivo positivo (recuento significativo de un microorganismo). Esta sería la prevalencia de infección urinaria, que podemos usar en adelante como estimación de probabilidad preprueba.

Es conveniente que nos refiramos a partir de ahora a las probabilidades como proporciones por 1 (no por 100). Por lo tanto, la probabilidad preprueba sería 0,30.

En la siguiente figura se representan los casos en los que la prueba diagnóstica (estearasa leucocitaria) ha dado positiva y negativa. En la mayoría de los casos con infección urinaria la prueba ha dado positiva, pero no en todos (falsos negativos; en rayado rojo). Igualmente, en la mayoría de los casos sin infección la prueba ha dado negativa, pero no en todos (falsos positivos; en rayado verde).

De los 30 casos con infección urinaria la estearasa leucocitaria detectó como positivos 26. Esta proporción de verdaderos positivos representa la sensibilidad de la prueba (26 / 30 = 0,86).

De los 70 casos sin infección la estearasa leucocitaria identificó como negativos 54. Esta proporción de verdaderos negativos representa la especificidad de la prueba (54/70 = 0,77).

De los 42 casos en los que la estearasa leucocitaria dio positiva solo 26 tenían infección urinaria. Esta proporción representa el valor predictivo positivo (26 / 42 = 0,61).

11

De los 58 casos en los que la estearasa leucocitaria dio negativa, 54 no tenían infección urinaria. Esta proporción representa el valor predictivo negativo (54 / 58 = 0,93).

La forma más intuitiva de representar la concordancia entre los resultados de una prueba diagnóstica y su patrón de referencia es construir una tabla de contingencia. En las columnas se sitúan los positivos y negativos del patrón de referencia y en las filas los positivos y negativos de la prueba diagnóstica. A partir de los recuentos de cada casilla se pueden estimar todos los indicadores de validez:

Sensibilidad = a / (a + c) = 26 / 30 = 0,86.

Especificidad = d / (b + d) = 54 / 70 = 0,77.

Probabilidad preprueba = (a + c) / (a + b + c + d) = 30 / 100 = 0,30.

Valor predictivo positivo = a / (a + b) = 26 / 42 = 0,61.

Valor predictivo negativo = d / (c + d) = 54 / 58 = 0,93.

La sensibilidad y la especificidad nos permiten saber la proporción de sujetos enfermos y sanos que clasificamos correctamente.

Sin embargo, en la práctica clínica lo que más nos interesa es saber, una vez hecha la prueba diagnóstica y conocido su resultado, qué probabilidad tiene nuestro paciente de tener la enfermedad objeto de estudio. Lo que conocemos como probabilidad posprueba.

De ello nos informan los valores predictivos, pero estos valores solo son aplicables al entorno de la muestra en que fue evaluada la prueba. Si la probabilidad preprueba en nuestro paciente es distinta, los valores predictivos no son aplicables.

Para calcular las probabilidades posprueba necesitamos otros indicadores que se calculan a partir de la sensibilidad y especificidad: los cocientes de probabilidades.

El cociente de probabilidades (CP), también llamado razón de verosimilitudes (en inglés, likelihood ratio; LR), se define como la probabilidad del resultado de una prueba en presencia de enfermedad (patrón de referencia positivo) dividido por la probabilidad de dicho resultado en ausencia de enfermedad (patrón de referencia negativo).

12

Se puede calcular un cociente de probabilidades para cada posible resultado de una prueba diagnóstica, lo cual resulta muy útil cuando la prueba tiene más de dos resultados (ejemplo: positivo, dudoso y negativo). A diferencia de los conceptos de sensibilidad y especificidad, que se refieren a pruebas con resultado dicotómico, los cocientes de probabilidades nos facilitan el análisis e interpretación de pruebas de resultado múltiple.

En la imagen representamos el CP para el resultado positivo (CP+) de una prueba diagnóstica.

Para pruebas con resultado dicotómico (positivo y negativo) podemos calcular los cocientes de probabilidades directamente de la sensibilidad y especificidad de la prueba (sin conocer los recuentos).

El CP positivo se estima dividiendo la sensibilidad por el complementario de la especificidad y adopta valores mayores de 1. A mayor CP+ más aumenta la probabilidad posprueba.

3,790,771

0,86Es1

SeCP =−

=−

=+

El CP negativo se estima dividiendo el complementario de la sensibilidad por la especificidad y adopta valores menores de 1. A menor CP- más disminuye la probabilidad posprueba.

0,170,770,861-

EsSe1- CP ===−

Con los valores de los CP podemos estimar la probabilidad posprueba.

13

El cálculo de las probabilidades posprueba resulta complejo, pero disponemos de herramientas que simplifican esta tarea. Una de estas herramientas es el nomograma de Fagan.

El nomograma de Fagan representa en tres líneas verticales de izquierda a derecha, la probabilidad preprueba (invertida), el cociente de probabilidades a aplicar y la probabilidad posprueba resultante. Basta trazar una recta a partir de la probabilidad preprueba que cruce el CP correspondiente. El punto en el que se cruza la línea vertical derecha localiza la probabilidad posprueba.

Imaginemos un paciente con una probabilidad preprueba de infección urinaria del 18% (0,18). La probabilidad de infección en el estudio en el que evaluamos la estearasa leucocitaria en orina era del 30% (0,30). Por lo tanto, los valores predictivos no son aplicables.

Aplicando el CP+ (3,79) calculamos la probabilidad posprueba positiva (aproximadamente 45%).

14

Partiendo de la misma probabilidad preprueba (18%) podemos usar el CP- (0,17), para calcular la probabilidad posprueba negativa (aproximadamente 4%).

Como vemos existe una ganancia diagnóstica importante, que podría ser suficiente para tomar decisiones clínicas, a pesar de que persiste cierto grado de incertidumbre.

Al igual que con cualquier estimador obtenido a partir de una muestra, a los cocientes de probabilidades y a las probabilidades posprueba les corresponden cierta imprecisión que se concreta en intervalos de confianza.

En la siguiente imagen podemos ver el intervalo de confianza de la probabilidad posprueba positiva (31 a 60%):

Además del nomograma de Fagan existen otras herramientas de fácil uso que nos ayudan a estimar los indicadores de validez de pruebas diagnósticas y a realizar el cálculo de probabilidades posprueba adaptadas a pacientes o escenarios clínicos concretos.

En la dirección http://www.redcaspe.org/herramientas/calculadoras podemos descargar una hoja de cálculo en la que basta introducir los recuentos de la tabla de contingencia para obtener todos los indicadores.

En la tabla de contingencia se introducen los recuentos (casillas sombreadas en verde). Debajo aparecen los cálculos (fondo naranja).

15

En la misma hoja de cálculo, más abajo, podemos introducir la probabilidad preprueba de nuestro paciente (fondo verde) y ver las probabilidades posprueba debajo.

Con las estimaciones de sensibilidad, especificidad, cocientes de probabilidades y probabilidades posprueba para los escenarios clínicos más comunes, ya podemos valorar la utilidad de la prueba diagnóstica para nuestra toma de decisiones diagnósticas o terapéuticas y finalmente el beneficio esperado en el paciente de dichas decisiones.

PLANILLA DE EVALUACIÓN DE ESTUDIOS DE PRUEBAS DIAGNÓSTICAS

Se aconseja seguir un guion en el proceso de valoración de pruebas diagnósticas. Recomendamos la herramienta diseñada por el grupo CASP (Critical Appraisal Skills Program), del que presentamos a continuación una versión adaptada.

Como ayuda para poder contestar la planilla de preguntas de evaluación se adjunta un documento de ayuda:

1.

16

Diez preguntas para ayudarte a entender un artículo sobre una prueba diagnóstica Adaptadas de: Jaeschke R et al., Users’ guides to the medical literature, III How to use an article about a diagnostic test. (JAMA. 1994;271:389-91; JAMA. 1994;271:703-7).

A. ¿Son válidos los resultados del estudio? Preguntas “de eliminación”

1. ¿Existió una comparación “ciega”, independiente con un estándar de referencia? Pista: por ejemplo, biopsia, autopsia, seguimiento a largo plazo.

2. ¿Incluyó la muestra de pacientes un espectro adecuado de pacientes? Pista: casi cualquier prueba distingue entre sanos y gravemente enfermos.

¿Merece la pena continuar?: preguntas detalladas

3. ¿Influyeron los resultados de la prueba objeto de evaluación en la realización del estándar de referencia? Pista: ¿se hizo el estándar sólo en los “positivos” en la prueba a evaluar?

4. ¿Se describen los métodos con suficiente detalle para permitir su reproducción? Pista: esta descripción debe incluir todos los aspectos de la preparación de pacientes, realización de la prueba y su interpretación.

B. ¿Cuáles son los resultados? 5. ¿Se presentan los cocientes de probabilidad (likelihood ratios) o los datos para

calcularlos?

6. ¿Cuán precisos son los resultados? Pista: busque o calcule los intervalos de confianza.

C. ¿Son los resultados aplicables en tu medio? 7. ¿Serán satisfactorios en mi ámbito la reproducibilidad de la prueba y su interpretación?

Pista: considere si los pacientes del estudio pueden ser suficientemente diferentes de los de su área.

8. ¿Son aplicables los resultados a mi paciente? Pista: considere que las propiedades de una prueba pueden cambiar por una combinación diferente de grados de gravedad o una distribución diferente de procesos alternativos.

9. ¿Modificarán los resultados de la prueba mi tratamiento? Pista: considere los “umbrales” de la prueba y el tratamiento (probabilidades por debajo de las que se descarta un diagnóstico).

10. ¿Se beneficiarán los pacientes como consecuencia del resultado de la prueba? Pistas: considere si la prueba añade información más allá de la disponible. Esta información conduce a un cambio del tratamiento.

17

Consejos para contestar las preguntas de la planilla de valoración crítica

A. ¿Existió una comparación “ciega”, independiente con un estándar de referencia?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Métodos”; subapartado de “Análisis estadístico”

Prueba (patrón de referencia) o criterios que se emplean para clasificar a los pacientes como “positivos” o “negativos” (con la enfermedad objeto de diagnóstico)

Criterios de clasificación de positivos, negativos e indeterminados

Posible influencia del resultado de la prueba a evaluar en la realización o interpretación del patrón de referencia

B. ¿Incluyó la muestra de pacientes un espectro adecuado de pacientes?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Métodos”; subapartado de “Muestra de estudio”

Otros lugares: primeros párrafos y tablas del apartado de “Resultados”

Criterios de inclusión y exclusión

Características de la muestra finalmente reclutada

C. ¿Influyeron los resultados de la prueba objeto de evaluación en la realización del estándar de referencia?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Métodos”

Otros lugares: primeros párrafos del apartado de “Resultados”

Temporalidad de la realización e interpretación de la prueba evaluada y del estándar de referencia

Porcentaje de la muestra inicial a la que se hizo cada prueba y con resultados disponibles. Diferencias según el resultado de la prueba.

D. ¿Se describen los métodos con suficiente detalle para permitir su reproducción?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Métodos”

Descripción de las técnicas y su realización en los pacientes

Descripción de la interpretación de resultados positivos, negativos e indeterminados

¿Aporta información suficiente para su reproducción?

¿El procedimiento empleado impide que se manipule la asignación?

18

E. ¿Cuáles son los resultados? Busca los datos para calcular los indicadores de validez

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: primeros párrafos y tablas del apartado de “Resultados”

Si el artículo no facilita alguna medida, emplear una calculadora para su estimación a partir de los recuentos (por ejemplo, la que se descarga desde la página: www.redcaspe.org/herramientas/calculadoras)

Verdaderos positivos: casos con la prueba diagnóstica positiva que tienen la enfermedad o diagnóstico de referencia positivo (patrón de referencia positivo). Se pueden estimar multiplicando el número de enfermos por la sensibilidad (en probabilidad por 1)

Falsos positivos: casos con la prueba diagnóstica positiva que no tienen la enfermedad o que tienen diagnóstico de referencia negativo (patrón de referencia negativo). Se pueden estimar multiplicando el número de sanos por el complementario de la especificidad (1 - especificidad)

Falsos negativos: casos con la prueba diagnóstica negativa que tienen la enfermedad o que tienen diagnóstico de referencia positivo (patrón de referencia positivo). Se pueden estimar multiplicando el número de enfermos por el complementario de la sensibilidad (1 - sensibilidad)

Verdaderos negativos: casos con la prueba diagnóstica negativa que están sanos o que tienen diagnóstico de referencia negativo (patrón de referencia negativo). Se pueden estimar multiplicando el número de sanos por el complementario de la especificidad (en probabilidad por 1)

F. ¿Se presentan los cocientes de probabilidad (likelihood ratios) o los datos para calcularlos?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: primeros párrafos y tablas del apartado de “Resultados”

Si el artículo no facilita alguna medida, emplear una calculadora para su estimación a partir de los recuentos (por ejemplo, la que se descarga desde la página: www.redcaspe.org/herramientas/calculadoras)

Cocientes de probabilidades (CP) o razones de verosimilitudes: probabilidad del resultado de una prueba en presencia de enfermedad dividido por la probabilidad de dicho resultado en ausencia de enfermedad. Para pruebas con resultado dicotómico tendremos un CP positivo y un CP negativo que se estiman a partir de la sensibilidad y la especificidad

Sensibilidad: proporción de enfermos (patrón de referencia positivo) con la prueba diagnóstica positiva. Se calcula dividiendo los verdaderos positivos por el total de enfermos

19

Especificidad: proporción de sujetos sanos (patrón de referencia negativo) con la prueba diagnóstica negativa. Se calcula dividiendo los verdaderos negativos por el total de sujetos sanos

Probabilidades posprueba ajustadas al riesgo o probabilidad preprueba esperado en la práctica clínica

G. ¿Cuán precisos son los resultados? Busca o calcula los intervalos de confianza

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: primeros párrafos y tablas del apartado de “Resultados”.

Si el artículo no facilita alguna medida, emplear una calculadora para su estimación a partir de los recuentos (por ejemplo, la que se descarga desde la página: www.redcaspe.org/herramientas/calculadoras)

Intervalos de confianza del 95% de la sensibilidad, especificidad y cocientes de probabilidades

H. ¿Serán satisfactorios en mi ámbito la reproducibilidad de la prueba y su interpretación?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Métodos” (methods)

Otros lugares: primeros párrafos y tablas del apartado de “Resultados”

Descripción de las características, procedimientos de ejecución e interpretación de la prueba diagnóstica evaluada

Análisis de la reproducibilidad de la prueba

Análisis de la variabilidad de la prueba en función de las características del paciente o del evaluador

Valoración de resultados dudosos, no interpretables o perdidos

I. ¿Son aplicables los resultados a mi paciente?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: Apartado de “Métodos” (methods)

Otros lugares: primeros párrafos y tablas del apartado de “Resultados”

Criterios de inclusión y exclusión

Características de los pacientes incluidos y perdidos o con datos incompletos

Diferencias en la validez de la prueba por subgrupos

J. ¿Modificarán los resultados de la prueba mi tratamiento?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Resultados” Estimaciones de probabilidades preprueba para distintos escenarios clínicos y sus

20

Otros lugares: apartado de “Discusión” correspondientes probabilidades posprueba positiva y negativa

Rendimiento clínico de la prueba: relación de diferentes resultados con la toma de decisiones diagnósticas y terapéuticas

Comentarios sobre el impacto clínico de los resultados de la prueba

Interpretación subjetiva de los resultados

K. ¿Se beneficiarán los pacientes como consecuencia del resultado de la prueba?

¿Dónde buscar? ¿Qué buscar?

Lugar habitual: apartado de “Resultados”

Otros lugares: apartado de “Discusión”

Beneficios observados o esperados con la modificación diagnóstica o terapéutica inducida por la aplicación de la prueba diagnóstica (¿beneficia el diagnóstico o el tratamiento al paciente?)

Beneficios de los verdaderos positivos (adelanto del tratamiento) y verdaderos negativos (tratamientos y cultivos evitados), ponderados con los riesgos o costes de los falsos positivos (tratamientos innecesarios) y falsos negativos (complicaciones)

BIBLIOGRAFÍA RECOMENDADA

• Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol. 1997;50:507-19.

• McIsaac WJ, Goel V, To T, Low DE. The validity of a sore throat score in family practice. CMAJ. 2000;163:811-5.

• Molina Arias M, Ochoa Sangrador C. Evaluación de la validez de las pruebas diagnósticas (I). Sensibilidad. Especificidad. Evid Pediatr. 2016;12:34.

• Molina Arias M, Ochoa Sangrador C. Evaluación de la validez de las pruebas diagnósticas (II). Valores predictivos. Evid Pediatr. 2016;12:53.

• Molina Arias M, Ochoa Sangrador C. Evaluación de la validez de las pruebas diagnósticas (III). Cocientes de probabilidades. Evid Pediatr. 2016;12:69.

• Molina Arias M, Ochoa Sangrador C. Pruebas diagnósticas con resultados continuos o politómicos. Curvas ROC. Evid Pediatr. 2017;13:12.

• Ochoa Sangrador C, Orejas G. Epidemiología y metodología científica aplicada a la Pediatría (IV): Pruebas diagnósticas. An Esp Pediatr. 1999;50:301-14.

• Ochoa Sangrador C. Valoración crítica de documentos científicos. Aplicabilidad de los resultados de la valoración a nuestra práctica clínica. Bol Pediatr. 2002;42:120-30.

• Pauker SG, Kasirer JP. The threshold approach to clinical decision making. N Engl J Med. 1980;302:1109-11.

21

• Pozo F. La eficacia de las pruebas diagnósticas (I). Med Clin (Barc). 1988;90:779-85. • Pozo F. La eficacia de las pruebas diagnósticas (II). Med Clin (Barc). 1988;91:177-83. • Ramos JM, Hernández I. Investigación sobre pruebas diagnósticas en Medicina Clínica.

Valoración de la metodología. Med Clin (Barc). 1998;111:129-34. • Ransohof DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of

diagnostic test. N Engl J Med. 1978;299:926-30. • Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of

diagnostic tests. N Engl J Med. 1978;299:926-30. • Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test

research. Getting better but still not good. JAMA. 1995;274:645-51. • Shapiro DE. The interpretation of diagnostic tests. Stat Methods Med Res. 1999;8:113-34. • Zhou XH. Correcting for verification bias in studies of a diagnostic test's accuracy. Stat

Methods Med Res. 1998;7:337-53.