siiclogo2c.gif (4671 bytes)
BASES TEORICAS PARA LA LECTURA CRITICA DE ARTICULOS SOBRE PRUEBAS DIAGNOSTICAS EN NEUROLOGIA
(especial para SIIC © Derechos reservados)
bbbb
cccc

isc.jpg marma9.jpg Autor:
Pablo Martínez Martín
Columnista Experto de SIIC

Institución:
Sección de Neuroepidemiología Centro Nacional de Epidemiología Instituto de Salud Carlos III

Artículos publicados por Pablo Martínez Martín 

Recepción del artículo: 4 de enero, 2005

Aprobación: 11 de enero, 2005

Primera edición: 7 de junio, 2021

Segunda edición, ampliada y corregida 7 de junio, 2021

Conclusión breve
Revisión acerca de los principios en que se basan los juicios acerca de la calidad de una prueba diagnóstica.

Resumen

Dado el destacado papel del diagnóstico en la toma de decisiones relacionada con la práctica clínica, la investigación y la gestión, es conveniente revisar los principios en los que se basan los juicios acerca de la calidad de una prueba diagnóstica. Tras revisar sucintamente los tipos de razonamientos y enfoques diagnósticos, que intentan explicar cómo se integran anamnesis, observación, experiencia y conocimiento teórico, se exponen las propiedades que caracterizan adecuadamente una prueba diagnóstica (PD) y cómo se pueden cuantificar. La fiabilidad, entendida como estabilidad del resultado, puede determinarse por estadísticos como kappa, el coeficiente de correlación intraclase o el porcentaje de acuerdo, según el tipo de variable. La validez, atributo por el que la PD sirve para aquello que fue diseñada, presenta diferentes aspectos calculables (sensibilidad, especificidad, valor predictivo, cocientes de probablidad, etc.), cada uno de los cuales informa una propiedad relevante. Finalmente, se revisan los posibles defectos que pueden sesgar la caracterización de una PD. Siguiendo guías de “medicina basada en pruebas” para lectura crítica de artículos sobre PD, estaremos en condiciones de valorar la calidad de un estudio sobre esta materia.

Palabras clave
Pruebas diagnósticas, caracterización, índices, lectura crítica, neurología

Clasificación en siicsalud
Artículos originales> Expertos del Mundo>
página www.siicsalud.com/des/expertos.php/71873

Especialidades
Principal: Neurología
Relacionadas: Medicina Interna

Enviar correspondencia a:
Pablo Martínez Martín. Sección de Neuroepidemiología, Centro Nacional de Epidemiología, Instituto de Salud Carlos III. Sinesio Delgado 6. 28029 - Madrid, España.

THEORETICAL BASES FOR CRITICAL READING OF ARTICLES ABOUT DIAGNOSTIC TESTS IN NEUROLOGY

Abstract
As a consequence of the relevant role of diagnosis in decision making related to clinical practice, research and health management, the review of principles in which judgements about the quality of a diagnostic test are based is very convenient. After reviewing briefly the diagnostic reasoning types and approaches that show how clinical history, examination, experience, and theoretical knowledge may be combined, the main characteristics of a diagnostic test are reviewed. The statistical methods to quantify these properties are also shown. Reliability , understood as stability of results, may be determined by means of such statistics as kappa, interclass correlation coefficient, or percentage of agreement, according to the type of variable. Validity is the test attribute needed for the purpose for which it was designed. Some different aspects of this attribute, such as sensitivity, specificity, predictive values, likelihood ratios, etc. may be calculated and each of them is relevant to different aspects of the test validity. Finally a list of possible biases are analysed. It is proposed that if we follow the Evidence-Based Medicine guidelines for critical reading of articles on diagnostic tests, we will be able to assess the quality of a paper on this matter.


Key words
Diagnostic tests, characterization, indexes, critical reading, neurology

BASES TEORICAS PARA LA LECTURA CRITICA DE ARTICULOS SOBRE PRUEBAS DIAGNOSTICAS EN NEUROLOGIA

(especial para SIIC © Derechos reservados)

Artículo completo
Introducción
En Neurología, al igual que en otras especialidades médicas, la atención al paciente y la investigación aplicada (por ejemplo, los ensayos clínicos) requieren un diagnóstico preciso como base para el resto de las actuaciones. En Epidemiología y, por tanto, en Neuroepidemiología, también es necesario un diagnóstico exacto que permita asignar correctamente los individuos al grupo de población correspondiente. Es obvio que sin un diagnóstico apropiado ninguna actuación posterior es fiable.
Habitualmente, el clínico emite un diagnóstico inicial (de sospecha), con un grado determinado de certidumbre (probabilidad). De forma simultánea, suele contemplar algunas posibilidades alternativas (diagnóstico diferencial) cuya presencia puede ser necesario descartar antes de dar como definitivo el diagnóstico de sospecha.
El proceso diagnóstico que hemos descrito en forma sumaria supone una actividad intelectual de complejidad variable basada en el conocimiento y la experiencia, pero frecuentemente necesitado de la obtención de pruebas que ratifiquen la hipótesis diagnóstica y descarten las alternativas (razonamiento diagnóstico).
Los tests o pruebas diagnósticas (PD) son de naturaleza muy variada y van desde un hallazgo específico en una prueba clínica (por ejemplo, caída de la tensión arterial tras la bipedestación en un paciente con sospecha de ortostatismo) hasta la prueba de laboratorio o de neuroimagen más sofisticada (por ejemplo, un PET).
Dado que la utilización de PD es constante y la correcta interpretación de sus resultados como pruebas (“evidencias”) a favor o en contra de un diagnóstico es crucial para el diagnóstico, conviene revisar el marco conceptual para la elección e interpretación de una prueba diagnóstica y cuáles son las características que debe poseer una prueba útil. La selección de pruebas eficientes (exactas y al menor costo posible en tiempo, riesgos para el paciente y consumo de recursos) debería hacerse sobre la mejor evidencia científica disponible. Los fundamentos teóricos para la lectura crítica de artículos sobre PD en Neurología son el objetivo del presente artículo.
Razonamiento diagnóstico, pruebas y toma de decisiones
En un escenario clínico, la hipótesis diagnóstica inicial se genera durante la obtención de la historia y la exploración, tomando en cuenta una serie de factores (principales síntomas y signos, frecuencia de la enfermedad en ese medio, la edad y sexo del paciente, etc.), mediante un proceso heurístico (heurística: “técnica de la indagación y del descubrimiento; en algunas ciencias, manera de buscar la solución de un problema mediante métodos no rigurosos, como por tanteo, reglas empíricas, etc.”)1 constituido por componentes poco explícitos, mezcla de conocimiento, intuición, conjeturas, etc., que dependen de la capacidad del médico para establecer relaciones entre atributos observados, experiencia previa y su conocimiento del “modelo” de la enfermedad. Posteriormente entran en juego elementos adicionales (resultados de las PD) para incrementar el nivel de certidumbre sobre el diagnóstico principal y para excluir las hipótesis alternativas.
Los diferentes tipos de razonamiento diagnóstico han sido sistematizados del siguiente modo:2,3
1. Reconocimiento del modelo: Se basa en la comparación y reconocimiento del aspecto observado con modelos abstractos o prototípicos, sumamente específicos de una enfermedad: manchas café con leche, facies cushingoide o hipertiroidea, síndrome de Down, miotonía con facies miopática, etc. Este reconocimiento del modelo surge de forma casi automática una vez se conoce el prototipo, por lo cual depende mucho de la experiencia y la interpretación de la observación.
2. Razonamiento causal: Se basa en el conocimiento de los mecanismos fisiológicos, la fisiopatología en la enfermedad y la idiosincrasia del paciente concreto. Establece relaciones causa-efecto entre variables y explica cómo se llega a la expresión actual del proceso (lo que se observa es congruente con las manifestaciones de la enfermedad). Permite valorar hipótesis alternativas aparentemente similares y discriminar entre ellas precisamente por la consideración de las relaciones causa-efecto. Por ejemplo, una cefalea intensa con náuseas y vómitos puede ser el resultado de jaqueca o de hipertensión intracraneal, pero si se obtiene una historia de años, sin cambios en sus características, presentación episódica, de 24 horas de duración, distribución hemicraneal, alivio con triptanos, recuperación total tras los episodios y exploración neurológica normal, la incertidumbre diagnóstica queda muy reducida (los datos obtenidos son todos congruentes con jaqueca pero no con hipertensión intracraneal). Este tipo de razonamiento es muy utilizado en Neurología. Requiere un conocimiento fisiopatológico profundo, no siempre disponible, y puede estar limitado por la multicausalidad.
3. Razonamiento probabilístico: Utiliza la asociación entre variables para generar hipótesis y comprobarlas. Permite expresar el nivel de incertidumbre de un modo estandarizado y evaluar hipótesis mediante principios matemáticos (teorema de Bayes). Sin embargo, la complejidad del cálculo de probabilidades tomando en consideración multitud de variables, a veces deficientemente estimadas, resulta frecuentemente irrealizable. Por el contrario, unos cuantos parámetros sobre el rendimiento de una PD, basados en el cálculo de probabilidades –los valores predictivos, positivo y negativo (véase el apartado “Validez de una prueba diagnóstica”)– son asequibles y permiten la toma de decisiones sobre el uso y la interpretación de la prueba.
4. Razonamiento hipotético-deductivo: La generación y comprobación de hipótesis se realiza según esquemas definidos. Se selecciona un conjunto de datos del caso problema y se genera una serie de posibles diagnósticos con expresión similar, frente a los cuales se va comparando el conjunto actual y graduando la coincidencia. Es evidente que este tipo de razonamiento está muy relacionado con el razonamiento causal y con el heurístico.
5. Razonamiento heurístico: Se basa en complejas reglas de conocimiento que manejan simultáneamente gran cantidad de datos, seleccionados e introducidos en conjuntos capaces de evocar modelos abstractos de enfermedad ajustados al paciente concreto. Puede integrar otros tipos de razonamiento diagnóstico, pero puede conllevar errores sistemáticos notables debidos al importante papel de la intuición en su desarrollo.
6. Razonamiento determinista: Basado en algoritmos o diagramas de flujo diagnóstico, que son la representación final del razonamiento probabilístico. En ellos se indica la decisión en función del resultado del atributo previamente probado. Estrategias de este tipo, comunes en las “guías de práctica clínica”, se usan como apoyo para profesionales con escasa experiencia o por adhesión a un protocolo de práctica clínica o de investigación. La principal aportación del usuario es la de suministrar datos fiables que permitan aplicar el algoritmo con propiedad. Disminuye la variabilidad en la práctica e incrementa la eficiencia diagnóstica. Los problemas inherentes a este tipo de razonamiento provienen del uso de datos erróneos para el punto de partida, de la validez del algoritmo y de la rigidez impuesta a los puntos de decisión.
El enfoque diagnóstico puede ser clasificado desde un punto de vista práctico como:4a. Pronóstico. Se intenta diagnosticar preferentemente las posibilidades más graves.
b. Pragmático. Se intenta diagnosticar preferentemente aquellas enfermedades con tratamiento eficaz.
c. Posibilístico. Existen varias posibilidades equivalentes y hay que estudiarlas simultáneamente.
d. Probabilístico. El trabajo diagnóstico se dirige especialmente a las enfermedades más probables.
El proceso diagnóstico inicial da paso a la solicitud de PD, según el enfoque que se haya dado al caso. Es en este momento cuando surgen nuevas cuestiones acerca de la selección de pruebas a solicitar, su secuencia (a la vez o siguiendo un orden según los resultados), cuáles serán las primeras y cuáles quedarán como último recurso (según valor informativo, tardanza en obtener el resultado, molestias, riesgos, costos, etc.).
Las pruebas combinadas pueden realizarse:5
- “En serie.” Se aplica una prueba A, y a los sujetos que den un resultado positivo se les aplica la siguiente, B. Las características de este modelo son: el diagnóstico final no es urgente y es corroborado por B, que es una prueba cara o peligrosa. Esta secuencia disminuye la sensibilidad, incrementando paralelamente la especificidad y el valor predictivo positivo.
- “En paralelo.” Las pruebas se aplican simultáneamente. El diagnóstico es urgente y el resultado positivo en cualquiera de ellas es considerado evidencia a favor de la presencia de la enfermedad. La estrategia “en paralelo” aumenta la sensibilidad y el valor predictivo negativo, al tiempo que disminuye la especificidad.
Sobre la utilización combinada de pruebas existen pocos estudios formales que orienten en las decisiones, de modo que éstas se adoptan según experiencia y conocimiento, aplicando los criterios de valoración para PD individuales a cada una y comparando.
Fiabilidad y validez
La evaluación de una PD se determina de acuerdo con dos propiedades generales: fiabilidad y validez.
Fiabilidad de una prueba diagnóstica
Este concepto se refiere a la estabilidad de la prueba. Aparece ocasionalmente con otras denominaciones que pretenden destacar algún aspecto concreto del mismo (repetibilidad, reproducibilidad, concordancia). La fiabilidad, en términos estadísticos, se define como la “proporción de la varianza total atribuible a diferencias verdaderas”. Según esto, la variación observada se debe a la diversidad de valores que adopta la variable y no a error, sea éste sistemático o aleatorio. Las principales fuentes de error en la observación pueden provenir del propio observador (tanto en la fase descriptiva como en la interpretativa) y de los aparatos o procedimientos aplicados al diagnóstico.
En términos pragmáticos, la fiabilidad comprende dos vertientes: el grado de concordancia entre diferentes “observadores” (fiabilidad interobservador o interjueces; por ejemplo, positividad de un anticuerpo determinado en varios laboratorios sobre las mismas muestras) y el grado de acuerdo para el mismo observador en momentos diferentes o para la misma prueba realizada en momentos diferentes (fiabilidad intraobservador o test-retest) (por ejemplo, positividad de un anticuerpo determinado en el mismo laboratorio sobre las mismas muestras en momentos diferentes). Es fácil imaginar la importancia de este concepto en determinados contextos (por ejemplo, al interpretar una imagen de resonancia magnética).
La proporción de acuerdos (número de observaciones concordantes dividido por el número total de observaciones) parece intuitivamente suficiente, pero esta determinación no tiene en cuenta el azar, según el cual, una parte del acuerdo puede ser debida a la mera casualidad. Métodos estadísticos que soslayan ese defecto son el índice kappa de Cohen6 y el coeficiente de correlación intraclase (CCI).7 El índice kappa se aplica al supuesto de dos observadores y variables binomiales (por ejemplo, presencia de estenosis carotídea > 60%: sí o no), siendo un derivado de este estadístico el índice kappa ponderado o “con pesos”,8 a aplicar en el caso de variables multinomiales (variables ordinales o nominales con más de dos opciones), que permite estimar la posibilidad del desacuerdo (por ejemplo, es más probable discrepar entre los valores 1 y 2 que entre los valores 1 y 4). Los pesos estandarizados más utilizados para kappa ponderado son los denominados cuadráticos y lineales.9
Es conveniente recordar que el valor de kappa depende de la prevalencia (proporción de observaciones con el atributo entre el número total de observaciones),9,10 por lo que ésta debería acompañar la presentación de los resultados de este estadístico. Prevalencias muy altas (que tienden a 1) y muy bajas (que tienden a 0) disminuyen el valor de kappa por incrementarse la proporción de acuerdos esperados por azar, al revés que con prevalencias intermedias (próximas a 0.5).11 También depende de la simetría de los valores marginales.10 El uso de kappa como prueba de independencia de los observadores (sobre la hipótesis nula de que el acuerdo observado es debido al azar) es correcto, pero su utilización como medida del nivel de acuerdo (como medida del “tamaño del acuerdo”) es problemática porque carece en sí misma de una corrección del azar.
El coeficiente de fiabilidad a aplicar cuando los datos son variables continuas (no nominales ni ordinales) es el coeficiente de correlación intraclase (CCI). Un simple coeficiente de correlación (Pearson o Spearman) no equivale a este coeficiente de concordancia, del cual existen varios modelos según las asunciones que se adopten. Se basa en la proporción de la varianza total debida a la variabilidad “intrasujeto”. Aunque muy usado, su aplicación también tiene problemas: fuerte influencia por la varianza del rasgo en la muestra (en poblaciones heterogéneas tiende a ser alto, en homogéneas tiende a ser bajo), por lo que no se debe usar en poblaciones con varianzas “entre sujetos” diferentes; asume que los valores están en escala de intervalos y, por último, se trata de un estadístico que determina asociación (correlación) en lugar de concordancia (acuerdo), habiéndose propuesto métodos alternativos.12 Tanto para kappa como para el CCI, se requieren valores ≥ 0.60 para considerar que el grado de acuerdo es “sustancial”.13
Para variables ordinales, el porcentaje de acuerdos para cada categoría es una medida fácil de obtener e interpretar que puede acompañar en la presentación de resultados al CCI.14
Validez de una prueba diagnósticaSe entiende por validez la propiedad según la cual una PD identifica o mide aquello para lo que fue diseñada. La validez tiene muchos aspectos a considerar.
La validez operativa es la capacidad de la prueba para clasificar correctamente los sujetos en el grupo apropiado (por ejemplo, si tiene o no estenosis crítica de carótida, infección por HIV, etc.) y se expresa en términos de exactitud diagnóstica. La utilidad de una PD se refiere al valor práctico de la información que aporta. Validez operativa y utilidad práctica no siempre se asocian.5
Los tests con alta sensibilidad, ideales para screening, detectan la mayor parte de individuos con la enfermedad; es decir, tienen una proporción de falsos negativos muy baja. Por el contrario, las PD muy específicas tienen una proporción de falsos positivos muy baja; es decir, tienden a dar “positivo” sólo en individuos con la enfermedad concreta en estudio. Para exponer las definiciones e índices que caracterizan apropiadamente una PD se utiliza típicamente una tabla 2x2 (Tabla 1). Cuanto mayor sea la prevalencia de la enfermedad en la población objeto de estudio, será más probable que un resultado negativo de la prueba sea falso negativo. Por el contrario, a menor prevalencia más probabilidad de que un resultado positivo sea falso positivo. De este argumento se destacan dos puntos a considerar: 1) la prevalencia influye algunos índices de validez de la PD y, 2) cuando haya opciones disponibles y la probabilidad de resultado “falso negativo” sea alta, habrá que favorecer la prueba más sensible y viceversa, ante una alta probabilidad de resultados “falsos positivos” será preferible la prueba más específica.
La “probabilidad preprueba” equivale a la probabilidad de padecer la enfermedad antes de realizar la PD y, para un paciente determinado, equivale a la prevalencia de la enfermedad basada en sus características demográficas y clínicas. El valor predictivo del resultado positivo de una PD (valor predictivo positivo, VPP) es la probabilidad de padecer realmente la enfermedad cuando el resultado ha sido positivo. El valor predictivo del resultado negativo de una PD (valor predictivo negativo, VPN) es la probabilidad de no padecer realmente la enfermedad cuando el resultado ha sido negativo. Estos valores predictivos se denominan también probabilidad posterior o “posprueba” ya que sólo se pueden determinar tras la realización del test. Las pruebas muy específicas poseen un elevado VPP, por lo cual son muy útiles para confirmar la existencia de la enfermedad. Las pruebas con alta sensibilidad tienen un alto VPN y son de ayuda para descartar la enfermedad. Por ejemplo, dada la alta sensibilidad de la TAC para detectar hemorragia intraparenquimatosa, la ausencia de imágenes características tiene un elevado VPN para descartar sangrado en la fase aguda del ictus.
Existe otro método (bayesiano) que permite calcular los valores predictivos a partir de la sensibilidad y la especificidad para distintas probabilidades preprueba, lo cual tiene un gran valor práctico en ocasiones (por ejemplo, en situaciones en que la prevalencia de la enfermedad varía según la edad). La fórmula para ello resulta:



En la Figura 1 se ilustran las relaciones existentes entre prevalencia y valor predictivo. Muestra cómo, en un ejemplo imaginario, la probabilidad preprueba se modifica tras la realización del test, según su resultado sea positivo o negativo. Desde la probabilidad preprueba (por ejemplo, 0.73) se puede trazar una vertical a la línea diagonal que representa la probabilidad posprueba sin resultado informativo (prueba inútil). La distancia A, entre el punto donde dicha vertical corta la diagonal (asterisco) y el punto donde corta la curva superior (resultado positivo) representa la modificación debida al resultado positivo de la PD. De manera similar, la distancia B entre la diagonal y la curva inferior B representa el cambio de probabilidad tras un resultado negativo.15



Figura 1. Muestra cómo, en un ejemplo imaginario, la probabilidad preprueba se modifica tras la realización del test, según su resultado sea positivo o negativo (véase texto).
Para ayudar a conocer la mejor combinación de sensibilidad y especificidad se utilizan los cocientes de probabilidad, positivo (CP+) y negativo (CP-) (denominados en inglés likelihood ratio), que combinan sensibilidad, especificidad y sus números complementarios (1-Sensibilidad, 1-Especificidad):



El CP+ determina la probabilidad de que la prueba sea positiva en un individuo enfermo frente a que sea positiva en un individuo no enfermo. El CP- muestra la probabilidad de que el test sea negativo en un individuo enfermo frente a que sea negativo en un sujeto no enfermo. Un CP = 1 no aporta ninguna información, porque indica que la probabilidad del resultado es la misma en un enfermo que en un no enfermo. Cuanto mayores de 1 sean los valores del CP+, mayor refuerzo de la hipótesis diagnóstica; la mayor proximidad a 0 del CP- produce el efecto contrario.5,16 Los CP permiten calcular la probabilidad posprueba, son más estables a los cambios de prevalencia, son generalizables, permiten determinar tantos CP como niveles de respuesta genere la prueba y el cálculo de intervalos de confianza (permitiendo así cuantificar el error aleatorio).4,17 Los valores predictivos posprueba (probabilidad a posteriori) pueden ser calculados a partir de la prevalencia (probabilidad a priori, transformada en odds ratio: probabilidad/1-probabilidad) y los cocientes de probabilidad (Tabla 1).



Tabla 1. Indices de validez de una prueba diagnóstica.
a: Verdaderos positivos; b: Falsos positivos; c: Falsos negativos; d: Verdaderos negativos.
Sensibilidad: Proporción de enfermos que son clasificados como tales por la PD positiva (a/a+c).
Especificidad: Proporción de no enfermos que son clasificados como tales por la PD negativa (d/b+d).
Proporción de falsos positivos: Proporción de no enfermos con PD positiva (b/b+d, o bien, 1-Especificidad).
Proporción de falsos negativos: Proporción de enfermos con PD negativa (c/a+c, o bien, 1-Sensibilidad).
Exactitud: (a+d/a+b+c+d).
Valor predictivo positivo: Proporción de enfermos verdaderos entre los identificados como enfermos por la PD (a/a+b).
Valor predictivo negativo: Proporción de no enfermos verdaderos entre los que han sido clasificados como no enfermos por la PD (d/c+d).
Prevalencia (probabilidad preprueba): Proporción de enfermos entre todos los sujetos (a+c/a+b+c+d).
Cocientes de probabilidad (likelihood ratio).
CP+ = Sensiblidad/ (1-Especificidad).
CP- = (1-Sensibilidad)/Especificidad.
Odds preprueba: Prevalencia/(1-Prevalencia).
Odds posprueba: Odds preprueba x cociente de probabilidad.
Probabilidad posprueba: Odds posprueba/(Odds posprueba + 1).
Cuando los resultados de la prueba son en variable continua (por ejemplo, latencia distal del nervio mediano) hay que fijar un punto de corte a cada lado del cual se sitúen con mayor probabilidad enfermos y no enfermos, ya que lo habitual es que exista un solapamiento, mayor o menor, entre los resultados en ambos grupos. Dependiendo de dónde se sitúe dicho punto de corte, se modificará el rendimiento de la PD en cuanto a sensibilidad y especificidad y el hecho de favorecer una de ellas irá en detrimento de la otra. Para la resolución de este problema se utilizan las curvas de rendimiento diagnóstico o curvas ROC (del inglés receiver operating characteristics) que fueron desarrolladas por los operadores de radar y que representan la variación de la sensibilidad en función de los falsos positivos (complementario de la especificidad).
En la Figura 2 se puede observar que si la sensibilidad y la especificidad fueran perfectas (= 1), solo habría un punto (0 en abscisas y 1 en ordenadas). Por el contrario, si la prueba fuera totalmente inútil, la relación entre ambos parámetros estaría representada por la diagonal. Lo habitual es que las PD sean útiles pero imperfectas, dando lugar a curvas de morfología diversa (A, B o C). En la figura se puede apreciar que cuanto más válida sea la PD mayor tendencia tendrá la curva a acercarse al ángulo superior izquierdo (C, en el ejemplo) y, viceversa, cuanto menos válida, más se aproximará a la diagonal (A). El área bajo la curva es, por tanto, una medida idónea de la bondad de la PD, cuyo valor puede oscilar entre 1 (perfecta) y 0.5 (inútil).



Figura 2. Curvas ROC. Cuanto más exacta (sensible y específica) sea la prueba, mayor tendencia tendrá la curva a acercarse al ángulo superior izquierdo (C, en el ejemplo) y, cuanto menos válida, más se aproximará a la diagonal (A).
Las curvas ROC pueden utilizarse para calcular la calidad de una PD, para comprobar el efecto de la modificación del punto de corte y para comparar el rendimiento de dos pruebas (calculando el área bajo la curva para cada una de ellas). Esta última aplicación es de importancia para la toma de decisiones cuando están disponibles dos pruebas aparentemente similares.9,17
Principales sesgos en la evaluación de PD
La presentación de datos sobre el estudio de una nueva prueba diagnóstica se acompañará de los correspondientes índices de rendimiento. Antes de dar por buenos los resultados es importante tener en cuenta que pueden existir problemas metodológicos, más o menos velados, que los maticen o –incluso– los invaliden.16
Error aleatorio
Sesgo de imprecisión. Si la variabilidad de los datos (varianza) es grande y el tamaño de la muestra es pequeño, el error aleatorio se incrementará hasta el punto de invalidar la estimación (los valores de los índices) de la bondad de la prueba. Se propone el cálculo de los intervalos de confianza del 95% para los cocientes de probabilidades para cuantificar el error aleatorio de dichas estimaciones.
Errores sistemáticos
1. En relación con el gold standard. El primer requerimiento para evaluar la PD en estudio es que el “patrón oro” sea realmente válido y consistente. Si no es así nunca podrá compararse fiablemente el resultado de la PD en estudio con el diagnóstico real.
Si se tiende a realizar la prueba gold standard preferentemente a los pacientes que dan positivo en la PD en estudio, habrá una sobrevaloración de los resultados positivos (de la sensibilidad) y una infravaloración de los negativos (de la especificidad). Este defecto se denomina sesgo “de verificación o de confirmación diagnóstica”.
Para evitar el sesgo de interpretación, deben interpretarse independientemente los resultados de la PD en evaluación y del gold standard. Si se incluye o subroga en el estándar de referencia algún parámetro propio de la clasificación preprueba se altera el escenario del que se puede extraer con fiabilidad la probabilidad del diagnóstico real como resultado de la PD en estudio. Se evita comparando los resultados de forma ciega con un estándar de referencia totalmente independiente (por ejemplo, criterios clínicos diagnósticos frente a patrón histopatológico).
2. El “sesgo de muestreo” está presente cuando la población estudiada no representa a la población a la que se pretende aplicar la PD en la práctica.
En relación con el espectro de gravedad de la enfermedad, es habitual que las PD puedan diferenciar entre individuos sanos e individuos gravemente enfermos, pero es necesario conocer la exactitud de la PD en los grados intermedios. Se debe aportar la información del comportamiento de la prueba en esos niveles intermedios y describir apropiadamente las características de la muestra que se utilizó en el estudio.
Lectura crítica de artículos sobre PD
Ahora, posiblemente, estemos bien situados para abordar la lectura e interpretación de artículos sobre PD siguiendo la sistemática de la “Medicina basada en puebas” (Evidence based medicine).18 (Tabla 2) Estamos buscando información sobre una PD para una determinada enfermedad y tenemos delante un artículo específicamente dirigido a este tema, según aparece en la introducción. Nuestro primer objetivo es leer atentamente “Métodos” en busca de posibles errores sistemáticos.
Tabla 2. Evaluación y aplicación de los resultados de los estudios de pruebas diagnósticas.*
1. ¿Son válidos los resultados del estudio
a. ¿Existió una comparación ciega, independiente, con un patrón de referencia (por ejemplo, biopsia, necropsia, seguimiento a largo plazo)
b. ¿Incluyó la muestra un espectro adecuado de pacientes (diferentes niveles de gravedad, comorbilidades, etc.)
(Si alguna de las respuestas a estas preguntas fue “No” o “No se sabe”, es recomendable no invertir más tiempo en ese artículo.)
c. ¿Influyeron los resultados de la prueba en evaluación sobre la decisión de realizar el patrón de referencia (se realizó o no la prueba gold standard según los resultados de la prueba en estudio)
d. ¿Se describen los métodos con suficiente detalle para permitir su reproducción (debe incluir el método aplicado, la secuencia de acciones, etc.)
(Si la respuesta a “c” es positiva y/o a “d” es negativa, es probable que tampoco merezca la pena continuar.)
2. ¿Cuáles son los resultados
a. ¿Se presentan los cocientes de probabilidad de la prueba o se proporcionan los datos necesarios para su cálculo
b. ¿Cuál es la precisión de los resultados (¿Se presentan los intervalos de confianza o se pueden calcular)
(De estas respuestas podrá deducir el rendimiento o exactitud de la prueba.)
3. ¿Me ayudarán los resultados en la atención a mis pacientes
a. ¿Serán satisfactorios en mi ámbito la reproducibilidad de la prueba y su interpretación (compara las circunstancias del estudio con el medio en que se desarrolla tu práctica)
b. ¿Son aplicables los resultados a mi paciente (compara la gravedad, comorbilidad, etc., de los pacientes del estudio con los de tu práctica)
c. ¿Modificarán los resultados mis decisiones (considerar los umbrales, el poder resolutivo de la prueba, como factor en la toma de decisiones)
d. ¿Se beneficiarán los pacientes como consecuencia del resultado de la prueba (considerar si la prueba ofrece ventajas en exactitud, rapidez, comodidad, costo, etc., y su potencial influencia en decisiones posteriores)
* Modificada de ref. 18.
Validez. ¿Son válidos los resultados del estudio
Las primeras cuestiones tienen que ver con la validez del estudio en cuanto a posibles sesgos: ¿Hubo una comparación independiente y ciega con el gold standard ¿Se evaluó la prueba en un espectro apropiado de pacientes, similar al que se aplicaría la PD en la práctica clínica En el apartado anterior se mostraba el significado de estos sesgos y, de ahí, la importancia de estas preguntas. Otra pregunta a ser respondida, relacionada con sesgos que propician el error sistemático es: los resultados de la PD que estamos evaluando, ¿influyeron en la decisión de realizar el gold standard Es evidente que si, por ejemplo, el resultado negativo de la prueba motivó la no realización del gold standard, habrá un sesgo de verificación (sobrerrepresentación de pruebas positivas y sobreestimación de la sensibilidad). Por último, en este apartado, habrá que determinar si los métodos y condiciones en que se aplicó la PD están descritos con suficiente detalle para permitir su replicación independiente.
Si deducimos que existen problemas para afirmar que tanto la muestra estudiada como el estándar son idóneos, que la aplicación de éste último fue sistemática y la interpretación de los resultados del estándar y la PD en estudio fue independiente, o si no se aporta información suficiente sobre las circunstancias de realización de la PD, posiblemente tengamos algo mejor que hacer que continuar leyendo ese artículo. Si las respuestas a estas preguntas muestran que el estudio no está sesgado (está libre de errores sistemáticos) podemos seguir la lectura. Vamos a Resultados.
Resultados. ¿Cuáles son los resultadosA continuación nos adentramos en el juicio del rendimiento de la prueba: ¿Se calcularon los cocientes de probabilidades o se aportan los datos necesarios para poder calcularlos Ahora utilizaremos lo expuesto en el apartado “Validez de una prueba diagnóstica” en lo referente a los cálculos de sensibilidad, especificidad, valores predictivos, cocientes de probabilidades y su interpretación para concluir acerca del rendimiento de la PD.
Si los resultados obtenidos con la aplicación de la prueba demuestran que tiene escasa capacidad para identificar con suficiente precisión los sujetos realmente enfermos, habrá que buscar alguna prueba mejor. Si los resultados demuestran que la prueba diagnóstica tiene buenos índices de validez, estamos ante una PD potencialmente útil. Ahora hay que leer con detalle todo el artículo. La inversión en tiempo parece justificada.
Utilidad. ¿Me ayudarán los resultados en la asistencia a mis pacientes
Finalmente, las cuestiones de utilidad: ¿Serán satisfactorias en mi ámbito la reproducibilidad de la prueba y su interpretación Esta pregunta se relaciona con el apartado “Fiabilidad de una PD” y nos requiere determinar hasta qué punto el acuerdo entre observadores y el test-retest permiten considerar la prueba fiable o estable.
¿Son los resultados aplicables a mis pacientes Dado que el estudio se realizó sobre una muestra concreta, cabe preguntarse si los resultados a obtener en nuestra población serán similares. Diferencias en la gravedad de la enfermedad, en la comorbilidad y otros factores pueden dar lugar a notables diferencias en el rendimiento. La generalización de los resultados estará comprometida si la muestra del estudio no se parece (por criterios, gravedad, características demográficas, etc.) a la población en que se pretende utilizar. Esta duda se puede resolver si se comprueba –por revisión– que el comportamiento de la PD en diferentes estudios es consistente o mediante un nuevo estudio de validación local.
¿Modificarán los resultados mis decisiones Esta es una cuestión importante porque significa la determinación de umbrales de probabilidad para proseguir el trabajo diagnóstico o para aplicar tratamientos. Los datos sobre la probabilidad posprueba servirán para descartar o confirmar el diagnóstico u ordenar estudios adicionales (por ejemplo, si la probabilidad posprueba [por sonografía] de tener una estenosis carotídea significativa sintomática es del 87% se favorecería el resto de las actuaciones dirigidas a endarterectomía, pero no si es del 25%). El cálculo de los cocientes de probabilidad sobre la población en que se aplicará el test, para conocer su poder resolutivo, ayudarán a también a contestar esta pregunta.
¿Se beneficiarán los pacientes como consecuencia de la prueba Esta pregunta se refiere al valor pragmático, a la utilidad y a la aportación real que supone en cuanto al diagnóstico y sus repercusiones. En este juicio entran en consideración elementos (identificación de la enfermedad, gravedad, existencia de tratamiento eficaz, riesgo de la prueba) que tienen que ver no tanto con la validez de la prueba sino con las consecuencias de sus resultados.
Complementos
Para mejorar la comprensión de este tema y profundizar en la utilización de la sistemática de lectura crítica, se recomienda revisar otras publicaciones (18-21).
Véase “Niveles de Evidencia” para estudios de PD en la Tabla 3.
Tabla 3. Niveles de evidencia para estudios de pruebas diagnósticas.
Clase I. Evidencia aportada por un estudio prospectivo realizado en un amplio espectro de personas con sospecha de la enfermedad, utilizando un patrón de referencia (gold standard) para la definición de caso, en el que la prueba es aplicada de manera “ciega”, y que permite la evaluación de la exactitud diagnóstica mediante los tests (índices) apropiados.
Clase II. Evidencia aportada por un estudio prospectivo realizado en un espectro restringido de personas con sospecha de la enfermedad, o un estudio retrospectivo bien diseñado sobre un amplio espectro de personas con una enfermedad establecida (por gold standard) comparada con un amplio espectro de controles, donde la prueba es aplicada de manera “ciega”, y que permite la evaluación de la exactitud diagnóstica mediante los tests (índices) apropiados.
Clase III. Evidencia aportada por un estudio retrospectivo en el que tanto las personas con la enfermedad establecida como los controles pertenecen a un espectro restringido, y en el que la prueba es aplicada de manera “ciega”.
Clase IV. Cualquier diseño en el que la prueba no es aplicada de manera “ciega”, o evidencia aportada solo por opinión experta o por series descriptivas de casos (sin controles) o que no permite una evaluación apropiada de la exactitud diagnóstica.
* Modificada de 22.
El autor manifiesta que: “Este artículo se aporta como una contribución individual y no representa necesariamente la posición de la institución (Centro Nacional de Epidemiología, Instituto de Salud Carlos III). El autor es funcionario del Estado. El Instituto de Salud Carlos III es un organismo dependiente del Ministerio de Sanidad y Consumo de España.”


Bibliografía del artículo

  1. Real Academia de la Lengua Española. En: Diccionario de la Lengua Española, 22 edic. http://buscon.rae.es/diccionario/drae.htm (acceso 14-12-2004).
  2. Gifford DR, Mittman BS. Diagnostic reasoning in Neurology. Neurol Clinics 1996; 14:223- 238.
  3. Díaz Guzmán J. Razonamiento diagnóstico en Neurología. Errores más comunes. Neurología 2003; 18 (Supl 2):3-10.
  4. Gronseth GS. Diagnosing carpal tunnel syndrome. Syllabi CD-ROM (Marathon Multimedia). American Academy of Neurology 2003; 1PC.001-4.
  5. Gómez de la Cámara A. Caracterización de pruebas diagnósticas. Neurología 2004; 19 (Supl 1):31-38.
  6. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960; 20:37-46.
  7. Portney LG, Watkins MP. Foundations of Clinical Research. Applications and Practice. Norwalk, Conneticut: Appleton & Lange, 1993; 509-516.
  8. Cohen J. Weighted kappa: Nominal scale agreement with provision for scaled disagreement or parcial credit. Psychol Bull 1968; 70:213-220.
  9. Abraira V. Errores en las mediciones y clasificaciones clínicas: Precisión y validez. En: Material docente de la Unidad de Bioestadística Clínica del Hospital Ramón y Cajal. http://www.hrc.es/bioest/M_docente.html (acceso 17-12-2004).
  10. Abraira V. El índice kappa. SEMERGEN 2000; 27:247-249.
  11. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problem of two paradoxes, J Clin Epidemiol 1990; 43:543-549.
  12. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; i:307-310.
  13. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33:159-174.
  14. Uebersax J. Intraclass correlation and related methods. En: Statistical methods for rater agreement. http://ourworld.compuserve.com/homepages/jsuebersax/agree.htm (acceso 17-12-2004).
  15. Longstreth WT, Koepsell TD, Van Belle G. Clinical Neuropidemiology. I. Diagnosis. Arch Neurol 1987; 44:1091-1099.
  16. Pozo F. Utilización clínica de las pruebas diagnósticas. En: Merino Sánchez J et al, Edits. Tratado de Epidemiología Clínica. Madrid: Dupont Pharma, 1995; 199-226.
  17. Molinero LM. Valoración de pruebas diagnósticas. En: Páginas sobre bioestadística. http://www.seh-lelha.org/stat1.htm (acceso 18-12-2004).
  18. Jaeschke R, Guyatt GH, Sackett DL, The Evidence Based Medicine Working Group. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients JAMA 1994; 271:703-707.
  19. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Clinical Epidemiology. A basic science for clinical medicine, 2ª edn. Boston/Toronto: Little, Brown and Company, 1991.
  20. Jaeschke R, Guyatt GH, Sackett DL, The Evidence Based Medicine Working Group. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid JAMA 1994; 271:389-391.
  21. Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Medicina basada en la evidencia (Edn. española). Madrid: Churchill Livingstone, 1997; 104-112.
  22. Franklin GM. How to translate best evidence into best practice: Therapy, diagnosis, prognosis, and causation. Syllabi CD-ROM (Marathon Multimedia). American Academy of Neurology 2003; 1PC.001-1.
© Está  expresamente prohibida la redistribución y la redifusión de todo o parte de los  contenidos de la Sociedad Iberoamericana de Información Científica (SIIC) S.A. sin  previo y expreso consentimiento de SIIC

anterior.gif (1015 bytes)

 


Bienvenidos a siicsalud
Acerca de SIIC Estructura de SIIC


Sociedad Iberoamericana de Información Científica (SIIC)
Arias 2624, (C1429DXT), Buenos Aires, Argentina atencionallector@siicsalud.com;  Tel: +54 11 4702-1011 / 4702-3911 / 4702-3917
Casilla de Correo 2568, (C1000WAZ) Correo Central, Buenos Aires.
Copyright siicsalud© 1997-2024, Sociedad Iberoamericana de Información Científica(SIIC)