ReSIIC editado en: Diagnóstico por Imágenes Informática Biomédica Cuidados Intensivos Emergentología Medicina Interna Neurocirugía Neurología |
Introducción
El uso de la tomografía computarizada (TC) de cráneo continúa en ascenso en el siglo XXI, y se asocia a un aumento significativo del volumen y la complejidad de los casos de imagenología de guardia y el aumento de la carga de trabajo de radiólogos de guardia. La TC de cráneo es uno de los estudios de imagen más solicitados por los servicios de urgencias y los resultados pueden cambiar la atención médica del paciente en casos de cefalea o ictus, cuyo retraso diagnóstico, puede ser trágico. De los tipos de hemorragias intracraneales, la hemorragia subaracnoidea (HSA) no diagnosticada secundaria a la rotura de un aneurisma intracraneal es una de las más preocupantes, ya que sin el tratamiento adecuado ocasiona la muerte del 75% de los pacientes en el plazo de un año. En las personas de mediana edad, estas muertes superan el número de muertes por accidente cerebrovascular isquémico.
Aunque la tasa de hallazgos no detectados o diagnosticados erróneamente en la TC de cráneo es baja, existen errores. El objetivo de los investigadores fue determinar si un algoritmo de aprendizaje profundo (deep learning) puede identificar y localizar correctamente la presencia de una HSA en una TC de cráneo, para esto desarrollaron un modelo que fue validado con datos externos y con datos obtenidos del mundo real.
Métodos
Se utilizaron imágenes de TC de cráneo sin contraste de pacientes ingresados en el Hospital Universitario de Helsinki entre 2012 y 2017. Estos estudios fueron clasificados manualmente por un analista de imágenes médicas calificado con el software de código abierto ITK-SNAP y 3D Slicer. Además, un neurocirujano revisó y ajustó la clasificación del conjunto de datos para evaluar el rendimiento del algoritmo a nivel de píxel. De las 98 TC de cráneo con HSA, 90 fueron elegidas al azar para el entrenamiento. De estas, 23 eran TC de cráneo tomadas en el momento del ingreso, antes de cualquier tratamiento invasivo, y los 67 restantes eran postoperatorios (40 incluían clips de aneurisma y artefactos relacionados con los clips, 22 espirales de aneurisma y artefactos relacionados con las espirales, y 5 catéteres ventriculares). Se utilizaron 8 TC de cráneo con HSA como pequeño conjunto de datos de prueba durante el entrenamiento para evaluar el rendimiento del modelo. Del grupo de control negativo (sin HSA) de 985 TC de cráneo, utilizaron 22 para el entrenamiento. Los autores desarrollaron una red neuronal convolucional de código abierto para identificar y localizar la HSA. Posteriormente, probaron el rendimiento del algoritmo entrenado utilizando conjuntos de datos externos (137 casos de HSA y 1242 casos de control), y también crearon un conjunto de datos de TC de cráneo con HSA y 511 casos de control realizados durante las horas de guardia en 5 hospitales diferentes en septiembre de 2021. Evaluaron la capacidad del algoritmo para identificar la HSA calculando las métricas de rendimiento a nivel de paciente y de corte, como la sensibilidad y la especificidad.
Resultados
En el conjunto de validación externa de 1379 casos, el algoritmo identificó correctamente 136 de 137 casos de HSA (sensibilidad 99.3%, especificidad 63.2%). Las 1379 tomografías computarizadas de cráneo estaban compuestas por 49 064 cortes axiales reconstruidos, de los cuales 2110 incluían HSA. De estos, el algoritmo identificó y localizó la HSA en 1845 de los 2110 cortes con HSA (sensibilidad 87.4%, especificidad 95.3%). A nivel de cortes, la tasa de clasificación errónea de falsos negativos fue del 12.6%. En cuanto a los falsos positivos, los resultados de la validación externa mostraron una tasa de falsos positivos de 36.8% a nivel de paciente. Algunos de los casos falsos positivos eran otros hallazgos anormales distintos de la HSA. Por ejemplo, de los 34 casos de falsos positivos en el conjunto de datos CQ500, el algoritmo segmentó erróneamente un tumor, un artefacto, 8 casos de calcificaciones y 23 casos sin hallazgos anormales. Del mismo modo, de los 423 casos de falsos positivos en el conjunto de datos Zúrich, 138 (32.6%) eran hematomas postoperatorios/sellantes hemostáticos, 54 (12.8%) lesiones isquémicas, 23 (5.4%) hematomas subdurales crónicos y 21 (5%) tumores. A nivel de cortes, la tasa de falsos positivos fue del 4.7%.
Para la validación simulada en datos del mundo real los autores recolectaron 519 TC de cráneo realizadas en servicios de urgencias durante horas de guardia en centros de baja complejidad, el algoritmo identificó los 8 casos de HSA (sensibilidad 10%, especificidad 75.3%). Todos los escáneres de TC de los cinco hospitales eran más nuevos y diferían de los utilizados en la obtención de imágenes del conjunto de datos de entrenamiento. La sensibilidad y especificidad a nivel de corte (27 167 cortes axiales en total) fueron del 87.3% y 98.8%, ya que el algoritmo identificó y localizó la HSA en 58 de 77 cortes con HSA. Además, el rendimiento del algoritmo pudo comprobarse a través de un servicio web que los investigadores desplegaron para probar la precisión donde se podían cargar TC de cráneo sin contraste para su análisis, este sitio permaneció habilitado durante 3 meses para realizar pruebas.
Discusión y conclusiones
El algoritmo de aprendizaje profundo presentado identificó correctamente el 99.3% de las HSA que se obtuvieron con 7 escáneres de TC diferentes en dos países (India y Suiza). En términos de especificidad, clasificó incorrectamente la HSA en 457 (36.8%) de 1242 controles. La tasa de falsos positivos a nivel de corte fue de 2200 (4.7%) por 46 954 cortes axiales de TC de cráneo reconstruidos. La TC de cráneo reconstruida estándar que se utiliza en el diagnóstico clínico suele contener entre 30 y 40 cortes axiales. Si este algoritmo se utilizara en un entorno clínico, se informaría erróneamente a los médicos una HSA en aproximadamente una de cada tres TC de cráneo sin HSA y, en estos casos, se deberían inspeccionar cuidadosamente 1-2 cortes clasificados incorrectamente para revisar el diagnóstico. Al diseñar algoritmos para situaciones de emergencia potencialmente mortales, la sensibilidad debe ser cercana al 100%. Pero si un algoritmo de este tipo también tiene una tasa de falsos positivos distinta de cero (menos del 100% de especificidad), obliga a los médicos a inspeccionar cada caso positivo (también casos positivos verdaderos). Esto puede garantizar que el algoritmo no sustituya a los médicos o a los radiólogos, sino que actúe en la vida real y colabore en el diagnóstico.
Los algoritmos de entrenamiento de imágenes suelen basarse en un elevado número de imágenes y esto aplica para los algoritmos que detectan hemorragias intracraneales, pero el plan realizado por los autores utilizó un número pequeño de imágenes para el entrenamiento del modelo. Aunque la sensibilidad y especificidad de los algoritmos de imagen validados internamente para la HSA pueden ser muy altos, sus métricas de rendimiento cuando se enfrentan con datos clínicos externos suelen verse comprometidas. Dado que los estudios previos que informan sobre algoritmos de aprendizaje profundo que localizan e identifican la HSA en tomografías computarizadas de cráneo son escasos, las comparaciones son complejas. En muchos proyectos previamente publicados, no alcanzaron la máxima sensibilidad y la especificidad. Para evitar que un modelo de aprendizaje profundo supere a los médicos clínicos, el enfoque de los autores consistió en alcanzar una sensibilidad muy alta y una especificidad más baja, en cuyo caso la colaboración médico clínico- modelo de aprendizaje profundo podría ser más probable. Curiosamente, el 56% de los falsos positivos en nuestro conjunto de datos de Zúrich eran en realidad otras lesiones patológicas, como hematomas postoperatorios. De hecho, la precisión y, en particular, la tasa de falsos positivos del algoritmo puede variar en función de los factores de confusión naturales (otras lesiones patológicas que contienen sangre) y del uso previsto.
Uno de los puntos fuertes del estudio puede ser que el conjunto de datos de entrenamiento incluía artefactos preoperatorios y postoperatorios y la utilización de distintos escáneres de TC, lo que quizá facilita el uso generalizado del algoritmo. Muchos algoritmos de aprendizaje profundo son incapaces de ilustrar, visualizar y delinear los hallazgos anormales de las imágenes, mientras que este algoritmo resalta la HSA, con una visualización que puede facilitar y agilizar la interpretación de las imágenes.
Dado que la clasificación a nivel píxel es compleja, y es difícil que los expertos se pongan de acuerdo sobre los verdaderos resultados positivos y negativos a este nivel los resultados obtenidos son clínicamente menos y rara vez o nunca se comunican. Sin embargo, los resultados a nivel de píxel fueron satisfactorios, y las clasificaciones falsamente positivas consistieron en pequeños grupos de píxeles clasificados incorrectamente. Por último, por motivos legales los autores no pudieron probar el algoritmo en servicios de urgencias médicas. Sin embargo, el conjunto de datos de validación del mundo real simulado con todos los casos consecutivos de cinco hospitales se asemejaba a la configuración de un estudio prospectivo en este contexto.
En este estudio los autores demostraron que el algoritmo compartido identifica casos de HSA con una alta sensibilidad, y que la especificidad a nivel de corte también es alta. El trabajo tiene enfoques poco utilizados en el diseño, entrenamiento, prueba y presentación de informes de algoritmos de aprendizaje profundo desarrollados para el diagnóstico de imágenes médicas.
Copyright siicsalud © 1997-2024 ISSN siicsalud: 1667-9008