Report generation from chest X-Rays: analysis of NLP metrics and clinically correct template-based model

Dublin Core

Title

Report generation from chest X-Rays: analysis of NLP metrics and clinically correct template-based model

Subject

Generación de reportes médicos a partir de imágenes
Aprendizaje profundo
Radiografías de tórax
616.07572
Medicina y salud
Diagnóstico por imagen - Innovaciones tecnológicas
Diagnóstico por imagen - Técnicas digitales

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2022
Cada año aumenta la demanda por exámenes de imágenes de radiología, y sistemas para diagnóstico apoyados por computador (CAD, por su sigla en inglés) parecen una opción prometedora para aliviar esta carga de trabajo. En los últimos años, muchos autores han propuesto modelos de aprendizaje profundo para generar reportes a partir de imágenes, pero se enfocan principalmente en mejorar métricas de Procesamiento de Lenguaje Natural (NLP, por su sigla en inglés), como BLEU y CIDEr, que pueden no ser apropiadas para medir correctitud médica en los reportes, como han indicado varios autores. Además, la mayoría de las propuestas son modelos de caja negra que son difíciles o imposibles de entender por humanos, lo que dificultaría su implementación en un escenario clínico real.
En esta tesis, analizamos los modelos y evaluaciones usadas por el estado del arte en la tarea de generar reportes a partir de radiografías de tórax. Mostramos evidencia indicando que las métricas tradicionales de NLP no son robustas para esta tarea, por ejemplo, no discriminan bien oraciones que tienen significado contrario en términos médicos, y que se puede alterar levemente la escritura de los reportes de un modelo para subir su rendimiento en NLP, mientras se mantiene su alto rendimiento en términos clínicos. Además, proponemos un modelo basado en plantillas que detecta anormalidades y usa oraciones pre-definidas para escribir un reporte estructurado. Evaluamos el modelo en los datasets IU X-ray y MIMIC-CXR, usando la herramienta CheXpert labeler y métricas de NLP. El modelo propuesto es mas simple e interpretable que otros métodos del estado del arte, y obtiene mejores resultados en métricas de correctitud médica, aunque peores en NLP. Concluımos que se necesita mejorar los métodos de evaluación en esta área de investigación, haciendo evaluaciones mas exhaustivas e involucrando a médicos expertos.

Creator

Pino Garretón, Pablo

Date

2022-03-31
2022-03-22T12:44:54Z
2022-03-22T12:44:54Z
2022

Contributor

Parra Santander, Denis
Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xv, 108 páginas
application/pdf

Language

en

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/63600
https://doi.org/10.7764/tesisUC/ING/63600
https://repositorio.uc.cl/handle/11534/63600