Catálogo de publicaciones - tesis

Compartir en
redes sociales

Título de Acceso Abierto

Extracción de información en informes radiológicos escritos en español

Viviana Erica Cotik José Castaño

publishedVersion.

Resumen/Descripción – provisto por el repositorio digital

En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información contenida en dichos textos puede utilizarse para colaborar en tareas relacionadas con la clínica médica y para la toma de decisiones, y resulta esencial para la mejora de la atención médica. El dominio biomédico tiene vocabulario altamente especializado, local a distintos países, regiones e instituciones. Se utilizan abreviaturas ambiguas y no estándares. Por otro lado, algunos tipos de informes médicos suelen presentar faltas ortográficas y errores gramaticales. Además, la cantidad de datos anotados disponibles es escasa, debido a la dificultad de obtenerlos y a temas relacionados con la confidencialidad de la información. Esta situación dificulta el avance en el área de extracción de información. Pese a ser el segundo idioma con mayor cantidad de hablantes nativos en el mundo, poco trabajo se ha realizado hasta ahora en extracción de información de informes médicos escritos en espa˜nol. A los desafíos anteriormente descriptos se agregan la ausencia de terminologías específicas para ciertos dominios médicos y la menor disponibilidad de recursos linguísticos que los existentes para otros idiomas. En este trabajo contribuimos al dominio de la biomedicina en espa˜nol, proveyendo métodos con resultados competitivos para el desarrollo de componentes fundamentales de un proceso de extracción de información médico, específicamente para informes radiológicos. Con este fin, creamos un corpus anotado de informes radiológicos en espa˜nol para el reconocimiento de entidades, negación y especulación y extracción de relaciones. Publicamos el proceso seguido para la anotación y el esquema desarrollado. Implementamos dos algoritmos de detección de entidades nombradas con el fin de encontrar entidades anatómicas y hallazgos clínicos. El primero está basado en un diccionario especializado del dominio no disponible en espa˜nol y en el uso de reglas basadas en conocimiento morfosintáctico y está pensado para trabajar con lenguajes sin muchos recursos linguísticos. El segundo está basado en campos aleatorios condicionales y arroja mejores resultados. Adicionalmente, estudiamos e implementamos distintas soluciones para la detección de hallazgos clínicos negados. Para esto, adaptamos al espa˜nol un conocido algoritmo de detección de negaciones en textos médicos escritos en inglés y desarrollamos un método basado en reglas creadas a partir de patrones inferidos del análisis de caminos en árboles de dependencias. También adaptamos el primer método, que arrojó los mejores resultados, para la detección de negación y especulación en resúmenes de alta hospitalaria y notas de evolución clínica escritos en alemán. Consideramos que los resultados obtenidos y la publicación de criterios de anotación y evaluación contribuirán a seguir avanzando en la extracción de información de informes clínicos escritos en espa˜nol.

Palabras clave – provistas por el repositorio digital

DETECCION DE ENTIDADES NOMBRADAS; DETECCION DE NEGACION Y ESPECULACION; BIO NLP; BIOMEDICINA; ANOTACION DE CORPUS; INFORMES RADIOLOGICOS; EXTRACCION DE INFORMACION; MINERIA DE TEXTOS; NAMED ENTITY RECOGNITION; NEGATION AND SPECULATION DETECTION; ANNOTATION GUIDELINES; ANNOTATION SCHEMA; SPANISH RADIOLOGY REPORTS; INFORMATION EXTRACTION; TEXT MINING

Disponibilidad

Institución detectada	Año de publicación	Navegá	Descargá	Solicitá
No requiere	2018	Biblioteca Digital (FCEN-UBA) (SNRD)

Información

Tipo de recurso:

tesis

Idiomas de la publicación

español castellano

País de edición

Argentina

Fecha de publicación

2018-07-31

Información sobre licencias CC

https://creativecommons.org/licenses/by/2.5/ar/

Cobertura temática