Catálogo de publicaciones - tesis
Título de Acceso Abierto
Extracción de información en informes radiológicos escritos en español
Viviana Erica Cotik José Castaño
publishedVersion.
Resumen/Descripción – provisto por el repositorio digital
En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información contenida en dichos textos puede utilizarse para colaborar en tareas relacionadas con la clínica médica y para la toma de decisiones, y resulta esencial para la mejora de la atención médica. El dominio biomédico tiene vocabulario altamente especializado, local a distintos países, regiones e instituciones. Se utilizan abreviaturas ambiguas y no estándares. Por otro lado, algunos tipos de informes médicos suelen presentar faltas ortográficas y errores gramaticales. Además, la cantidad de datos anotados disponibles es escasa, debido a la dificultad de obtenerlos y a temas relacionados con la confidencialidad de la información. Esta situación dificulta el avance en el área de extracción de información. Pese a ser el segundo idioma con mayor cantidad de hablantes nativos en el mundo, poco trabajo se ha realizado hasta ahora en extracción de información de informes médicos escritos en espa˜nol. A los desafíos anteriormente descriptos se agregan la ausencia de terminologías específicas para ciertos dominios médicos y la menor disponibilidad de recursos linguísticos que los existentes para otros idiomas. En este trabajo contribuimos al dominio de la biomedicina en espa˜nol, proveyendo métodos con resultados competitivos para el desarrollo de componentes fundamentales de un proceso de extracción de información médico, específicamente para informes radiológicos. Con este fin, creamos un corpus anotado de informes radiológicos en espa˜nol para el reconocimiento de entidades, negación y especulación y extracción de relaciones. Publicamos el proceso seguido para la anotación y el esquema desarrollado. Implementamos dos algoritmos de detección de entidades nombradas con el fin de encontrar entidades anatómicas y hallazgos clínicos. El primero está basado en un diccionario especializado del dominio no disponible en espa˜nol y en el uso de reglas basadas en conocimiento morfosintáctico y está pensado para trabajar con lenguajes sin muchos recursos linguísticos. El segundo está basado en campos aleatorios condicionales y arroja mejores resultados. Adicionalmente, estudiamos e implementamos distintas soluciones para la detección de hallazgos clínicos negados. Para esto, adaptamos al espa˜nol un conocido algoritmo de detección de negaciones en textos médicos escritos en inglés y desarrollamos un método basado en reglas creadas a partir de patrones inferidos del análisis de caminos en árboles de dependencias. También adaptamos el primer método, que arrojó los mejores resultados, para la detección de negación y especulación en resúmenes de alta hospitalaria y notas de evolución clínica escritos en alemán. Consideramos que los resultados obtenidos y la publicación de criterios de anotación y evaluación contribuirán a seguir avanzando en la extracción de información de informes clínicos escritos en espa˜nol.Palabras clave – provistas por el repositorio digital
DETECCION DE ENTIDADES NOMBRADAS; DETECCION DE NEGACION Y ESPECULACION; BIO NLP; BIOMEDICINA; ANOTACION DE CORPUS; INFORMES RADIOLOGICOS; EXTRACCION DE INFORMACION; MINERIA DE TEXTOS; NAMED ENTITY RECOGNITION; NEGATION AND SPECULATION DETECTION; ANNOTATION GUIDELINES; ANNOTATION SCHEMA; SPANISH RADIOLOGY REPORTS; INFORMATION EXTRACTION; TEXT MINING
Disponibilidad
Institución detectada | Año de publicación | Navegá | Descargá | Solicitá |
---|---|---|---|---|
No requiere | 2018 | Biblioteca Digital (FCEN-UBA) (SNRD) |
Información
Tipo de recurso:
tesis
Idiomas de la publicación
- español castellano
País de edición
Argentina
Fecha de publicación
2018-07-31
Información sobre licencias CC