Catálogo de publicaciones - tesis

Compartir en
redes sociales

Título de Acceso Abierto

Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla

Diego Alexis Evin Jorge Alberto Gurlekian

publishedVersion.

Resumen/Descripción – provisto por el repositorio digital

Desarrollar sistemas informáticos capaces de interactuar con sus usuarios de la forma más natural y eficiente posible es uno de los requisitos esenciales para lograr la integración del mundo tecnológico en la so- ciedad. En ese marco el habla se presenta como una de las formas de comu- nicación más eficientes y naturales que posee el ser humano. Es por ello que desde el origen mismo de la investigación en ciencias de la computación, el desarrollo de interfaces hombre-máquina a través de la voz ha despertado un gran interés. Uno de los elementos que componen dicha interfaz oral es el Re- conocimiento Automático del Habla (RAH), área de la Inteligencia Artificial que busca desarrollar sistemas computacionales capaces de transformar un fragmento de habla en su trascripción textual. El RAH es un problema de gran complejidad, lo que se puede atri- buir principalmente a dos factores: en primer lugar a la variabilidad de la señal de habla, que responde a múltiples factores como caracte- rísticas particulares del locutor y medio acústico donde se registra, la velocidad y estilos de elocución; y en segundo lugar a la necesidad de encontrar palabras individuales en un continuo acústico, es decir realizar al mismo tiempo las tareas de segmentación y clasificación. Si bien se pueden encontrar en los últimos años avances significa- tivos en el desempeño de los sistemas de RAH, aún hay mucho por mejorar en relación a la capacidad de reconocimiento que presentan los oyentes humanos para las mismas tareas y bajo las mismas con- diciones. Varias hipótesis intentan explicar esta diferencia de desem- peño: información insuficiente o representada de manera inadecuada en los sistemas automáticos, problemas en el modelado del sistema de reconocimiento, insuficientes cantidades de ejemplos empleados para lograr tasas de reconocimiento similares, etc. Con respecto al primero de estos puntos, los sistemas de RAH no utilizan toda la información acústica disponible en la señal de habla. Dichos sistemas interpretan el habla como secuencias de unidades cu- yas duraciones se encuentran a nivel segmental (fonético). Por lo tanto procesan la información acústica en la escala segmental para obtener las hipótesis de secuencias de unidades emitidas. Sin embargo estudios tanto psicoacústicos como psicolingüísticos resaltan el rol crucial que posee la información de una escala temporal mayor: la información su- prasegmental, en la percepción humana. Se entiende por información suprasegmental toda aquella que está dada en segmentos de duración superior al fonético, y cuyas propiedades están determinadas princi- palmente por la prosodia de una frase. Además se argumenta que en la tarea de reconocimiento e interpre- tación del habla los seres humanos emplean e integran varios niveles de conocimiento lingüístico, muchos de los cuales aún no han sido incorporados o aprovechados eficientemente en el RAH. A partir de esas evidencias resulta interesante investigar cuál es el aporte que puede brindar la información suprasegmental o prosódica para mejorar el desempeño de los sistemas de RAH estándar. En esta Tesis se investiga el empleo de información suprasegmental como factor de mejora en el desempeño, así como alternativas para su integración en sistemas de RAH estándar. En el Capítulo 1 se exponen argumentos que muestran la necesidad de mejorar los sistemas de RAH actuales a la luz del desempeño mos- trado en esta tarea por los seres humanos. Se presentan las bases de los mecanismos de producción, percepción y reconocimiento humano, así como un resumen de las principales aproximaciones al reconocimiento automático. Posteriormente se introducen los aspectos generales de la información suprasegmental y su rol en el mecanismo de comunica- ción oral. Seguidamente se hace una revisión de los antecedentes en el empleo de información suprasegmental dentro del proceso de RAH. Finalmente se delinean los objetivos de esta tesis. Debido a que en esta tesis se analiza la utilización de información suprasegmental en distintos módulos de los sistemas de RAH conven- cionales, en el Capítulo 2 se presenta la arquitectura y componentes principales de los reconocedores del habla actuales. Se detalla la arqui- tectura y forma de funcionamiento de estos sistemas, los fundamentos teóricos de los modelos de Markov, así como la forma de medir sus desempeños. El Capítulo 3 profundiza los aspectos de la información supraseg- mental introducidos en el Capítulo 1. Hace principal hincapié en las características prosódicas del español de Argentina, y presenta las téc- nicas computacionales empleadas en la tesis para la extracción auto- mática de sus atributos a partir de la señal de habla. El Capítulo 4 contiene una serie de estudios en que se busca vincular patrones de los atributos suprasegmentales con información lingüística útil para el proceso de RAH. En el primero de estos estudios se ana- liza la posibilidad de establecer agrupamientos de frases entonativas a partir de semejanzas en sus atributos suprasegmentales. El segundo experimento indaga la posibilidad de obtener información del número de palabras de contenido presentes en una frase, a partir de la mor- fología de sus curvas de F0. Finalmente el tercer estudio explora la viabilidad de establecer la tipología acentual de las palabras finales de frase utilizando rasgos suprasegmentales. En el Capítulo 5 se presenta una metodología para utilizar informa- ción suprasegmental a nivel de los modelos acústicos de un sistema de RAH. Específicamente se realiza una distinción entre modelos acústi- cos correspondientes a sonidos vocálicos acentuados y no acentuados. La metodología propuesta se evalúa y contrasta con distintas versiones de sistemas de RAH convencionales, empleando un corpus de habla continua. En el Capítulo 6 se expone una alternativa para emplear informa- ción suprasegmental durante la selección de hipótesis de reconoci- miento. Esta alternativa contempla la definición de un índice de se- mejanza entonativa entre la curva de F0 correspondiente a la frase a reconocer, y las posibles curvas de F0 correspondientes a las hipótesis de reconocimiento y obtenidas mediante un proceso de predicción. Se propone y desarrolla un modelo para su implementación y se realizan comparaciones de desempeño con respecto a un sistema de RAH de referencia. Finalmente en el Capítulo 7 se presentan las conclusiones y aportes de la tesis, juntamente con posibles líneas de investigación futura.

Palabras clave – provistas por el repositorio digital

PROSODIA; ENTONACION; ACENTUACION; MODELOS OCULTOS DE MARKOV; RECONOCIMIENTO AUTOMATICO DEL HABLA; PROSODY; INTONATION; STRESS PATTERNS; HIDDEN MARKOV MODELS; AUTOMATIC SPEECH RECOGNITION

Disponibilidad

Institución detectada	Año de publicación	Navegá	Descargá	Solicitá
No requiere	2011	Biblioteca Digital (FCEN-UBA) (SNRD)

Información

Tipo de recurso:

tesis

Idiomas de la publicación

español castellano

País de edición

Argentina

Fecha de publicación

2011

Información sobre licencias CC

https://creativecommons.org/licenses/by/2.5/ar/

Cobertura temática