Catálogo de publicaciones - tesis

Compartir en
redes sociales


Título de Acceso Abierto

Una técnica basada en el aprovechamiento de la estructura social para la selección de características online en textos cortos

Antonela Tommasel Daniela Godoy

acceptedVersion.

Resumen/Descripción – provisto por el repositorio digital
Los sitios de redes sociales como por ejemplo MySpace, Facebook o Twitter atraen a millones de usuarios, quienes comparten información cotidiana sobre sus actividades, intereses y opiniones. Dichos sitios se caracterizan principalmente por proporcionar una forma simple de comunicación con un especial énfasis en su brevedad, la cual permite a los usuarios compartir imágenes, tweets, comentarios y mensajes en la forma de textos cortos. Asimismo, la participación de los usuarios en los medios sociales ya no se encuentra limitada a un único sitio, dado que usualmente utilizan múltiples sitios sociales, los cuales proporcionan fuentes de información heterogéneas y complementarias para la descripción de un usuario en particular, sus intereses y relaciones sociales. Una tarea que puede beneficiarse enormemente de la existencia de estas múltiples y ricas fuentes de información es el aprendizaje de texto a gran escala, el cual tiene implicaciones prácticas importantes en el desarrollo de técnicas de personalización o recomendación. Las tareas tradicionales de aprendizaje de texto se caracterizan por la alta dimensionalidad de los espacios de características o atributos a analizar. La selección de características (en inglés, feature selection) es una de las técnicas más utilizadas para reducir el impacto de la alta dimensionalidad del espacio de características en textos, el cual es reducido mediante la eliminación de aquellas características redundantes e irrelevantes. Las técnicas estándar de selección de características asumen la existencia de un conjunto fijo de instancias y, por lo tanto, de un espacio de características completamente conocido de antemano. Sin embargo, en aplicaciones del mundo real, tales suposiciones podrían no ser válidas. En estas situaciones, es necesario aplicar técnicas de selección de características online (en inglés, online feature selection) en la que las instancias y sus correspondientes características aparecen en un flujo continuo. Las técnicas de selección de características online involucran elegir un sub-conjunto de características y su correspondiente modelo de aprendizaje en diferentes momentos temporales. Sin embargo, la mayoría de los trabajos existentes en la literatura se centran en el desarrollo de soluciones batch, presentando así dificultades para adaptarse a los entornos del mundo real. El desarrollo de técnicas eficientes y escalables de selección de características online se constituye como un requerimiento muy relevante en numerosas aplicaciones sociales a gran escala. Los textos cortos acentúan los desafíos planteados por la alta dimensionalidad del espacio de características debido a su contexto limitado y raleza, la utilización de lenguaje y estilo informal, la propensión a errores ortográficos y gramaticales y la reducción de la significancia de las frecuencias de palabras, lo que aumenta las posibilidades de expresión de un único concepto. La mayoría de las técnicas de FS están diseñadas para datos que contienen entidades uniformes, es decir, características que se suponen típicamente independientes e idénticamente distribuidas. No obstante, los datos de los medios sociales no siguen esa suposición ya que las publicaciones realizadas por los usuarios no solo proporcionan información textual sino también información topológica debido a las relaciones entre dichas publicaciones y los usuarios. A su vez, la naturaleza vinculada de los datos de medios sociales hace que se añadan nuevas dimensiones (como las relaciones de amistad entre usuarios) al espacio de características. Por ejemplo, las publicaciones de un mismo usuario o de dos usuarios que comparten una relación de amistad tienen una mayor probabilidad de referirse a temas similares. La creciente cantidad de datos no solo afecta a la complejidad computacional de los algoritmos, sino que también plantea nuevos desafíos sobre cómo representar y procesar los nuevos datos y cómo efectivamente aprovecharlos para mejorar el rendimiento de las tareas de aprendizaje sobre texto. En este sentido, la disponibilidad de información de las relaciones entre los datos permite realizar investigaciones avanzadas en técnicas de FS. El propósito de esta Tesis es abordar la tarea de selección de características online para textos cortos en problemas de gran dimensionalidad, creados en forma continua. De esta forma, se podrán desarrollar nuevos y más eficientes modelos para la personalización y la recomendación de contenido en medios sociales. En particular, esta Tesis se centra en la clasificación en tiempo real de textos cortos continuamente generados en las redes sociales, a partir de la propuesta de una técnica de selección de características online basada en el análisis de factores sociales y del contenido publicado por los usuarios. A diferencia de los enfoques presentes en la literatura, que en su mayoría ignoran la naturaleza social de los datos, la técnica propuesta aprovecha las estructuras vinculadas en forma de redes compuestas por las publicaciones y los usuarios que las han escrito. La técnica se divide en dos etapas principales: la etapa de Análisis Social y la etapa de Análisis de Contenido. La etapa de Análisis Social pretende descubrir relaciones implícitas entre nuevas puestas y aquellas ya conocidas para superar los problemas derivados de la raleza inherente a los textos cortos y aumentar su contexto disponible. Luego, la etapa de Análisis de Contenido considera grupos de publicaciones socialmente relacionadas y analiza su contenido con el fin de seleccionar un conjunto de características no redundantes y relevantes para describir cada uno de los grupos descubiertos. Por último, las características seleccionadas son utilizadas para entrenamiento de diferentes modelos de aprendizaje para la clasificación de nuevas publicaciones. La evaluación experimental realizada en tres conjuntos de datos de medios sociales del mundo real demostró que la técnica OFS propuesta ayuda a mejorar los resultados de la clasificación en comparación con técnicas de selección de características tradicionales y del estado del arte tanto batch como online. Los resultados obtenidos evidenciaron la necesidad de considerar las relaciones sociales entre los usuarios para la clasificación de textos cortos en las redes sociales y sus ventajas para seleccionar el conjunto de características más relevante.
Palabras clave – provistas por el repositorio digital

Ingeniería de sistemas; Redes sociales; Feature Selection; Técnica FS; Computación; Textos cortos; Selección de características online; Técnica OFS

Disponibilidad
Institución detectada Año de publicación Navegá Descargá Solicitá
No requiere 2017 CONICET Digital (SNRD) acceso abierto
No requiere 2017 Repositorio Institucional de Acceso Abierto (UNICEN) (SNRD) acceso abierto

Información

Tipo de recurso:

tesis

Idiomas de la publicación

  • español castellano

País de edición

Argentina

Fecha de publicación

Información sobre licencias CC

https://creativecommons.org/licenses/by-nc-sa/2.5/ar/