Catálogo de publicaciones - tesis

Compartir en
redes sociales


Título de Acceso Abierto

Selección de variables para datos multivariados y datos funcionales

Yanina Gimenez Ricardo Fraiman

publishedVersion.

Resumen/Descripción – provisto por el repositorio digital
El problema de selección de variables es en la actualidad una de las principales áreas de investigación en la estadística. Si bien esta temática comenzó a analizarse en la década del 70, en los últimos a˜nos ha tenido un desarrollo explosivo, asociado a problemas de alta dimensión (high dimensional data) y de enormes bases de datos (big data). Estos desarrollos están vinculados fundamentalmente a los avances tecnológicos provenientes de problemas en biología, genética, meteorología, entre otras disciplinas. En esta tesis trabajamos en el problema de selección de variables en diversos modelos estadísticos (regresión, clasificación, componentes principales, entre otros) para datos multivariados y para datos funcionales. Buscamos identificar un peque˜no conjunto de variables que explique del mejor modo posible, mediante relaciones no paramétricas, el modelo en cuestión. Típicamente al analizar datos multivariados surgen dos tipos de problemáticas. Por un lado, encontramos variables no informativas, por otra parte, las variables suelen no ser independientes. El objetivo de esta tesis es entender la estructura interna de los datos asociados a cada modelo. Para realizarlo extendemos las ideas introducidas en Fraiman et al. (2008). Primero damos una propuesta para seleccionar variables en el problema de componentes principales. Luego, introducimos una técnica general de selección de variables para datos multivariados. Estudiamos esta segunda propuesta para los modelos de regresión lineal, modelo lineal generalizado, componentes principales y correlación canónica. En todos los casos obtenemos resultados de consistencia. Mediante simulaciones describimos el comportamiento de los procedimientos presentados, realizamos comparaciones con otros métodos existentes e ilustramos con ejemplos de datos reales. Finalmente extendemos las ideas del método propuesto a datos funcionales. En este caso no es razonable considerar las variables coordenadas como en el caso finito dimensional. Para ello, proponemos hacer la selección de un conjunto de funciones conocidas, {f1,...,fp} de las trayectorias, a valores reales. Dicho conjunto de funciones se seleccionan de acuerdo al problema a tratar. Hacemos diferentes propuestas de conjuntos que son adecuados para distintos problemas. El objetivo es seleccionar un peque˜no subconjunto, {fi1,...,fid} , contenido en {f1,...,fp} que sea el que describa mejor el resultado del modelo estadístico aplicado. Damos una propuesta para los casos de clasificación, componentes principales y para el modelo lineal funcional con respuesta escalar y con respuesta funcional. En cada caso estudiamos resultados de consistencia.
Palabras clave – provistas por el repositorio digital

SELECCION DE VARIABLES; REGRESION; COMPONENTES PRINCIPALES; CLASIFICACION; DATOS MULTIVARIADOS; DATOS FUNCIONALES; VARIABLE SELECTION; REGRESSION; PRINCIPAL COMPONENT ANALYSIS; CLASSIFICATION; MULTIVARIATE DATA; FUNCTIONAL DATA

Disponibilidad
Institución detectada Año de publicación Navegá Descargá Solicitá
No requiere 2015 Biblioteca Digital (FCEN-UBA) (SNRD) acceso abierto

Información

Tipo de recurso:

tesis

Idiomas de la publicación

  • español castellano

País de edición

Argentina

Fecha de publicación

Información sobre licencias CC

https://creativecommons.org/licenses/by/2.5/ar/