Curso: Minería de Datos Web

Contenidos

Introducción

Motivación del área. Introducción al descubrimiento de conocimiento en datos: proceso y metodología. Minería de datos, texto y Web. Tipos: Minería del contenido de la Web; Minería de uso de la Web; Minería de la estrctura de la Web. Técnicas y aplicaciones de cada una de estas áreas.

Minería de contenido de la Web

Extracción de contenido de páginas Web. Representación de texto, reducción de dimensionalidad y procesamiento de texto. Clasificación de páginas Web. Definición y aplicaciones de clasificación. Algoritmos clásicos de clasificación de texto: Rocchio, k-NN, naive Bayes, support vector machines (SVM) y otros. Métricas de evauación: exactitud, precisión, taza de error y otras. Clustering de páginas Web. Definición y aplicaciones de clustering. Algoritmos basados en particionamiento, algoritmos jerárquicos aglomerativos y divisivos y algoritmos conceptuales. Métricas de evaluación externas e internas: entropía, pureza, F-Measure, cohesividad y otras.

Minería de uso de la Web

Minería de los registro de navegación en la Web. Fuentes de datos y recolección. Preparación de datos para minería de uso. Integración con datos de E-commerce. Tracking y profiling de usuarios. Algoritmos de detección de patrones. Reglas de asociación: tipos y algoritmos de generación de reglas. Métricas de interés objetivas y subjetivas. Aplicaciones en e-commerce.

Minería de estructura de la Web

La Web como grafo. Relación entre texto y enlaces en la Web. Análisis de redes sociales y de co-citaciones. Nociones de Hubs y Authorities. Algoritmos de ranking: PageRank, HITS y variaciones. Inferencia de comunidades Web a partir de la topología de links.

Sistemas de Recomendación en la Web

Sistemas de recomendación: definición, historia, taxonomía y contexto. Ejemplos y posibles aplicaciones. Enfoques de construcción: basado en contenido, colaborativo e híbridos. Métodos de filtrado colaborativo: demográfico, estereotipos, centrado en usuarios y/o en ítems, enfoques híbridos. Filtrado centrado en usuarios: comparación de perfiles, identificación de vecinos y predicción. Filtrado centrado en ítems: coeficientes de correlación, similitud y predicción. Filtrado colaborativo basado en modelos: clustering de usuarios y/o ítems, reglas de asociación y métodos basados en grafos. Desafíos: escalabilidad, esparcidad de ratings, problema de cold-start y latencia, transparencia y explicación, modelos de propagación de confianza y reputación de usuarios.

Bibliografía:

Adomavicius, G. and Tuzhilin, A.: Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions. IEEE Transactions on Knowledge and Data Engineering. Vol. 17, no. 6, pp. 734-749, 2005.

Chakrabarti, S: Mining the Web: Discovering knowledge from hypertext. Morgan Kaufmann. 2003.

Baeza-Yates, R. and Ribeiro-Neto, B.: Modern Information Retrieval. Addison-Wesley, 1999.

Jain, A. K., Murty, M. N. and Flynn, P. J.: Data Clustering: A Review. ACM Computing Surveys, 31(3): 264-323, 1999.

Liu, B.: Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Springer, 2007.

Sebastiani, F.: Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1): 1-47, 2002.

Han, J. and Kamber, M.: Data Mining: Concept and Techniques. Morgan Kaufmann Publishers. 2nd edition. 2005.

Witten, I. and Eibe, F.: Data Mining: Practical Machine Learnig Tools with Java Implementations. Morgan Kaufmann Publishers. 2nd edition. 2005.

Linoff, G. and Berry, M.: Mining the Web: Transforming Customer Data into Customer Value. John Wiley & Sons, 2001.

Minería de Datos Web

Navigation

Contenidos