Curso de Minería de Datos

Anterior

Sesion 01 Introducción Parte 1 - Definición de minería de datos, falacias, proceso de desarrollo de un proyecto de minería, tareas, clasificación, estimación, clustering, reglas de asociación e introducción a weka
Sesion 02 Introducción Parte 2 - Tarea de clasificación en minería de datos usando weka. Incluye ejemplo sobre el dataset de prueba de drogas y de créditos bancarios. Muestra el uso de J48, Naive Bayes, Perceptrón multicapa y K-NN, la importancia de las variables (atributos) derivadas, la eliminación de variables redundantes y el aprendizaje sensible al costo
Sesion 03 Introducción Parte 3 - Tareas de estimación y agrupamiento (clustering) en minería de datos usando weka. Habla de la importancia de la selección apropiada de los datos en cuanto a la variable tiempo y la necesidad de realizar los procesos de minería en el tiempo adecuado. Incluye ejemplo de clustering en el que se ve la importancia de la selección de variables (atributos) y un ejemplo de clustering de páginas web
Sesion 04 Introducción Parte 4 - Tarea de reglas de asociación en minería de datos usando weka. Importancia de chequear los resultados del proceso (evaluar). Ejemplo de canasta de mercado y titanic
Sesion 05 Naive Bayes - Clasificación con Naive Bayes. Se explica el método para crear el modelo Naive Bayes usando Excel y una tabla de ejemplo pequeña, luego se explica cómo se usa el modelo para la clasificación de un nuevo registro. Se presenta una variante del modelo basado en sumatorias de los logaritmos de las probabilidades. Se presenta el ajuste de precisión que hace Weka sobre los datos numéricos en el dataset de entrada antes de definir el modelo y como los valores de precisión se deben aplicar al registro nuevo que se espera clasificar
Sesion 06 Introducción a Rapid Miner - Partes de la interfaz de Rapid Miner, el uso de la opción de aprendizaje para ir paso a paso aprendiendo Rapid Miner. Ejercicio de clasificación sobre el dataset de IRIS con operadores de lectura, Decision Trees y conexiones entre los mismos. Uso de Validación cruzada con Naive Bayes y Decision Trees. Revisión de estadisticas del dataset y de los resultados
Sesion 07 Clasificación mensajes texto (ham/spam) con Rapid Miner - Preprocesamiento de texto (tokenización, filtros, remoción de palabras vacías y stemming). Uso de la matriz de términos por documentos con diferentes esquemas de ponderado (TF-IDF) y clasificación usando diferentes clasificadores y análisis de los resultados en la matriz de confusión
Sesion 08 Proceso KDD y CRISP-DM - Proceso de descubrimiento de conocimiento (KDD) y fases detalladas de CRISP-DM
Sesion 09 Pre-procesamiento de datos - Pre-procesamiento de datos, limpieza, detección y manejo de valores atipicos y faltantes. Normalización Min-Max y Estandarización Z-score
Sesion 10 Análisis Exploratorio de Datos - Análisis exploratorio de datos. Gráficos de histogramas porcentualizados. Correlación de Pearson. Regresión lineal, zoom y jiter en Weka. Matriz de correlación en Rapid Miner
Sesion 11 Histogramas apilados y porcentualizados en Rapidminer - Creación de un gráfico avanzado en Rapid MIner, especificamente un histograma apilado y porcentualizado con bandas varaibles. El ejemplo se realiza sobre el dataset de churn
Sesion 12 Arboles de decision CART y C4.5 (J48 en Weka) - Arboles de decisión CART y C4.5 (J48 de Weka). Se explica el método para crear los árboles, teniendo en cuenta el criterio de división F de CART y la ganancia de información en C4.5. El método se presenta basado en un ejemplo paso a paso
Sesion 13 Clasificador K-NN - Clasificación con K-NN. Se explica el método para clasificar un nuevo registro basado en K-NN. Se orienta el tema de la definición de similitud, el valor apropiado de vecinos (k) y como usar votación ponderada en lugar de votación mayoritaría para definir el valor de clase
Sesion 14 Regresión lineal multivariable para estimación - Estimación y predicción basada en regresión lineal simple y multivariable. Ejemplo rápido en excel para regresión simple y ejemplo en matlab junto con la fórmula que se usa para la obtención del modelo, además del uso del valor p y el coeficiente de correlación para la toma de decisiones.
Sesion 15 Clustering - Agrupamiento Jerarquico, K-means y otros - Clustering - Agrupamiento. Desafíos del clustering, métodos jerárquicos, particionales, basados en densidad y otros. clustering con varios representantes y muestreo
Sesion 16 Reglas de asociacion Apriori y Fp-Growth - Reglas de Asociación. Paso a paso de los algoritmos Apriori y Fp-Growth