Sesion 01 |
Introducción Parte 1 -
Definición de minería de datos, falacias, proceso de desarrollo de un proyecto de minería, tareas, clasificación, estimación, clustering, reglas de asociación e introducción a weka
|
Sesion 02 |
Introducción Parte 2 -
Tarea de clasificación en minería de datos usando weka. Incluye ejemplo sobre el dataset de prueba de drogas y de créditos bancarios. Muestra el uso de J48, Naive Bayes, Perceptrón multicapa y K-NN, la importancia de las variables (atributos) derivadas, la eliminación de variables redundantes y el aprendizaje sensible al costo
|
Sesion 03 |
Introducción Parte 3 -
Tareas de estimación y agrupamiento (clustering) en minería de datos usando weka. Habla de la importancia de la selección apropiada de los datos en cuanto a la variable tiempo y la necesidad de realizar los procesos de minería en el tiempo adecuado. Incluye ejemplo de clustering en el que se ve la importancia de la selección de variables (atributos) y un ejemplo de clustering de páginas web
|
Sesion 04 |
Introducción Parte 4 -
Tarea de reglas de asociación en minería de datos usando weka. Importancia de chequear los resultados del proceso (evaluar). Ejemplo de canasta de mercado y titanic
|
Sesion 05 |
Naive Bayes -
Clasificación con Naive Bayes. Se explica el método para crear el modelo Naive Bayes usando Excel y una tabla de ejemplo pequeña, luego se explica cómo se usa el modelo para la clasificación de un nuevo registro. Se presenta una variante del modelo basado en sumatorias de los logaritmos de las probabilidades. Se presenta el ajuste de precisión que hace Weka sobre los datos numéricos en el dataset de entrada antes de definir el modelo y como los valores de precisión se deben aplicar al registro nuevo que se espera clasificar
|
Sesion 06 |
Introducción a Rapid Miner -
Partes de la interfaz de Rapid Miner, el uso de la opción de aprendizaje para ir paso a paso aprendiendo Rapid Miner. Ejercicio de clasificación sobre el dataset de IRIS con operadores de lectura, Decision Trees y conexiones entre los mismos. Uso de Validación cruzada con Naive Bayes y Decision Trees. Revisión de estadisticas del dataset y de los resultados
|
Sesion 07 |
Clasificación mensajes texto (ham/spam) con Rapid Miner -
Preprocesamiento de texto (tokenización, filtros, remoción de palabras vacías y stemming). Uso de la matriz de términos por documentos con diferentes esquemas de ponderado (TF-IDF) y clasificación usando diferentes clasificadores y análisis de los resultados en la matriz de confusión
|
Sesion 08 |
Proceso KDD y CRISP-DM -
Proceso de descubrimiento de conocimiento (KDD) y fases detalladas de CRISP-DM
|
Sesion 09 |
Pre-procesamiento de datos -
Pre-procesamiento de datos, limpieza, detección y manejo de valores atipicos y faltantes. Normalización Min-Max y Estandarización Z-score
|
Sesion 10 |
Análisis Exploratorio de Datos -
Análisis exploratorio de datos. Gráficos de histogramas porcentualizados. Correlación de Pearson. Regresión lineal, zoom y jiter en Weka. Matriz de correlación en Rapid Miner
|
Sesion 11 |
Histogramas apilados y porcentualizados en Rapidminer -
Creación de un gráfico avanzado en Rapid MIner, especificamente un histograma apilado y porcentualizado con bandas varaibles. El ejemplo se realiza sobre el dataset de churn
|
Sesion 12 |
Arboles de decision CART y C4.5 (J48 en Weka) -
Arboles de decisión CART y C4.5 (J48 de Weka). Se explica el método para crear los árboles, teniendo en cuenta el criterio de división F de CART y la ganancia de información en C4.5. El método se presenta basado en un ejemplo paso a paso
|
Sesion 13 |
Clasificador K-NN -
Clasificación con K-NN. Se explica el método para clasificar un nuevo registro basado en K-NN. Se orienta el tema de la definición de similitud, el valor apropiado de vecinos (k) y como usar votación ponderada en lugar de votación mayoritaría para definir el valor de clase
|
Sesion 14 |
Regresión lineal multivariable para estimación -
Estimación y predicción basada en regresión lineal simple y multivariable. Ejemplo rápido en excel para regresión simple y ejemplo en matlab junto con la fórmula que se usa para la obtención del modelo, además del uso del valor p y el coeficiente de correlación para la toma de decisiones.
|
Sesion 15 |
Clustering - Agrupamiento Jerarquico, K-means y otros -
Clustering - Agrupamiento. Desafíos del clustering, métodos jerárquicos, particionales, basados en densidad y otros. clustering con varios representantes y muestreo
|
Sesion 16 |
Reglas de asociacion Apriori y Fp-Growth -
Reglas de Asociación. Paso a paso de los algoritmos Apriori y Fp-Growth
|