Práctico 1: Arboles de decisión.
1. Explore el siguiente Tutorial en C4.5 (de la U. de Regina, Canada). Para instalar el C4.5 en su máquina, en el siguiente link hay archivos modificados del c4.5 (con instrucciones de instalación) que se necesitan para el trabajo.
2. Para comenzar a utilizar el programa, analice el ejemplo play-tennis que se discute en el libro 'Machine Learning' de Tom Mitchell. Verifique el árbol resultante con el presentado en la página 53 del libro. Cambie el nivel de verbosity para poder controlar los valores de entropia e information-gain en los nodos con los cálculos que se muestran en las pag. 59 a 61 del libro.
3. En este ejercicio se usarón los datos del problema Labor-negotiations. Los datos corresponden a acuerdos laborales, y el output corresponde a si el acuerdo fue satisfactorio para los empleados o no. Obtenga el árbol de decisión correspondiente, usando la opción -g del c4.5 (para usar information gain como criterio de selección). La siguiente es una rama del árbol desarrollado (antes del pruning):
wage increase first year <= 2.5 :
| education allowance = yes: bad (3.8/1.1)
| education allowance = no:
| | contribution to health plan = none: bad
(3.2)
| | contribution to health plan = half: good
(0.2/0.0)
| | contribution to health plan = full: bad
(4.1)
Una de las virtudes de los árboles es que son "entendibles" en sus decisiones. Tiene sentido el criterio de decisión que se toma en cuanto a health plan? Puede sugerir soluciones a este problema?
4. Genere dos conjuntos de datos de entrenamiento correspondientes al problema de las espirales anidadas, uno de longitud 200 y otro de 1000. Genere un conjunto de test de longitud 10000. Cree el archivo .names necesario para el problema. A partir de cada uno de los conjuntos de entrenamiento, desarrolle el árbol de decisión correspondiente y grafique las predicciones sobre el conjunto de test (archivo .prediction).
Entregue un informe con los gráficos, archivos y discusiones pedidas explícitamente, y cualquier otra consideración que crea necesaria.