jueves, 28 de abril de 2016

Metodología KDD

El origen del conocimiento está directamente relacionado con el proceso de descubrimiento de las cosas, existe un método conocido como KDD (Knowledge Discovery in Databases), que refiere a una metodología no trivial de descubrir conocimiento útil, dentro de los datos contenidos en los distintos medio de almacenaje (repositorios, Wharehouse, archivos, etc.).


Corresponde a un proceso que itera sobre sí mismo para explorar grandes volúmenes de datos y poder encontrar o determinar relaciones entre ellos, este proceso extrae información para ser utilizada en la toma de decisiones basadas en modelos de datos.



Como muestra la figura, cada etapa puede ser iterativa hasta encontrar las variables adecuadas para resolver el problema.

1.       DATA:   Todo comienza con Datos, estos datos pueden estar almacenados en distintos medios y corresponde a un cúmulo de fuentes que pueden provenir de distintos servidores o distintos medios.

2.     DATOS SELECCIONADOS: En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.

3.  DATOS PREPROCESADOS o PREPROCESAMIENTO: Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco (Missing Value), datos inconsistentes o que están fuera de rango (Outlayers), obteniéndose al final una estructura de datos adecuada para su posterior transformación.

4.    TRANSFORMACION: Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada.  Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.

5.  DATA MINING: Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
  1. INTERPRETACIÓN. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.