El
origen del conocimiento está directamente relacionado con el proceso de
descubrimiento de las cosas, existe un método conocido como KDD (Knowledge
Discovery in Databases), que refiere a una metodología no trivial de descubrir
conocimiento útil, dentro de los datos contenidos en los distintos medio de
almacenaje (repositorios, Wharehouse, archivos, etc.).
Corresponde
a un proceso que itera sobre sí mismo para explorar grandes volúmenes de datos
y poder encontrar o determinar relaciones entre ellos, este proceso extrae
información para ser utilizada en la toma de decisiones basadas en modelos de
datos.
Como
muestra la figura, cada etapa puede ser iterativa hasta encontrar las variables
adecuadas para resolver el problema.
1. DATA: Todo
comienza con Datos, estos datos pueden estar almacenados en distintos medios y
corresponde a un cúmulo de fuentes que pueden provenir de distintos servidores
o distintos medios.
2. DATOS SELECCIONADOS: En esta etapa se determinan las
fuentes de datos y el tipo de información a utilizar. Es la etapa donde los
datos relevantes para el análisis son extraídos desde la o las fuentes de datos.
3. DATOS PREPROCESADOS o PREPROCESAMIENTO: Esta etapa
consiste en la preparación y limpieza de los datos extraídos desde las
distintas fuentes de datos en una forma manejable, necesaria para las fases
posteriores. En esta etapa se utilizan diversas estrategias para manejar datos
faltantes o en blanco (Missing Value), datos inconsistentes o que están fuera
de rango (Outlayers), obteniéndose al final una estructura de datos adecuada
para su posterior transformación.
4. TRANSFORMACION: Consiste en el tratamiento preliminar
de los datos, transformación y generación de nuevas variables a partir de las
ya existentes con una estructura de datos apropiada. Aquí se realizan
operaciones de agregación o normalización, consolidando los datos de una forma
necesaria para la fase siguiente.
5. DATA MINING: Es la fase de modelamiento propiamente
tal, en donde métodos inteligentes son aplicados con el objetivo de extraer
patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y
comprensibles y que están contenidos u “ocultos” en los datos.
- INTERPRETACIÓN. Se
identifican los patrones obtenidos y que son realmente interesantes,
basándose en algunas medidas y se realiza una evaluación de los resultados
obtenidos.