KDD, de los datos al conocimiento

En abstracción, el uso del Knowledge Discovery (KDD) ha planteado la solución a la masiva generación de datos en el marco de la continua transformación digital, en donde el análisis continuo de datos iterativos exigía una nueva metodología de exploración.

Al hablar del KDD, hablamos de un proceso secuencial de extracción de patrones o conocimiento a partir de una gran cantidad de datos. Normalmente, nuestro punto de interés son los datos que no son triviales, implícitos, previamente desconocidos y potencialmente útiles.

Por concepto, el Data Mining se presentaría como el centro de esta metodología y no es de extrañarnos que se contrapongan más frameworks cuando de la obtención de insights a partir de los datos hablamos. Una de las diferencias significativas entre KDD y otros frameworks como SEMMA (Sample, Explore, Modify, Model and Assess) o CRISP-DM (Cross Industry Standard Process for Data Mining), es que KDD va más allá de las aplicaciones de tecnologías de la información y aplica el contexto empresarial, es decir, robustece un enfoque de negocios.

Sin embargo, regresemos a un primer paso clarificando el concepto de la inteligencia. Es sencillo, la inteligencia es la habilidad de lograr objetivos complejos, donde es necesaria la información generalmente distribuída en el mundo de manera no ordenada y digamos caótica. Aquí, hablamos de entendimiento, que se puede definir como la habilidad de transformar información compleja en útil; conceptos particularmente importante por la relación con la inteligencia artificial y el aprendizaje automático con la metodología.

Knowledge Discovery Step by Step

01. Data Selection.

La selección de datos es la etapa de identificar y seleccionar el conjunto de datos que necesita ser procesado; también identificamos los datos junto con su tipo a medida que profundizamos en los datos.

02. Data Preprocessing.

El preprocesamiento de datos es nuevamente una de las fases esenciales en los marcos KDD y CRISP-DM, ya que estamos aplicando ETL (Extract Load & Transform), nuestro objetivo aquí es eliminar los datos “sucios” o “ruidosos” y eliminar cualquier valor atípico para mejorar la eficiencia de los datos. Además de identificar la estrategia para manejar los atributos de datos faltantes junto con la asignación de datos a sus tipos de datos relativos.

03. Data Mining.

La minería de datos es el proceso de generar información útil a partir de una gran cantidad de datos utilizando diferentes tipos de técnicas como regresión, agrupamiento, modelado de secuencias, dependencia, análisis de líneas. La minería de datos comprende instanciar los modelos y ajustar estos últimos, y determinar los patrones observados a partir de los datos. Los modelos adaptados juegan el papel de conocimiento asumido.

04. Pattern Interpretation.

La interpretación de datos es el proceso de interpretación de los resultados que se recopilan al aplicar las técnicas de DM en los modelos y garantizar que se deriven conocimientos útiles de los datos. En esta etapa, intentamos evaluar e interpretar los patrones minados con respecto a las metas definidas en el primer paso. Este paso se centra mucho en la utilidad y la comprensibilidad del modelo producido.

05. Data Presentation.

El paso final del proceso KDD es utilizar el conocimiento descubierto. En esta etapa, estamos listos para introducir este conocimiento adquirido en otros sistemas para más procesamiento y acciones. Cuando aplicamos el proceso KDD a los datos de producción, es muy probable que ocurran cambios, como atributos faltantes; los datos se vuelven dinámicos, la estructura de datos puede cambiar, el dominio de datos puede modificarse. Por eso, el éxito de esta etapa se basa en el éxito de sus predecesoras.

En conclusión, el KDD es un marco que ha demostrado ampliamente su capacidad; se han notado mucho esos dominios, como la sanidad, la detección de fraudes. Sin embargo, sin el éxito de la etapa de presentación, todo el ciclo de vida se vuelve inútil. Cuéntame tu opinión sobre esta metodología, ¿conocías el alcance del machine learning en este enfoque? :nerd_face: :robot:

1 me gusta