Como ya puedes imaginar, un proyecto de inteligencia artificial tiene distintas fases, fundamentales todas ellas en conseguir los objetivos propuestos. A continuación te presentamos más en detalle los pasos a seguir en un proyecto de datos
Como ya puedes imaginar, un proyecto de inteligencia artificial tiene distintas fases, fundamentales todas ellas en conseguir los objetivos propuestos. En deepsense utilizamos la metodologías CRISP-DM. En muchos casos las distintas etapas están algo difusas. Lo interesante de este proceso cíclico es que nos permite ir iterando y mejorando nuestros productos y servicios en base a una serie de etapas.
A continuación te presentamos un poco más en detalle en qué consiste esta metodología:
ENTENDER EL NEGOCIO Y EL PROBLEMA
El primer paso que tenemos que dar es entender el negocio y entender el problema que tenemos entre manos. Por ello, trabajamos codo con codo con el negocio de nuestro cliente, para conocer a fondo sus necesidades e ir iterando sobre ellas hasta resolver el problema. Esto es imprescindible y, encontrar a la persona clave dentro de una empresa u organización que tenga el conocimiento de negocio y nos pueda ayudar a entenderlo y definir sus métricas, fundamental.
Además es importante en esta primera etapa definir las distintas tareas y las personas que se encargan de cada una de ellas. Un proyecto de ciencia de datos no deja de ser un proyecto, y necesita gestionarse como tal.
MINERÍA DE DATOS
El segundo punto es la fase de minería de datos. Básicamente consiste en extraer los datos de sus distintas fuentes, construir los modelos de datos e intentar encontrar patrones en ellos que nos sirvan de guía para acercarnos a nuestro objetivo final.
Para ellos necesitaremos conocimientos de bases de datos, visualizaciones descriptivas y procesos de extracción, modelado y transformación de los datos.
Los tipos de datos que nos podemos encontrar pueden ser de tres tipos distintos:
- Estructurados: Son aquellos que siguen una estructura, generalmente de tabla, y se suelen guardar en bases de datos relacionales.
- No estructurados: Son datos que no siguen una estructura común. Este tipo de datos no se guardan en bases de datos relacionales, sino que tienen que almacenarse en otro tipo de bases de datos. Un ejemplo serían las imágenes, el sonido o el texto.
- Semiestructurados: Son aquellos que no se pueden encontrar en bases de datos relacionales, pero por su estructura tienen un tratamiento mucho más sencillo que los datos no estructurados. Por ejemplo, los datos que se extraen de las páginas web, que siguen cierta estructura, pero no son tablas de datos.
LIMPIEZA DEL DATO
El tercer punto es la limpieza de los datos. Hablamos de métodos para el tratamiento de datos faltantes, outliers y métodos para trabajar con ellos.
Esta fase es fundamental y es donde más tiempo se dedica en un proyecto de ciencia de datos, alrededor del 70 o el 80% del tiempo.
Es fundamental porque si no tenemos datos totalmente preparados, seremos incapaces de extraer las conclusiones correctas. Además, en el caso de utilizar modelos predictivos, si le damos datos que no son correctos o que no están limpios, el resultado que nos devolverá nuestro modelo será erróneo. Por tanto, esta fase es básica.
EXPLORACIÓN DEL DATO
Una vez limpiados y modelados los datos, hablaremos de la exploración. En esta fase buscaremos extraer información útil, ver cómo se distribuyen los datos, entender las distintas variables numéricas y categóricas y qué significa cada uno de sus niveles, calcular ratios que puedan ser intuitivos y generar gráficos y correlaciones que nos den pistas de hacia donde ir para resolver el problema. Este punto es muy detectivesco.
También tienes que saber que este punto no es estático, sino que es iterativo. Es decir, iremos extrayendo información útil y se nos irán ocurriendo otras posibilidades y otros caminos que nos llevarán a repetir el punto de minería de datos y de limpieza de datos muchas veces, hasta estar conformes con el conocimiento que hemos sido capaces de extraer.
EXTRACCIÓN DE CARACTERÍSTICAS
Este punto es muy interesante también. En él utilizaremos distintos métodos y modelos (algunos de ellos los veremos en el bloque de analítica avanzada) que nos permitirá extraer aquellas variables que puedan ser relevantes y que expliquen la mayor parte de nuestros datos.
MODELADO PREDICTIVO
Este punto es la parte que todo el mundo espera: aplicar los modelos de inteligencia artificial. En deepsense somos expertos en generar modelos predictivos basados en gemelos digitales que permiten reducir riesgos, predecir comportamientos futuros, reducir costes e incrementar beneficios. Lo interesante de los gemelos digitales es su aplicabilidad a distintos sectores, desde la industria a la medicina, pasando por gestión de la energía, logística e incluso turismo o agricultura.
VISUALIZACIÓN DE DATOS
El último punto de todo proceso es mostrar los resultados. Uno de los puntos también muy importantes en el proceso es saber cómo exponer y comunicar los resultados a la gente de negocio para que puedan extraer sus conclusiones, darnos feedback y tomar decisiones útiles para ellos.
Recuerda que todo este proceso no es lineal. Que después de una etapa podemos volver a la anterior, según nos interese. Somos flexibles en el proceso, pero siempre con el objetivo en mente de sacar el máximo conocimiento de los datos.