La agilidad se une a la ciencia de datos: enfoques prometedores para proyectos de DS

Compatibilité
Sauvegarder(0)
partager

metodología

29. septiembre 2023 por Sezen Ipek y Stefan Mönk

¿Inteligencia artificial (IA), aprendizaje automático (AM) y aprendizaje profundo (AD), analítica de datos o análisis de datos? ¿Y en qué consiste la agilidad? Esta entrada del blog aporta claridad. La agilidad y la ciencia de datos tienen algo en común: ambas disciplinas han adquirido una enorme importancia en los últimos años. El uso de métodos y marcos ágiles puede ser un factor de éxito decisivo para las empresas. En esta y las siguientes entradas del blog, nos centraremos en la cuestión de si los enfoques ágiles pueden integrarse en el mundo de la ciencia de datos, y cómo. Antes, sin embargo, le daremos una visión general de los fundamentos importantes en torno a la ciencia de datos y la agilidad.

Diferenciar la ciencia de datos del desarrollo de software

La Ciencia de Datos no debe equipararse al puro desarrollo de software. El desarrollo de software implica la creación de aplicaciones o sistemas que cumplan requisitos específicos. Se trata de programar un código que se ejecuta y se mantiene en diferentes plataformas. La ciencia de datos, en cambio, se centra en el análisis de datos para obtener información y modelar patrones. Esto requiere una forma experimental de trabajar porque no se pueden hacer suposiciones de antemano sobre los datos y los posibles resultados. El despliegue de programas informáticos y modelos de aprendizaje automático también debe considerarse de forma diferenciada, ya que los programas informáticos son en gran medida estáticos, mientras que los modelos de aprendizaje automático deben cambiar continuamente y aprender nuevos datos. En última instancia, la ciencia de datos y la minería de datos están más cerca de la investigación y el desarrollo que de la ingeniería. Esto también puede observarse en CRISP-DM, ya que se basa en la exploración de nuevos enfoques más que en el diseño de programas informáticos. Si ahora te estás preguntando qué es exactamente CRISP-DM, puedes esperar a los párrafos siguientes.

Delimitar los términos de DS

Antes de sumergirnos en los detalles del desarrollo ágil de software en Ciencia de Datos, es importante delinear los diferentes términos. La Inteligencia Artificial, el Aprendizaje Automático, el Aprendizaje Profundo, la Analítica de Datos y el Análisis de Datos están estrechamente relacionados, pero cada uno tiene sus propias características y aplicaciones. Por ello, haremos un breve repaso de cada una de estas disciplinas y te mostraremos cómo entenderlas dentro de la Ciencia de Datos.

Ciencia de datos

La ciencia de datos se define como una ciencia aplicada interdisciplinar. El objetivo es obtener conocimientos a partir de los datos para apoyar los procesos de toma de decisiones u optimizar los procesos empresariales. La Ciencia de Datos se define como el estudio científico de la creación, validación y transformación de datos para obtener conocimiento a partir de ellos. Además, la Ciencia de Datos utiliza principios científicos para generar significado a partir de los datos y aplica el aprendizaje automático y los algoritmos para extraer y gestionar información de grandes conjuntos de datos.

Según la definición, un Científico de Datos utiliza métodos científicos de áreas de las matemáticas, la estadística, la estocástica y la informática. Entre sus objetivos, además de generar conocimiento a partir de los datos, están la derivación de recomendaciones para la acción, el apoyo a la toma de decisiones y la optimización y automatización de procesos empresariales. Además, se consigue la creación de previsiones y predicciones de acontecimientos futuros.

Inteligencia artificial

El campo de la inteligencia artificial (IA) es muy diverso y altamente interdisciplinar. Existen diferentes definiciones del término IA (o también llamado a menudo AI). Lo que las definiciones tienen en común es que la IA trata del desarrollo de programas informáticos o máquinas cuyo comportamiento puede describirse como "inteligente".

Existe un fuerte vínculo entre los términos Ciencia de Datos e IA. La ciencia de datos se considera un campo de investigación interdisciplinar que utiliza diversos procesos y métodos para generar nuevos conocimientos a partir de los datos. Los procesos incluyen la preparación, el análisis, la visualización y la predicción de datos. La diferencia es que la IA se centra en la creación de modelos. Estos modelos pueden utilizarse en proyectos de ciencia de datos para responder a preguntas concretas.

Aprendizaje automático y aprendizaje profundo

El aprendizaje automático y su forma especial, el aprendizaje profundo, son disciplinas que pertenecen a la IA. El aprendizaje automático se refiere a la generación artificial de conocimiento a partir de la experiencia, especialmente de datos de entrenamiento existentes. El aprendizaje automático deriva patrones y los describe matemáticamente utilizando una variedad de métodos en las áreas del aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje por refuerzo. Con ellos es posible aprender modelos y posibilitar la evaluación y el procesamiento de sistemas complejos como el lenguaje natural o el reconocimiento de imágenes.

Análisis de datos

La analítica de datos se considera un subcampo de la ciencia de datos, que implica la recopilación, el almacenamiento, el procesamiento y el análisis de datos para obtener de ellos conocimientos estratégicos y empresariales. El análisis de datos se ocupa de generar ideas a partir de datos en forma descriptiva. Data Science y Data Analytics comparten métodos y procesos, aunque existen otros métodos complementarios en Data Science.

El análisis de datos debe entenderse como una subcategoría de la analítica de datos e incluye el análisis de conjuntos de datos individuales para obtener información a partir de ellos. La diferencia entre la analítica de datos y el análisis de datos queda clara a través de sus objetivos. Mientras que en el campo del análisis de datos se obtienen conocimientos a partir de datos históricos, que se interpretan y visualizan, el análisis de datos se centra más en la predicción de acontecimientos futuros y en la formulación de recomendaciones para la acción.

Conocer los métodos de DS

La Ciencia de Datos requiere un enfoque sistemático y un proceso claro en el que se estructuren las tareas y se separen claramente las fases. Dicho proceso es necesario para proporcionar a los Científicos de Datos y a otras partes interesadas un marco de actuación para estructurar las tareas de análisis de datos y abordar los posibles retos. CRISP-DM y CRISP-ML(Q) son modelos de proceso habituales en el sector de la ciencia de datos.

Proceso Estándar Interprofesional para la Extracción de Datos - CRISP-DM

Para desarrollar patrones y modelos a partir de grandes cantidades de datos, de modo que posteriormente se pueda extraer conocimiento de los mismos, se requiere un proceso sistemático dividido en fases. El modelo más utilizado para los proyectos de ciencia de datos es CRISP-DM.

La minería de datos (es decir, el reconocimiento de patrones de datos) se considera un subcampo de la ciencia de datos e incluye métodos estadísticos y algoritmos para extraer conocimientos de los datos. El enfoque CRISP-DM ha contribuido significativamente a establecer enfoques iterativos y ágiles en los proyectos de ciencia de datos.


Fases CRISP-DM, fuente Haneke et al., 2021: 9

Autor Sezen Ipek

Sezen Ipek es estudiante empleada en el Competence Center Business Engineering de adesso desde 2021. Sus temas principales son la ingeniería de requisitos, los formatos de taller, la ciencia de datos y la agilidad.

Actualmente estudia Informática Empresarial con especialización en Ciencia de Datos y Consultoría (M. Sc.) y se espera que finalice sus estudios en enero de 2024.

Coordonnées
Autor Stefan Mönk