Proporcionamos marcos de trabajo de ciencia de datos para descomponer problemas empresariales y recomponer las soluciones.
En el campo de los big data, cada problema de toma de decisiones basado en datos es único: diferente combinación de objetivos, restricciones, deseos y personas que conciernen a cada empresa son diferentes. Por lo tanto, se deben aplicar diferentes algoritmos de big data dependiendo de cada problema individual.
Los científicos de datos tienden a establecer patrones para subyacer problemas comunes de negocio. Por lo tanto, los científicos de datos descomponen el problema empresarial dado en subtareas con la colaboración de los interesados en el negocio. Luego, las soluciones a las subtareas pueden ser compuestas para resolver el problema general.
En algunos casos, estas subtareas son únicas para el problema en particular. Pero, en muchos otros son tareas comunes de minería de datos.
Un problema es único para una determinada empresa de tecnología. Sin embargo, parte de la solución es "rescatar" de los datos históricos la probabilidad de una variable dada. Una vez que los datos se han organizado en un formato particular, esta estimación se ajusta al molde de una tarea común de minería de datos.
διαίρει καὶ βασίλευε (divide y vencerás)
Hay un gran número de algoritmos de minería de datos, pero podemos descomponerlos en nueve tipos de tareas que estos algoritmos abordan.
Regresión (estimación de valor)
Estimación de probabilidad de clase (clasificación)
Coincidencia de similitudes
Predicción de enlaces
Reducción de datos
Modelado causal
Agrupación
Agrupamiento de co-ocurrencia
Creación de perfiles (descripción de comportamiento)
Los fundamentos son clasificación, regresión, coincidencia de similitudes y agrupación, pero el resto también son comunes en los negocios. Es necesario introducir distinciones importantes para poder decidir la mejor formulación de un problema dado.
En ciencia de datos, una habilidad crítica es descomponer un problema de análisis de datos en sub-partes que coinciden con una tarea conocida para la cual hay herramientas disponibles.
Los especialistas en ciencia de datos son capaces de reconocer problemas familiares y sus soluciones. Esto también permite a las empresas evitar gastar recursos, perder tiempo y centrar la atención en otras partes interesantes del problema que requieren la intervención humana-comportamientos.