Nuestros servicios
ION Data Science ofrece una variedad de servicios para ayudar a las empresas y organizaciones a aprovechar los datos y las analíticas para tomar decisiones informadas e impulsar el crecimiento. Aquí están algunos de los servicios ofrecidos por ION Data Science:
Nuestros servicios incluyen
Regresión (estimación de valor)
Estimación de probabilidad de clase (clasificación)
Coincidencia de similitudes
Agrupación
Agrupamiento de co-ocurrencia
Creación de perfiles (descripción de comportamiento)
Predicción de enlaces
Reducción de datos
Modelado causal
Regresión (estimación de valor)
Para cada individuo, predice/estima el valor de alguna variable que pertenece a ese individuo. Por ejemplo, la pregunta típica a resolver con regresión podría ser: "¿Cuánto utilizará el “cliente x” este servicio?" En este caso, la propiedad (variable) a predecir es "uso del servicio". Entonces, al observar el uso histórico de otros individuos en la población, se debe generar un modelo para predecir esta variable ("uso del servicio"). Es decir, dado un individuo, una regresión estima una variable particular de ese individuo.
¿Cuál es la diferencia entre regresión y clasificación? Básicamente, la clasificación estima si algo sucederá, mientras que la regresión estima cuánto sucederá.
Estimación de probabilidad de clase (clasificación)
Predice a cuál de un (pequeño) conjunto de clases pertenece un individuo. Usualmente, estas clases son mutuamente excluyentes. Por ejemplo, la pregunta típica a resolver con la clasificación es: "Entre todos los clientes de A-corp, ¿cuáles son propensos a responder a una oferta específica dada?" Entonces, las dos clases podrían ser llamadas: "responderá" VS "no responderá" clientes. Entonces, dado un nuevo individuo "cliente x", el procedimiento de minería de datos producirá un modelo que determina a qué clase pertenece ese "cliente x".
La estimación de la probabilidad de clase ("puntuación") se aplica para representar la probabilidad (u otra cuantificación de la probabilidad) de que el "cliente" dado pertenezca a cada clase (en este caso, la probabilidad de que el "cliente x" pertenezca a la clase "responderá" y la probabilidad de pertenecer a la clase "no responderá").
Coincidencia de similitudes
Identifica individuos similares basándose en los datos conocidos sobre ellos. Se puede utilizar directamente para encontrar entidades similares. Un ejemplo, "A-corp" quiere encontrar otras empresas similares a las mejores empresas clientes. Entonces, "A-corp" podría enfocar su fuerza de ventas en estas mejores oportunidades. Podemos usar la coincidencia de similitudes basándonos en lo que llamamos datos "firmográficos" que describen las características de estas empresas.
Otro ejemplo de esta técnica es cuando se hacen recomendaciones de productos en muchos sitios web de vendedores. Las medidas de coincidencia de similitudes subyacen a ciertas soluciones para otras tareas como la regresión, la clasificación o la agrupación.
Agrupación
No impulsada por ningún propósito específico, esta tarea agrupa individuos (en una población) por su similitud. Por ejemplo, la pregunta típica a resolver con la agrupación podría ser: "¿Nuestros clientes forman segmentos o grupos naturales?". En la exploración preliminar del dominio, esta técnica podría ser crucial para ver qué grupos naturales existen, porque los grupos detectados pueden sugerir otros enfoques de minería de datos.
Otra pregunta típica a resolver con la agrupación es: "¿Cómo deberían estructurarse nuestros equipos de ventas (basándonos en nuestra atención al cliente)?" o "¿Qué productos deberíamos desarrollar (basándonos en nuestra atención al cliente)?". Esto significa que la agrupación también podría utilizarse como entrada para los procesos de toma de decisiones.
Agrupamiento de co-ocurrencia
> Association rule discovery/frequent item-set mining/ market-basket analysis.
Encuentra asociaciones entre entidades basadas en transacciones que involucran a estas entidades. Por ejemplo, la pregunta típica a resolver con el agrupamiento de co-ocurrencias podría ser: "¿Qué productos se compran generalmente juntos?" Mientras que la tarea de agrupación (clustering) examina la similitud entre elementos basada en "sus atributos", el agrupamiento de co-ocurrencias considera la similitud de elementos basada en "su aparición conjunta en transacciones".
Permíteme explicarte por qué también se le conoce comúnmente como análisis de la cesta de mercado. Por ejemplo, esta técnica se podría utilizar para analizar las compras realizadas en un supermercado y descubrir que "producto A" se compra junto con "producto B" con mucha más frecuencia de lo que los especialistas en marketing podrían esperar. Luego, se pueden tomar decisiones basadas en este descubrimiento, como ofrecer una oferta combinada, mostrar los productos juntos o realizar una promoción. También puede utilizarse para asociar pares de productos que son comprados frecuentemente por las mismas personas.
El resultado de esta tarea es una descripción de los elementos que ocurren juntos, que generalmente incluye estadísticas sobre la frecuencia de la co-ocurrencia y la estimación de cuán sorprendente es.
Creación de perfiles (descripción de comportamiento)
El perfilado caracteriza el comportamiento típico de una población, grupo o individuo. La pregunta típica a resolver con el perfilado podría ser: "¿Cuál es el uso típico de computadoras de este segmento de clientes?" Las personas no tienen una descripción de comportamiento simple. El perfilado del uso de computadoras podría requerir una descripción compleja de promedios de uso durante los fines de semana y días laborales por la noche, minutos de escritura, etc.
Por lo general, resulta interesante descomponer el comportamiento en grupos de usuarios o incluso individuos, pero también puede realizarse para toda la población. Esta técnica se utiliza frecuentemente para detectar aplicaciones anómalas, como intrusiones ilegales en Internet o detección de fraudes. Por ejemplo, si conocemos cómo una persona usa típicamente un servicio web, podemos determinar si un cambio en ese comportamiento coincide con ese perfil o no. Luego, utilizamos este nivel de discrepancia como un puntaje de sospecha y si es lo suficientemente grande, tomamos medidas apropiadas.
Predicción de enlaces
Link prediction (predicción de enlaces) se refiere a la predicción de conexiones entre elementos de datos. Muestra la existencia de este enlace y estima la fuerza de este enlace. La pregunta típica a resolver con la predicción de enlaces podría ser: En redes sociales, "Dado que tú y Mike comparten 34 amigos, ¿tal vez te gustaría ser amigo de Mike?". Y también estima la fuerza del enlace.
Siguiendo el ejemplo, si compartes con Mike y Tyson el mismo número de amigos, pero los amigos que compartes con Mike viven en la misma área que tú, mientras que los amigos de Tyson no lo hacen, se podría determinar que tu enlace con Mike es más fuerte que tu enlace con Tyson.
Reducción de datos
La reducción de datos toma la información importante de un gran conjunto de datos para convertirlo en un conjunto más pequeño que contiene gran parte de la información más relevante. Luego, es más fácil tratar o procesar el conjunto de datos más pequeño. Esto puede parecer trivial, pero en realidad, el conjunto de datos más pequeño suele revelar mejor información. La pregunta típica a resolver con la reducción de datos podría ser: "Observando nuestro masivo conjunto de datos de preferencias del consumidor, ¿podemos revelar información sobre las preferencias del consumidor (por ejemplo, preferencias de género)?". Esta técnica suele implicar pérdida de información.
Modelado causal
El modelado causal nos ayuda a comprender qué acciones (o eventos) influyen realmente en otros. Un ejemplo es imaginar que usamos un modelo predictivo para dirigir anuncios a los consumidores y observamos que esta medida produce cambios en el comportamiento de compra. ¿Es esto porque los anuncios realmente influyen en los consumidores? ¿O es simplemente porque nuestro modelo predictivo funciona bien identificando aquellos consumidores que habrían comprado incluso si la campaña publicitaria no se hubiera lanzado? Luego, utilizamos experimentos controlados (como pruebas A/B) o métodos sofisticados para encontrar conclusiones causales entre las observaciones. El modelado causal es un análisis "contrafactual". Esto significa que queremos entender cuál sería la diferencia entre dos (o más) situaciones (que teóricamente no pueden darse al mismo tiempo) donde el evento dado es "aplicado" o "no aplicado".
En efecto, la experimentación puede ser costosa, especialmente cuando se maneja una gran cantidad de datos. Las empresas deben decidir cuidadosamente cuánta inversión están dispuestas a realizar para lograr un nivel suficiente de confianza en sus conclusiones. Además, en muchos casos, ciertas suposiciones pueden invalidar las conclusiones causales. Por ejemplo, podría aparecer el "efecto placebo", lo que llevaría a conclusiones engañosas. Por lo tanto, es crucial diseñar cuidadosamente experimentos aleatorios en dichos casos. Un científico de datos responsable siempre debe incluir las suposiciones exactas que se deben hacer para sostener la conclusión causal y ser transparente sobre las posibles limitaciones o sesgos en el análisis. El análisis causal requiere un enfoque reflexivo y riguroso para garantizar la validez y confiabilidad de las conclusiones extraídas de los datos.