Los datos sintéticos son aquellos generados artificialmente mediante algoritmos. Se pueden utilizar para ampliar los datos existentes, crear nuevos datos y simular escenarios futuros. Los científicos de datos han estado aportando datos predictivos durante décadas para muchos fines, incluso en el campo de la investigación de mercado, pero los datos sintéticos van al siguiente nivel, ya que pretenden representar las actitudes o los comportamientos de un individuo o un grupo.
Los datos sintéticos pueden ofrecer muchos beneficios para la investigación de mercado, incluido el aumento del tamaño y la diversidad de la muestra al imitar poblaciones difíciles de alcanzar a bajo costo, la creación de nuevos conocimientos y soluciones a través de modelos predictivos y la aceleración del proceso de investigación.
Pero los datos sintéticos también plantean riesgos importantes. En la investigación de mercado, los conjuntos de datos sintéticos pueden introducir sesgos o distorsiones de modo que no reflejen con precisión las características y preferencias de una población objetivo. Por lo tanto, es fundamental comprender los casos de uso, las metodologías de solución y los marcos de evaluación antes de confiar en los datos sintéticos para informar las decisiones comerciales clave.
Es fundamental comenzar con una fuente de datos de alta calidad que sea muy específica para el problema en cuestión y utilizarla para entrenar un algoritmo de generación de datos sintéticos.
Aunque el término datos sintéticos es nuevo, muchos de los casos de uso que se incluyen bajo este amplio paraguas no lo son. De hecho, el problema de “llenar los huecos” en los conjuntos de datos buscando información dentro del conjunto de datos o fusionando información de otros conjuntos de datos es un problema antiguo.
Hay tres casos de uso principales que vemos en este campo. Para cada caso, es importante realizar pruebas piloto exhaustivas y cuidadosas, así como rigurosos procesos de limpieza de datos, para evaluar la precisión de los resultados.
1) Mejora de la muestra: es posible tomar un conjunto de datos de una encuesta en una categoría particular y mejorar el conjunto de datos con más encuestados en uno o más subgrupos (que, por ejemplo, podrían estar subrepresentados o ser costosos de reclutar).
2) Aumento predictivo: las consideraciones sobre la extensión de la encuesta a menudo significan que debemos tomar decisiones difíciles sobre qué preguntas podemos incluir. ¿Podemos llenar algunos vacíos en nuestros datos en función de otros encuestados históricos o, de hecho, con datos de perfiles que ya tenemos en nuestro panel, para ofrecer campos adicionales (modelados) junto con los datos de la encuesta base recopilados?
3) Gemelos digitales: con el tiempo, se ha creado una gran cantidad de puntos de datos para encuestados individuales; a menudo tenemos años de datos de comportamiento y actitud de alta calidad sobre panelistas.
Los datos sintéticos tienen mucho potencial, pero la industria tiene mucho más trabajo por hacer para crear soluciones técnica y metodológicamente sólidas y listas para las empresas.
Fuente: Synthetic Data: The Real Deal? The opportunities and challenges of synthetic data for market research. (n.d.). https://www.kantar.com/inspiration/ai/synthetic-data-the-real-deal
Alejandro Zayas es MBA por la Universidad Anáhuac con experiencia en el desarrollo e implementación de estrategias de marketing y ventas para la industria farmacéutica.