El término aprendizaje automático se ha vuelto cada vez más popular en los últimos años. En esencia, el aprendizaje automático es un campo de la informática en el que las computadoras pueden aprender de los datos y la información sin una programación explícita.
El aprendizaje automático se remonta a la década de 1950, cuando Arthur Samuel escribió un programa de aprendizaje informático que podía jugar a las damas y la computadora podía mejorar su estrategia cuanto más jugaba. El aprendizaje automático se ha aplicado a muchas disciplinas y tiene aplicaciones de gran alcance que incluyen seguridad de datos, finanzas, atención médica, algoritmos de búsqueda e incluso automóviles inteligentes.
Aprendizaje automático para investigación de mercado
Un equipo del MIT formado por Artem Timoshenko, un estudiante de doctorado en el MIT, y John Hauser, su asesor, ha desarrollado una nueva metodología que utiliza una forma de aprendizaje automático llamada «redes neuronales convolucionales» para encontrar las necesidades y los conocimientos de los clientes en contenido (CGU). Los detalles de este enfoque se publican en el estudio «Identificación de las necesidades del cliente a partir del contenido generado por el usuario» que aparece en una revista académica revisada por pares Marketing Science.
Este innovador algoritmo de aprendizaje automático permite recolectar UGC fácilmente disponible para identificar información clave en los datos existentes. Se basa en la literatura del procesamiento del lenguaje natural e involucra redes neuronales convolucionales (CNN), así como representaciones densas de palabras y oraciones.
Cómo funciona: uso del aprendizaje automático en la investigación de mercado
En términos simples, el algoritmo de aprendizaje automático puede extraer grandes cantidades de datos para obtener información. Puede transformar una gran cantidad de datos existentes sobre un producto o servicio en una lista detallada de conocimientos en el propio idioma de los clientes. El proceso de utilizar el aprendizaje automático para identificar los conocimientos del consumidor es el siguiente:
1. Identificar fuentes de datos y extraer contenido: Identificar las fuentes de datos para extraer y extraer contenido relevante de las fuentes. Luego, prepare los datos para el análisis, lo que implica dividir el UGC en oraciones individuales y otras tareas para limpiar los datos.
2. Entrene el algoritmo: entrene las incrustaciones de palabras y aplique una red neuronal convolucional (CNN) para filtrar oraciones no informativas de oraciones informativas. Las oraciones informativas son aquellas que contienen información importante sobre el consumidor o sus deseos y necesidades.
3. Ejecutar la máquina: La máquina agrupa las incrustaciones de oraciones y selecciona oraciones de diferentes grupos para producir una base de datos final de declaraciones.
4. Salida final de la máquina: La máquina genera una lista de aproximadamente 2000 oraciones informativas que son diversas en conocimientos.
5. Análisis por un profesional capacitado: un analista profesional capacitado revisa las oraciones e identifica un conjunto único de conocimientos.
Este enfoque de aprendizaje automático se beneficia de la informática y de las ventajas del análisis humano. Se necesitan seres humanos para entrenar la máquina desde el principio y también para analizar la salida de datos de la máquina. La máquina puede aprender del entrenamiento humano, procesando medio millón de datos o más.
Extracción de macrodatos para obtener información
Con el aprendizaje automático, uno no se limita a una sola fuente de datos. La máquina puede procesar muchos tipos diferentes de datos y puede incorporarse en el análisis dentro de un proyecto.
Tipos de fuentes de datos de contenido generado por el usuario
Reseñas de productos en sitios de comercio electrónico
Sitios de revisión de productos
Foros de discusión en línea
Medios de comunicación social
Datos del centro de llamadas
Datos de encuestas abiertas
La incorporación de múltiples fuentes de datos puede conducir a un conjunto de conocimientos aún más diverso y / o informativo, ya que cada fuente de datos proporciona una perspectiva ligeramente diferente.
Requisitos de datos de contenido generado por el usuario
Con cualquier tipo de fuente de datos, uno debe asegurarse de que se adhiera a ciertas pautas para que el algoritmo de aprendizaje automático funcione correctamente. El contenido debe ser:
1. Alta calidad: 2000 frases (o más) de datos
2. Envíos sustantivos: al menos 10 palabras por entrada.
3. Datos basados en texto: el contenido no está en imágenes, cuadros u otros tipos de gráficos.
4. Contenido rico e informativo: datos en los que se mencionan los atributos, deseos y necesidades, problemas, opiniones y soluciones deseados.
Ventajas del aprendizaje automático
El uso del aprendizaje automático como herramienta de investigación tiene muchas ventajas. Algunas ventajas incluyen:
El contenido generado por el usuario es prácticamente gratuito
El aprendizaje automático puede aprovechar los comentarios de miles de personas
El contenido contiene información que se ofrece voluntariamente en los momentos de la verdad.
El análisis basado en máquinas puede superar el sesgo humano
Capacidad para identificar conocimientos únicos y que se mencionan con poca frecuencia