Los investigadores han combinado los datos de reconocimiento facial y de habla para mejorar las capacidades de detección de emociones de las IA.
La capacidad de reconocer emociones es un objetivo de larga data de los investigadores de IA. El reconocimiento preciso permite cosas como la detección de cansancio al volante, la ira que podría dar lugar a la comisión de un delito, o incluso signos de tristeza / depresión en los puntos críticos de suicidio.
Los matices en cómo las personas hablan y mueven sus músculos faciales para expresar estados de ánimo han presentado un desafío. Detallado en un documento (PDF) sobre Arxiv, los investigadores de la Universidad de Ciencia y Tecnología de China en Hefei han logrado algunos avances.
En el artículo, los investigadores escribieron:
“El reconocimiento automático de emociones (AER) es una tarea desafiante debido al concepto abstracto y las múltiples expresiones de emoción.
Inspirado por este proceso cognitivo en seres humanos, es natural utilizar simultáneamente información de audio y visual en AER … Todo el proceso puede completarse en una red neuronal ".
Al desglosar el proceso todo lo que puedo, el sistema consta de dos partes: una para efectos visuales y otra para audio.
Para el sistema de video, los marcos de caras se ejecutan a través de otras dos capas computacionales: un algoritmo básico de detección de caras y tres redes de reconocimiento facial optimizadas como "relevantes para la emoción".
En cuanto al sistema de audio, los algoritmos que procesan el sonido se ingresan con espectrogramas del habla para ayudar al modelo de AI a enfocarse en las áreas más relevantes para la emoción.
Cosas como las características medibles se extraen de los cuatro algoritmos de reconocimiento facial del sistema de video y se combinan con
Una base de datos conocida como AFEW8.0 contiene programas de cine y televisión que se utilizaron para un desafío secundario de EmotiW2018. La IA se alimentó con 653 videos y clips de audio correspondientes de la base de datos.
En el desafío, la IA de los investigadores se desempeñó admirablemente, determinó correctamente que las emociones estaban "enojadas", "disgustadas", "miedo", "felices", "neutrales", "tristes" y "sorprendidas" aproximadamente 62.48
En general, la IA se desempeñó mejor en emociones como "enojado", "feliz" y "neutral", que tienen características obvias. Aquellos que tienen más matices, como "repugnancia" y "sorpresa", lucharon más contra.
¿Interesado en escuchar a los líderes de la industria discutir temas como este y sus casos de uso? Asista a los eventos coautorizados de AI y Big Data Expo con los próximos espectáculos en Silicon Valley, Londres y Ámsterdam para obtener más información. Coubicado con IoT Tech Expo, Blockchain Expo y Cyber Security & Cloud Expo.