Titulo: Aprovechando modelos de lenguaje pre-entrenados para el análisis de sentimientos en habla
Orador: Pablo Brusco
Resumen:
ASAPP es una empresa impulsada por la investigación enfocada en aumentar la productividad humana y automatizar flujos de trabajo a través de técnicas de inteligencia artificial basadas en el procesamiento de lenguaje natural y en la conversión automática de voz a texto en tiempo real.
Uno de los problemas en los que trabajamos es el del reconocimiento de sentimientos en la voz (es decir, detectar actitudes “negativas”, “neutrales” y “positivas” en las conversaciones). Debido a la escasa cantidad de recursos anotados (bases de datos en donde humanos han categorizado el audio según su sentimiento), existe una solución canónica: Utilizar el ASR (la transcripción automática del habla) y luego modelos entrenados para reconocer sentimientos en texto.
Esta alternativa tiene desventajas muy claras: (a) la forma en que hablamos difiere significativamente de la forma en la que escribimos; (b) las características prosódicas de la voz, que contienen mucha información, son descartadas; (c) los errores que se producen en el ASR pueden afectar en gran medida a la performance de los sistemas subyacentes; entre otras.
En esta presentación, describiremos brevemente cuál es la solución que proponemos a este problema, junto a algunos desafíos que aún quedan por resolver. En particular, mostraremos cómo es posible re-aprovechar modelos de lenguaje pre-entrenados para el mundo del texto (como BERT-SST2) a través de técnicas de pseudo-etiquetado, las cuales permiten disminuir drásticamente la cantidad de esfuerzo humano necesario.
Keywords: Speech Sentiment Analysis, Pre-trained Language Model, End-to-end Speech Recognition
Para más detalles sobre el contenido de esta publicación [1] y otras, visitar https://www.asapp.com/asapp-research/
[1] Suwon Shon, Pablo Brusco, Jing Pan, Kyu Han and Shinji Watanabe, “Leveraging Pre-trained Language Model for Speech Sentiment Analysis,” Proc. Interspeech 2021 (accepted)»
Bio del orador:
Pablo tiene el cargo de Research Scientist en el grupo de Procesamiento del Habla de ASAPP, forma parte del Laboratorio de Inteligencia Artificial Aplicada de la Universidad de Buenos Aires (LIAA) y es Jefe de Trabajos Prácticos en el Departamento de Computación de la misma. Pablo realizó su Doctorado en Ciencias de la Computación en el Instituto de Ciencias de la Computación de la UBA (ICC) y su tema fue el estudio de conversaciones habladas mediante técnicas de aprendizaje automático.