AudioPaLM: Un modelo de lenguaje multimodal de Google para comprender y generar habla y texto

Los grandes modelos de lenguaje (LLM) como ChatGPT y CLIP han revolucionado las interacciones hombre-máquina en diversos sectores. AudioPaLM de Google es un nuevo LLM que combina los puntos fuertes del modelo PaLM-2 basado en texto y del modelo AudioLM para procesar tanto voz como texto. Esta arquitectura multimodal permite realizar tareas como el reconocimiento de voz y la conversión de voz a texto. Al aprovechar los conocimientos lingüísticos de PaLM-2 y la preservación de la información paralingüística de AudioLM, AudioPaLM logra una comprensión y generación exhaustivas tanto del habla como del texto.

AudioPaLM emplea un vocabulario conjunto para la representación del habla y del texto y puede entrenarse en diversas tareas. Supera a los sistemas existentes en la traducción del habla y sobresale en la traducción de voz a texto sin necesidad de disparos para nuevas combinaciones lingüísticas, según revelaron sus diseñadores. Además, AudioPaLM permite la transferencia de voz entre idiomas, capturando y reproduciendo voces distintas para su conversión y adaptación.

Las principales aportaciones de AudioPaLM incluyen el aprovechamiento de PaLM y PaLM-2s para el preentrenamiento de texto, la obtención de resultados punteros en traducción automática de voz y traducción de voz a voz, y la demostración de capacidades zero-shot en traducción automática de voz para combinaciones lingüísticas desconocidas.

En resumen, AudioPaLM se postula como una herramienta que amplía las posibilidades de los LLM incorporando técnicas de audio y proporcionando una solución unificada para el tratamiento del habla y el texto. Su rendimiento y versatilidad lo convierten en una prometedora incorporación al panorama de los LLM.