OpenAI demora El increíble modo de audio de ChatGPT enojado Muchos aficionados De la inteligencia artificial robot de chatPero quizás ahora estén por delante de ellos. El desarrollador francés de IA Qotai ha presentado un asistente de voz de IA en tiempo real llamado Moshi.
Moshi está diseñado para proporcionar conversaciones realistas con los usuarios a través de audio, por ejemplo alexa o Asistente de Googlepero están respaldados por grandes modelos de lenguaje subyacentes chat gbt Sus competidores son, en este caso, el modelo Helium 7B. Según Kyutai, Moshi puede hablar con diferentes acentos y tiene 70 estilos emocionales y de habla diferentes. La IA puede incluso manejar dos transmisiones de audio simultáneamente, lo que permite a Moshi escuchar y hablar simultáneamente.
El desarrollo de Kyotai Mushi implicó capturar más de 100.000 diálogos sintéticos utilizando tecnología de conversión de texto a voz (TTS). El objetivo era ayudar a Moshe a aprender los matices y el tono de la comunicación humana. La marca incluso colaboró con un locutor profesional para mejorar la calidad del sonido de Moshi.
Este asistente de IA integra entrenamiento de texto y voz y está optimizado para funcionar con múltiples sistemas back-end, lo que significa que puede ejecutarse en dispositivos como computadoras portátiles sin tener que interactuar con la nube. La empresa promueve esto como una forma de mantener la privacidad y la seguridad al evitar la transferencia de datos confidenciales a través de Internet. Puedes ver una demo de Moshi aquí.
Conversacion abierta
Kyotai anunció que Moshi será un proyecto de código abierto, que incluirá códigos modelo y marcos, y sentará las bases para una mayor innovación. El enfoque de código abierto también puede ayudar a aliviar las quejas que enfrentan las principales empresas de IA con respecto a la seguridad y la ética de sus modelos cerrados. Los partidarios de Qotai, incluido el multimillonario francés Xavier Niel, promueven el enfoque de código abierto.
Qtai también está trabajando en la integración de sistemas de reconocimiento de voz, marcas de agua y seguimiento de firmas en la aplicación Moshi. Estas características ayudarán a reconocer la voz generada por IA, mejorarán la responsabilidad y la trazabilidad y, al mismo tiempo, garantizarán que el contenido generado por IA pueda monitorearse y verificarse.
La aplicación Moshi aún está en desarrollo, pero la ubicación del audio de la presentación es impresionante. El enfoque de voz podría servir como catalizador para otras versiones habilitadas por voz de los competidores de ChatGPT o acelerar la incorporación de LLM a Alexa y otros asistentes de voz si Moshi se da cuenta y se vuelve popular.
Si quieres probar moshi, Manifestación Disponible en línea, también puedes registrarte para obtener acceso temprano al chatbot completo allí.