Kyutai Labs lanzó el miércoles Moshi AI, un chatbot de inteligencia artificial que responde verbalmente en tiempo real. La empresa francesa de inteligencia artificial anunció que todo el modelo de lenguaje de audio de Moshi se desarrolló internamente. También puede modificar la voz para expresar emociones y responder con diferentes estilos de habla. El público puede acceder al modelo de IA de forma gratuita. Actualmente, el modelo de IA limita las conversaciones a cinco minutos. Curiosamente, OpenAI también anunció funciones de voz similares con el lanzamiento de GPT-4o, pero aún no se han anunciado. Liberado.
Funciones de IA de Moshi
Compañía Estados El modelo de IA se desarrolló en seis meses con un equipo de ocho personas. Al presentar el prototipo de IA en un evento en París, Kyotai Labs dijo que Moshi no es un asistente de IA sino un prototipo que puede usarse para desarrollar herramientas para diferentes casos de uso. También puso el chatbot a disposición del público. aquíLos usuarios pueden ingresar su correo electrónico y unirse a la lista de espera, pero los empleados de Gadgets 360 pudieron obtener acceso instantáneo a la plataforma sin tiempo de espera.
Ayer presentamos Moshi, la IA de latencia más baja jamás creada. Moshi puede entablar pequeñas charlas, explicar varios conceptos y participar en juegos de roles de muchas emociones y estilos de habla. Habla con Moshi aquí https://t.co/a4EbAQiih7 Obtenga más información sobre el método a continuación 🧵. pic.twitter.com/NkJRybTRLQ
-Kyutai (@kyutai_labs) 4 de julio de 2024
La interfaz de la plataforma es muy sencilla. Existe un diseño de IA simplificado donde los usuarios pueden comprobar qué tan fuerte es su voz cuando hablan. Hay un cuadro de texto en el que solo aparecen las respuestas de la IA. Otro cuadro cerca de la parte superior muestra detalles técnicos como la duración del audio, la latencia y la pérdida de audio.
En la parte superior hay un botón de desconexión. Actualmente, la duración máxima de la llamada puede ser de hasta cinco minutos. La página de descripción destaca que Moshi puede pensar, hablar y escuchar al mismo tiempo para maximizar el flujo de la conversación.
Gadgets 360 descubrió que el tiempo de respuesta es muy bajo y la IA suele responder instantáneamente. Sin embargo, hay algunos casos en los que el retraso en el tiempo de respuesta puede exceder los 10 a 15 segundos. Pero esto puede deberse a una gran carga en el servidor. Sin embargo, a veces las indicaciones verbales no se registraron en absoluto, incluso después de llenar las tres cuartas partes del sonómetro.
Gadgets 360 también descubrió que el modelo de IA puede responder con una voz emocional, hablar en diferentes estilos y utilizar diferentes modulaciones de voz. El modelo de IA también está conectado a Internet y puede obtener respuestas a consultas que requieren búsquedas en la web. Vale la pena señalar que el chatbot no permite enviar mensajes de texto y la voz es la única forma de interactuar con él.
Kyutai Labs dijo que el modelo de IA será de código abierto. Sin embargo, la empresa de IA aún no ha alojado los pesos y códigos de los modelos en un portal. Una vez que esté disponible, los usuarios podrán descargarlo e instalarlo localmente y reproducirlo en un dispositivo sin conexión.
Para obtener lo último Noticias de tecnología Y ReseñasSiga Gadgets 360 en X, Facebook, WhatsApp, Hilos Y noticias de GooglePara ver los últimos vídeos sobre herramientas y técnicas, suscríbete a nuestro canal. Canal de YoutubeSi quieres saber todo sobre los top influencers, sigue nuestra web ¿Quién es 360? en Instagram Y YouTube.