Hume, con sede en Nueva York inteligencia artificial (AI) presentó el lunes una nueva herramienta que permitirá a los usuarios personalizar voces de inteligencia artificial. La nueva función, llamada Control de voz, tiene como objetivo ayudar a los desarrolladores a integrar estas voces en sus chatbots y otras aplicaciones basadas en inteligencia artificial. En lugar de ofrecer una amplia gama de sonidos, la empresa ofrece un control preciso sobre 10 dimensiones diferentes de sonidos. Al especificar los parámetros requeridos en cada dimensión, los usuarios pueden crear sonidos únicos para sus aplicaciones.
La empresa detalló la nueva herramienta de inteligencia artificial en un documento. Publicación de blog. Hume dijo que está tratando de resolver el problema para que las empresas encuentren la voz de IA adecuada que coincida con su identidad de marca. Con esta función, los usuarios pueden personalizar diferentes aspectos de la percepción de la voz y permitir a los desarrolladores crear una voz más asertiva, relajada y enérgica para aplicaciones basadas en IA.
El control por voz de Hume se encuentra actualmente en versión beta, pero cualquier persona registrada en la plataforma puede acceder a él. Los empleados de Gadgets 360 pudieron acceder a la herramienta y probar la función. Hay 10 dimensiones diferentes que los desarrolladores pueden ajustar, incluidas la sensualidad, la asertividad, la flotabilidad, la confianza, el entusiasmo, la relajación, la suavidad, la frescura y la rigidez.
En lugar de agregar personalización basada en reclamos, la compañía agregó un control deslizante que va de -100 a +100 para cada una de las métricas. La empresa afirmó que se adoptó este enfoque para eliminar la ambigüedad asociada con la descripción textual de la voz y proporcionar un control preciso sobre los idiomas.
En nuestras pruebas, descubrimos que cambiar cualquiera de las 10 dimensiones produce una diferencia audible en la voz de la IA, y la herramienta pudo separar correctamente las diferentes dimensiones. La compañía de IA afirmó que esto se logró desarrollando un nuevo “enfoque no supervisado” que preserva la mayoría de las características de cada sonido subyacente cuando se varían parámetros específicos. Vale la pena señalar que Hume no detalló la fuente de los datos obtenidos.
En particular, después de crear la voz de IA, los desarrolladores deberán implementarla en la aplicación configurando el modelo de IA para Empathic Voice Interface (EVI). Si bien la compañía no lo especificó, es probable que se haya utilizado el modelo EVI-2 para esta función experimental.
En el futuro, Hume planea ampliar la gama de sonidos básicos, introducir dimensiones interpretables adicionales, mejorar la preservación de las propiedades del sonido bajo modificaciones extremas y desarrollar herramientas avanzadas para analizar y visualizar propiedades del sonido.