La voz es nuestro principal medio de comunicación y el teléfono nos ha permitido comunicarnos utilizando la voz durante más de un siglo. La llamada telefónica tal como la conocemos ha evolucionado de analógica a digital, de fija a móvil y de una calidad de voz baja a natural. Sin embargo, aún faltaba un avance importante: cómo permitir una transmisión de audio auténtica e inmersiva directamente.
La introducción del códec IVAS (Servicios Inclusivos de Voz y Audio), que fue estandarizado por 3GPP en la versión 18 en junio de este año, representa un avance importante en la tecnología de voz. A diferencia de las llamadas de voz monofónicas tradicionales, IVAS permite la transmisión de audio inmersivo en 3D, brindando una experiencia de llamada más rica y realista. Esta innovación es posible con nuevos formatos de audio optimizados para la experiencia de audio espacial conversacional. Un ejemplo es el formato de audio espacial asistido por metadatos, MASA, que utiliza sólo dos canales de audio y metadatos para descripciones de audio espacial. Las llamadas de audio espacial permiten a los usuarios experimentar el audio como si estuviera sucediendo en la vida real, con funciones como el seguimiento de la cabeza.
A continuación exploraremos los desafíos de llevar audio 3D en vivo a los teléfonos móviles, los requisitos abordados en las comunicaciones espaciales y el nuevo códec IVAS, y el impacto revolucionario del audio 3D en vivo en las personas, los operadores móviles y Teléfonos inteligentes comerciales.
Jefe de Gestión de Productos, Nokia Technologies.
Llevando las llamadas 3D a los teléfonos móviles
La última gran innovación en llamadas de voz fue el códec EVS, introducido en 2014 y reconocido por los consumidores como HD Voice+. Aunque mejoró enormemente la calidad de las llamadas, como todos los códecs anteriores, solo ofrecía una experiencia auditiva monoaural.
Con la introducción de la comunicación por voz 3D, el mayor salto en la tecnología de comunicación por voz en décadas, surge el desafío de crear una experiencia auténtica e inmersiva en las comunicaciones cotidianas. Si bien la tecnología de audio ha evolucionado dramáticamente (de analógico a digital, de fijo a portátil y de baja calidad a calidad de voz natural), recrear audio espacial, donde se percibe que los sonidos provienen naturalmente de todas partes, es mucho más complejo de recrear. en entornos móviles.
Este nivel de experiencia de audio inmersivo nunca ha sido tan fácil de lograr en entornos controlados como cines y… Juegos de vídeodonde el diseño de sonido es un elemento clave, pero reproducirlo en las llamadas móviles cotidianas presenta una serie de obstáculos técnicos que incluyen el procesamiento de audio espacial en tiempo real, limitaciones de hardware y garantizar la compatibilidad entre dispositivos.
Por lo tanto, el IVAS Voice Codec es el paso adelante más significativo en tecnología de voz para llamadas de voz en décadas.
Cómo afrontar y superar los desafíos de la comunicación espacial
Hubo muchos desafíos que superar para que Immersive Voice se convirtiera en una poderosa solución de audio espacial. Una cuestión importante es la reducción del ruido, que es crucial para mejorar la inteligibilidad del habla en entornos como conciertos o la naturaleza. Los métodos tradicionales de reducción de ruido a menudo solo filtran sonidos continuos, como el zumbido de un aire acondicionado o el ruido del tráfico, pero a menudo dejan otros ruidos de fondo. La interferencia del viento también plantea un desafío al introducir ruidos no deseados y provocar fluctuaciones en los niveles de sonido.
Sin embargo, los avances recientes en el aprendizaje automático y la reducción inteligente del ruido han abordado estos problemas. Por ejemplo, la tecnología Immersive Audio está diseñada para ajustar de forma inteligente la cantidad de reducción de ruido de fondo según el entorno circundante, además de brindar control a los usuarios, lo que les permite ajustar manualmente los niveles de reducción de ruido. Esto garantiza que se transmitan los sonidos esenciales y al mismo tiempo reduce el ruido de fondo no deseado.
Configuraciones de audio inmersivas con múltiples micrófonos Los oradores también enfrentan un obstáculo importante: el eco. Esto sucede cuando los micrófonos captan sonido cercano. Altavocesprovocando reacciones no deseadas. El problema es aún más difícil en entornos de audio espacial, ya que la posición y la cantidad de altavoces afectan la calidad del sonido y la capacidad del dispositivo para capturar audio espacial. Los métodos tradicionales de cancelación de eco acústico (AEC) a menudo no funcionan bien en estos entornos complejos. Para resolver este problema, se creó una solución de cancelación de eco acústico espacial basada en aprendizaje automático, que elimina el sonido del altavoz de la entrada del micrófono mediante una señal de referencia. Esto mejora la calidad del audio, especialmente para el audio espacial en aplicaciones de audio en tiempo real.
Presentamos el software de codificación IVAS
Para llevar audio espacial a las llamadas de teléfonos móviles, así como a los servicios over-the-top (OTT), el Proyecto de Asociación de Tercera Generación (3GPP) adoptó recientemente un nuevo estándar de codificación de audio. Desarrollado por cooperación De las 13 empresas, el estándar de códec IVAS está incluido en la versión 18 de 3GPP, basado en el códec ampliamente utilizado de Servicios de Voz Mejorados (EVS). Lo más importante es que el códec IVAS mantiene total compatibilidad con versiones anteriores, lo que garantiza una interoperabilidad perfecta con los servicios de voz existentes.
Una de las principales innovaciones durante la estandarización de IVAS fue la creación de un nuevo formato de audio paramétrico, Audio espacial asistido por metadatos (MASA), diseñado específicamente para dispositivos con factores de forma limitados, p. Teléfonos inteligentes. El códec IVAS integra un monitor incorporado que admite sonido binaural con seguimiento de cabeza y reproducción de múltiples altavoces utilizando el formato MASA.
Además, el SDK de Immersive Audio Client puede actuar como interfaz para IVAS, capturando audio espacial de los micrófonos del dispositivo y convirtiéndolo al formato MASA estándar. Esta tecnología permite experiencias de audio 3D verdaderamente inmersivas para diferentes tipos de llamadas de voz.
El poder del audio 3D en vivo: lo que significa para las personas, los operadores y las empresas
El nuevo audio 3D inmersivo revoluciona la experiencia de audio para consumidores, empresas e industrias. Para los consumidores, profundiza la participación en las interacciones con amigos y familiares al compartir sonidos locales, ya sea transmitidos o grabados, y brinda una inmersión total en experiencias sincronizadas del metaverso. Para las empresas, la comunicación por voz 3D abre nuevas posibilidades, empezando por funciones mejoradas. Experiencia del cliente A través de voz direccional para transformar la colaboración en equipo y la toma de decisiones. En entornos industriales, el análisis de voz puede impulsar procesos automatizados como el mantenimiento predictivo, optimizar las operaciones y mejorar la eficiencia.
Para permitir estas experiencias en diversas condiciones de red, los proveedores de servicios necesitan soluciones escalables que optimicen el rendimiento independientemente de las limitaciones de ancho de banda. El códec estándar 3GPP IVAS admite velocidades de bits que van desde 13,2 a 512 kbit/s, lo que garantiza una calidad de sonido envolvente ya sea que se utilice en redes concurridas o en entornos de transmisión de alta calidad. Esta escalabilidad permite a los proveedores brindar soporte a más usuarios y al mismo tiempo ofrecer experiencias de audio ricas.
De cara al futuro, se espera que el comportamiento de los usuarios basados en la voz siga evolucionando. Más allá de las llamadas tradicionales, las comunicaciones de audio espacial se expandirán para incluir mensajes casi sincrónicos a través de aplicaciones populares, personas que se envían clips de audio entre sí y un uso más amplio de llamadas grupales. Con la aparición de dispositivos y servicios de realidad extendida en diversas industrias, el alcance de la comunicación por voz se ampliará, con la inmersión como una característica distintiva. Un factor clave en este desarrollo será la estandarización e integración del códec IVAS en los últimos estándares avanzados 5G, lo cual es esencial para garantizar la interoperabilidad necesaria para llevar la conectividad 3D a cada teléfono con solo presionar un botón.
Hemos evaluado los mejores sistemas telefónicos empresariales..
Este artículo se produjo como parte del canal Expert Insights de TechRadarPro, donde mostramos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro