A medida que la tecnología de activación por voz comienza a penetrar incluso en los dispositivos más pequeños, como los audífonos que se ajustan perfectamente al oído, el consumo de energía y la rentabilidad de las soluciones se vuelven críticos.
A medida que la tecnología de activación por voz comienza a penetrar incluso en los dispositivos más pequeños, como los audífonos que se ajustan perfectamente al oído, el consumo de energía y la rentabilidad de las soluciones se vuelven críticos.
Las interfaces de usuario que priorizan la voz ahora son la corriente principal en los teléfonos inteligentes y los parlantes inteligentes, ya que Alexa, DuerOS de Baidu, Bixby, Cortana, Google Assistant y Siri se han convertido en ayudantes indispensables para millones de usuarios. Ahora que la gente está acostumbrada al servicio, asistente de conversaciónlos automóviles, los electrodomésticos y los dispositivos portátiles están experimentando un aumento en la demanda de la misma capacidad de respuesta.
Todos estos dispositivos deben funcionar en entornos y situaciones acústicas difíciles, y deben comprender los comandos de voz del usuario independientemente del ruido de fondo, la música alta u otras voces. La tarea de un frontend activado por voz es garantizar que la voz del usuario llegue al backend de forma clara e inteligible para que pueda ser procesada y entendida. Veamos cómo funciona esto.
Obtener una señal de audio limpia en el backend
¿Qué sucede dentro de su dispositivo de escucha cuando le habla? Una gran cantidad de sonido debe ingresar al dispositivo junto con su voz y llegar a su destino de manera clara y clara. El motor de procesamiento de fondo está en el destino. Este motor interpreta el significado y responde en consecuencia. El destino podría ser un dispositivo activado por voz que usa un DSP de borde, un asistente virtual que usa procesamiento basado en la nube u otra persona en una llamada. Todos requieren una señal de audio limpia para entender y responder. Una buena solución de front-end para tales dispositivos utiliza varias tecnologías para limpiar el sonido de entrada y entregar un discurso claro e inteligible al back-end.
Dos casos de uso para dispositivos activados por voz son la captación de voz de campo cercano y de campo lejano. Los dispositivos de campo cercano, como auriculares, audífonos, dispositivos auditivos y dispositivos portátiles, se sostienen (o se usan) cerca de la boca del usuario. Por lo general, se utilizan 1-2 micrófonos. Los dispositivos de campo lejano pueden captar la voz del usuario desde el otro lado de la habitación y, por lo general, usan de 3 a 8 micrófonos. Los ejemplos de dispositivos de campo lejano incluyen parlantes inteligentes, electrodomésticos inteligentes, IoT habilitado para voz y teléfonos móviles. Se utiliza una matriz de múltiples micrófonos para la formación de haces. Beamforming utiliza la diferencia de tiempo de llegada de las señales de audio a diferentes micrófonos para estimar la dirección de la fuente. Esto permite que el dispositivo solo escuche los sonidos que provienen de la dirección del usuario e ignore otros sonidos. La formación de haces también se puede usar para rastrear a los oradores y aislar la voz correcta en situaciones de varias voces. Por ejemplo, durante una llamada en una sala de conferencias.
Hay dos tipos de sonidos que deben filtrarse para obtener una muestra de audio audible: los sonidos producidos por el propio dispositivo de escucha y los sonidos externos. Cuando un dispositivo produce sonido (por ejemplo, cuando un altavoz inteligente está reproduciendo música o hablando con alguien que está al otro lado de la línea), utiliza la cancelación de eco acústico (AEC) para detectarse a sí mismo. Esta es una función que le permite “irrumpir” o interrumpir mientras su altavoz inteligente está reproduciendo música o incluso en medio de una respuesta de voz a un comando anterior. Una vez que se eliminan estos ecos, se utiliza un algoritmo de supresión de ruido para limpiar el ruido externo. A continuación, se debe codificar una muestra de audio limpia antes de que finalmente se procese en el backend para su comprensión.
Alta demanda de bajo consumo de energía
La formación de haces, la cancelación de eco acústico y la supresión de ruido implican algoritmos complejos y un extenso procesamiento de señales. Sin embargo, a medida que la tecnología de activación por voz comienza a penetrar incluso en los dispositivos más pequeños, como los audífonos que se ajustan perfectamente al oído, el consumo de energía y la rentabilidad de las soluciones se vuelven críticos. La duración de la batería es uno de los factores más importantes en auriculares, altavoces inteligentes portátiles, teléfonos móviles y dispositivos portátiles. El bajo consumo de energía también es muy importante para los sistemas de información y entretenimiento automotriz y de seguridad para el hogar.
Si tiene mucho trabajo por hacer, ¿por qué no enviarlo a la nube para su procesamiento? El procesamiento front-end debe realizarse en el dispositivo. De lo contrario, la latencia se convierte en un problema. Por lo tanto, el procesamiento inicial debe ser altamente eficiente sin comprometer la calidad. Para lograr esto, tanto el software como el hardware deben optimizarse para un alto rendimiento y un bajo consumo de energía.
El procesamiento de back-end, por otro lado, puede transmitirse a la nube en algunos escenarios. Dicho esto, el procesamiento perimetral se favorece cada vez más para casos de uso como privacidad mejorada, seguridad mejorada y latencia y consumo de energía reducidos.
Solución integral de software front-end
En CEVA, hemos aprovechado nuestros años de experiencia y experiencia en audio para enfrentar estos desafíos. caja transparentetiene licencia exclusiva para CEVA-farola-4 y CEVA-X2 Audio/Voice DSP es un paquete de software avanzado que aborda el problema de mejorar la inteligibilidad del habla en dispositivos habilitados para voz.

Arquitectura del sistema ClearVox (Fuente: CEVA)ClearVox proporciona procesamiento frontal de captación de voz para todo el mercado de activación e interacción de voz, desde parlantes inteligentes hasta auriculares avanzados y dispositivos IoT. ClearVox viene en dos sabores que cubren aplicaciones tanto de campo cercano como de campo lejano, incluidos los dispositivos de bajo consumo más desafiantes, como los auriculares, así como dispositivos de alto rendimiento ubicados a una distancia de hasta 10 metros del usuario. .
Este paquete incluye varios algoritmos, como formación de haz, dirección de llegada, supresión de ruido y cancelación de eco acústico. Por lo general, proporciona una mejora de la relación señal-ruido de 12 dB, una tasa de reconocimiento de voz mejorada en entornos ruidosos, interrupción y reproducción rápida durante la música, y es aplicable a sistemas de reconocimiento de voz integrados y basados en la nube.