Las aplicaciones de los sistemas de reconocimiento y verificación de locutores aumentan día a día. La tecnología facilita el control y el acceso a vehículos autónomos, ordenadores, teléfonos móviles y otros dispositivos. También se han creado varios modelos de aprendizaje automático para proteger los sistemas de verificación y reconocimiento de hablantes. Esto se logra analizando la respuesta emocional y los niveles de estrés de la voz para detectar amenazas a las personas y activar mecanismos de seguridad.
Tabla de contenido
prólogo
Los hablantes y los sistemas de verificación reconocen a los hablantes en función de sus características de voz y habla. Los seres humanos están acostumbrados a identificar y responder a los hablantes todos los días, reconocimiento de voz La tecnología Thru es compleja y computacionalmente intensiva. El uso de sistemas automáticos de reconocimiento de locutores se ha vuelto popular durante la última década debido a los avances en el procesamiento de señales digitales y los sistemas informáticos.
Componentes de un sistema de reconocimiento de locutor
Un sistema de reconocimiento de locutor consta de tres partes:
reconocimiento de altavoz: Identifique la identificación del hablante del conjunto de hablantes participantes. El objetivo es encontrar el altavoz adecuado entre varios modelos en stock. (confirmado por muchas personas)
verificación de altavoz: Verifica si una voz desconocida pertenece a un hablante en particular. Cuando una persona se identifica como John Doe/Jane Doe, el sistema de verificación del hablante compara los datos de audio con el modelo grabado para determinar si la identidad del hablante coincide con las afirmaciones de la persona. (que coincide con la identidad reclamada)
diarización del hablante: Un flujo de audio que contiene la voz de un orador se divide en segmentos/períodos de tiempo homogéneos de acuerdo con las características inherentes del discurso (en función de las características extraídas del contenido de audio), y el orador se clasifica por identidad.
Aplicaciones de los sistemas de autenticación de locutores
control de acceso: Para acceder a instalaciones restringidas o información privilegiada, debe decir ciertas frases para identificarse.
autenticación de transacciones: Para iniciar operaciones bancarias telefónicas, autorización de tarjetas de crédito o transacciones similares, debe decir una frase específica para verificar su identidad.
Conceptos básicos de los sistemas de verificación de locutores
Figura 1: Conceptos básicos de verificación de altavoces
La sección frontal captura la voz del hablante y transforma la señal de voz en un conjunto de vectores de características que representan las características del hablante. La sección de back-end compara los vectores de características con el modelo almacenado del hablante (es decir, el modelo de fondo universal que se describe a continuación) para determinar qué tan bien coinciden para confirmar la identidad del hablante. Si la voz del hablante coincide con el modelo de voz en la base de datos, el hablante obtiene acceso.
Las variaciones en los mecanismos utilizados para grabar y crear “modelos de altavoces” aumentan la complejidad. La identificación/verificación del hablante se complica aún más por la variación del habla/fidelidad del habla. Por ejemplo, si el modelo de altavoz se creó con una grabadora de voz de alta definición y alta fidelidad de un banco, la fidelidad de la voz puede variar, pero la transacción basada en la voz se realizó mediante un teléfono móvil con un ruido de fondo.
Diagrama de flujo de identificación/verificación del orador
Primero, se crea una gran base de datos modelo que contiene muchos hablantes y horas de datos de habla de esos hablantes. Las grabaciones contienen una variedad de entradas de audio de alta y baja fidelidad de una variedad de fuentes. Se analiza la extracción de características de esta gran cantidad de datos de voz y se entrena un modelo para crear un modelo genérico masculino/femenino. Esta base de datos modelo se conoce como “Modelo de fondo universal” (UBM).
A continuación, se crea una base de datos modelo de hablantes que desean identificarse/verificarse. Esta base de datos modelo se conoce como “modelo de altavoz”. Este modelo se deriva/crea del “Modelo de fondo universal” que clasifica las voces masculinas y femeninas comunes. El modelo del altavoz de destino es ligeramente diferente de UBM. Estas diferencias se registran y almacenan en una base de datos de “modelo de altavoz”.
Ahora, cuando una persona dice “Soy John Doe”, este segmento de voz se graba, se divide en fotogramas de 10 ms y se pasa a través de un modelo de extracción de funciones que produce varias funciones/características de la voz.

Figura 2: Diagrama de flujo de verificación de altavoces
Cuando John Doe quiere averiguar su nombre, alimenta su modelo de altavoz (características extraídas) con características extraídas del discurso de entrada “Soy John Doe”. Masa”.
A continuación, para el mismo discurso de entrada “Soy John Doe”, alimentamos las características extraídas en un modelo de fondo universal para determinar el nivel de coincidencia de características y derivar la probabilidad de que sea una voz masculina típica.
La razón de verosimilitud de decisión se obtiene a partir de las dos razones de verosimilitud anteriores. La decisión de aceptar/rechazar se basa en ciertos umbrales calculados en función de la probabilidad de que la persona que llama sea “John Doe” y la probabilidad de que la persona que llama sea un hombre típico (basado en el modelo de fondo universal).
Proporcionado por eInfochips Desarrollo de software y sistemas embebidos, portabilidad, optimización, soporte y soluciones de mantenimiento para middleware basado en voz y audio. Esto incluye codificadores, decodificadores, algoritmos de preprocesamiento y posprocesamiento en el dominio DSP. También mantenemos y desarrollamos herramientas y servicios relacionados con el habla y el audio. Los eInfochips también admiten la implementación de algoritmos personalizados y la paralelización en plataformas multinúcleo.
Rishikesh Agashe
Rhishikesh Agashe es parte del equipo técnico de eInfochips y tiene casi 19 años de experiencia en la industria de TI. Con 4 años como empresario y 15 años en el espacio integrado, la mayor parte de su experiencia ha sido en el procesamiento de medios integrados y en la implementación de algoritmos de audio y voz.