Red de conocimientos turísticos - Conocimientos sobre calendario chino - Ciencia de la Inteligencia Artificial |¿Cuál es el principio de la tecnología de voz para despertar?

Ciencia de la Inteligencia Artificial |¿Cuál es el principio de la tecnología de voz para despertar?

Nombre: Zhang Lu

ID de estudiante: 19021210845

¿Increíble guía de compras integrada? Muchos estudiantes tienen productos de altavoces inteligentes con inteligencia artificial en casa, como Tmall Genie, Xiaoai, Xiaodu, etc. Estos parlantes inteligentes no sólo facilitan nuestra vida diaria, sino que también brindan mucha alegría a los usuarios con sus respuestas ingeniosas o divertidas.

Altavoz inteligente Niuzi AI integrado, despertador por voz

Niuzi integrado preguntó cuál es el principio de la tecnología de activación por voz.

Cuerpo de vaca incrustado

"Tmall Elf". "Oye, estamos aquí, por favor habla".

"Xiao Ai, pon el despertador a las 8 en punto mañana por la mañana". "Está bien, te he puesto el despertador a las 8 en punto". 'reloj mañana por la mañana"

p>

Muchos estudiantes tienen productos de altavoces inteligentes con IA en casa, como Tmall Genie, Xiaoai, Xiaodu, etc. Estos parlantes inteligentes no sólo facilitan nuestra vida diaria, sino que también brindan mucha alegría a los usuarios por sus respuestas ingeniosas o divertidas.

Entre estos productos inteligentes, existe una importante función de inteligencia artificial llamada despertador por voz.

Primero, el dispositivo se enciende y carga automáticamente buenos recursos, luego entra en modo de suspensión. Luego, cuando el usuario pronuncia una palabra de activación específica, el dispositivo se activa y cambia al modo de trabajo, esperando el siguiente comando del usuario.

Este proceso no requiere que los usuarios toquen el dispositivo con las manos. Pueden operar directamente con la voz. Además, al utilizar el mecanismo de activación por voz, el dispositivo no tiene que estar en estado de funcionamiento en realidad. tiempo, ahorrando así energía.

El despertador por voz se utiliza ampliamente en robots, teléfonos móviles, dispositivos portátiles, hogares inteligentes, coches, etc. Casi todos los dispositivos habilitados para voz requieren tecnología de activación por voz como inicio o punto de entrada para la interacción persona-computadora. Diferentes productos tendrán diferentes palabras de activación, y cuando los usuarios necesiten activar el dispositivo, deberán pronunciar una palabra de activación específica.

Definición

Wake-on-Speech se conoce académicamente como activación de palabras clave (KWS), que el Sr. Wu define como la detección en tiempo real de segmentos específicos de un hablante en un flujo de voz continuo.

Cabe destacar que el “tiempo real” de la detección es un punto clave. El propósito de KWS es activar el dispositivo desde el estado de suspensión al estado de ejecución, por lo que la experiencia del usuario será mejor si puede detectar la palabra de activación inmediatamente después de pronunciarla.

Entonces, ¿cómo evaluar el efecto del despertar de la voz? Hay cuatro indicadores comunes, a saber, tasa de activación, activación falsa, tiempo de respuesta y nivel de consumo de energía:

¿Tasa de activación, es decir, la tasa de éxito de la interacción del usuario, el término técnico? es la tasa de recuperación.

?Falso despertar, la probabilidad de que el dispositivo se despierte sin interacción del usuario, generalmente calculada diariamente, por ejemplo, como máximo una vez al día.

?Tiempo de respuesta, la diferencia de tiempo entre que el usuario termina la palabra de activación y el dispositivo da retroalimentación.

?Nivel de consumo de energía, es decir, el consumo de energía al activar el sistema. Muchos dispositivos inteligentes funcionan con baterías y necesitan una batería de larga duración, por lo que prestan más atención a los niveles de consumo de energía.

La ruta técnica del despertar por voz

Después de un desarrollo a largo plazo, la ruta técnica del despertar por voz se puede resumir aproximadamente en tres generaciones, con las siguientes características:

Primera generación: KWS basado en coincidencia de plantillas

Los pasos de entrenamiento y prueba del despertador por voz son relativamente simples. Durante el entrenamiento, se establece una plantilla basada en la extracción de funciones de voz registrada o. voz de plantilla. Durante la prueba, se genera una secuencia de características mediante la extracción de características y se calcula la distancia entre la secuencia de características probada y la secuencia de plantilla para determinar si se debe despertar.

Segunda generación:

Tercera generación: soluciones basadas en redes neuronales

Las soluciones de redes neuronales se pueden subdividir en varias categorías La primera categoría se basa en HMM KWS. , es diferente del esquema de despertador de segunda generación. El primer tipo es KWS basado en HMM, que es el mismo que el esquema de activación de segunda generación excepto que el modelado acústico se convierte de GMM a un modelo de red neuronal.