(Transferir)Diseñar una interfaz de usuario de voz.

Este artículo es un artículo sobre los medios y se lo transmitimos a mí y a todos para que aprendamos. Enlace original

/@ xuuwj/% E8 % AE % BE % E8 % AE % a 1% E4 % B8 % 80% E4 % B8 % AA % E8 % AF % AD % E9 % 9F % B3 % E4 % BA % A4 % E4 % BA % 92 % E7 % 95 % 8C % E9 % 9D % A2-Voice-User Interface-1-6364d4529a28

Desde junio del año pasado 5438+065438+Octubre It Han pasado más de tres meses desde que entré en contacto por primera vez con el diseño VUI. Durante este período, me basé en materiales en línea (principalmente Google Design Pautas\dueros.com\designer notes\papers) y mi propio conocimiento de UX. Intenté diseñar tres proyectos: una habilidad para comprar libros, un juego interactivo de voz con altavoz inteligente y un robot de consulta WeChat sobre el negocio de banda ancha de 100 millones de China Telecom. Los dos primeros proyectos ya tienen prototipos y el último se implementó en el backend de la cuenta oficial de WeChat. Sin embargo, el foco de estos tres proyectos es el diseño conversacional, que no es una VUI completa.

¿Acabas de terminar de leer este mes? Diseño de interfaz de usuario de voz y Diseño de interfaces de usuario de voz por Cathy Pearl (por Michael H. Cohen, James P. Giangola, Jennifer Balogh), completo. Analiza los principios básicos, los módulos técnicos importantes y las pruebas de usuario del diseño de VUI, lo que ayuda a dibujar una Panorama de diseño de VUI relativamente completo.

En el próximo artículo, intentaré utilizar un camino feliz para conectar el proceso de diseño de una interfaz de interacción de voz de 0 a 1. Espero definir el problema de diseño en cada pequeño marco y luego convertirse en memoria muscular.

Por cierto, como hablar es tan instintivo, creo que la dificultad en el diseño de VUI es cómo salir del pensamiento del usuario y volver al rol del diseñador :)

Las ventajas de las interfaces de voz se reflejan principalmente en tres aspectos: primero, la velocidad, que incluye una entrada más conveniente, una entrada más superficial y una menor carga de aprendizaje; en segundo lugar, cuando * * *, como permitir que se realicen múltiples tareas al mismo tiempo; , explorabilidad, que puede estimular la curiosidad de los usuarios y mejorar la experiencia del usuario. Pero al mismo tiempo, no olvide que la comunicación por voz está muy limitada por los escenarios, la tecnología y los hábitos de los usuarios.

Puedes consultar las preguntas del cuestionario Google-fit para verificar si VUI es la mejor opción para ti.

Antes de responder necesitamos saber: 1. ¿Cuáles son las formas en que los usuarios interactúan entre sí? 2.Cómo 2. El sistema VUI funciona.

Nielsen Norman Group resume la interacción de voz en los siguientes tres modos: prioridad de pantalla, solo voz y voz primero:

? Primera interacción de pantalla:? Aquí, comenzamos con una aplicación diseñada principalmente para la pantalla, con control de voz agregado después del producto para mejorar la experiencia. (Para diseñar una aplicación que se centre en la visualización de la pantalla, se agregarán algunos elementos de voz para mejorar la experiencia del usuario).

? Interacción de voz pura:? No hay ninguna pantalla y la entrada y salida se basan en sonido, como los altavoces inteligentes. (Los dispositivos Vui no tienen pantallas y requieren sonido de entrada y salida, como altavoces inteligentes).

? Interacción de voz primero:? Esta es una aplicación diseñada para mejorar el habla agregando una pantalla que genera información.

En el caso de la prioridad de pantalla, el representante más habitual es el asistente de voz del teléfono móvil. Los usuarios pueden operar no sólo mediante la voz, sino también escribiendo y haciendo gestos. El contenido de la respuesta del sistema también incluye voz, texto, imágenes, listas, enlaces, etc.

Uno de los representantes de la interacción de voz pura son los parlantes inteligentes. Los usuarios abren la interacción VUI a través de la palabra "despertar", como "Alexa"; otro representante es el servicio al cliente por teléfono, es decir, la respuesta de voz interactiva; , IVR), que puede comprender las solicitudes de las personas a través de líneas telefónicas y guiar a los usuarios para completar las tareas correspondientes, como reservar boletos aéreos, verificar facturas telefónicas, etc.

El sistema de diálogo puede considerarse como un traductor humano-máquina: recibe el lenguaje natural humano, lo traduce a un lenguaje estructurado que la computadora puede entender, comparando y procesando así la información, y finalmente proporciona retroalimentación. la forma de lenguaje natural. Al hablante, completar una "comunicación". La esencia de la "comunicación" es generar retroalimentación con la mayor probabilidad de coincidencia mediante la predicción paso a paso de la solución óptima, lo que requiere el apoyo de potencia informática, algoritmos y datos.

Como se muestra en la siguiente figura:

Cuando el usuario habla con el sistema, el sistema primero recibirá y analizará el habla a través del reconocimiento de voz (ASR). 1. El reconocedor puede proporcionar múltiple posible El resultado, es decir, la lista N-mejor, coincide con el texto de cadena de palabras más similar para el discurso recibido y luego lo devuelve al siguiente módulo NLU②.

Comprender el lenguaje natural significa que el sistema identifica la intención del usuario o los dominios y entidades involucrados en el discurso del usuario a través del análisis del léxico, la sintaxis y la semántica, y genera una representación semántica estructurada*, incluido el tipo de idioma. (requisitos de declaración, atributos de consulta, negación, preguntas de selección, etc.) e información condicional (cuáles son las condiciones y valores). Por ejemplo, la oración "Ayúdame a consultar el clima en Shenzhen" se expresa semánticamente como "informar (ocasión =). clima, ubicación = Shenzhen) ", donde "informar" representa "declaración de requisitos" y el contenido entre paréntesis se denomina par de valores de espacio. Puede obtener más información sobre cómo las computadoras entienden el lenguaje natural aquí.

Una vez generada la representación semántica, se pasa al administrador de diálogo (DM), que decide qué responder al usuario y cómo responder.

El gestor de diálogo es un módulo clave en el sistema de diálogo, que está conectado a una o más bases de conocimiento. Generalmente incluye: a. Seguimiento del estado del diálogo, como el seguimiento de si la información requerida para ejecutar la intención del usuario está completa, que determina la acción óptima a tomar a continuación en función del estado actual, por ejemplo, si se debe realizar directamente. Llame a la base de conocimientos para proporcionar resultados, pregunte sobre restricciones específicas, aclare o confirme requisitos o abra un software relacionado.

Los diferentes sistemas de diálogo, como los sistemas basados ​​en objetivos (basados ​​en tareas, sistemas de preguntas y respuestas) y los sistemas de dominio abierto (basados ​​en chat), tienen diferentes tareas y contenidos de base de conocimientos.

El escenario del diálogo basado en tareas es relativamente complejo y normalmente implica múltiples conversaciones con el usuario. La solicitud debe parametrizarse y la conversación continúa siendo rastreada en forma de llenado de espacios hasta que se identifican la intención del usuario, las palabras características y los pares de valores de espacio, es decir, el tipo de acción y los parámetros de operación que debe realizar el sistema.

El tipo de preguntas y respuestas no necesita considerar una lógica de diálogo compleja y, por lo general, se puede resolver en una ronda de diálogo. La atención se centra en el análisis semántico y la coincidencia de entidades.

Los tipos de chat incluyen el modo de recuperación y el modo de generación. El modo de recuperación utiliza una gran cantidad de datos de conversación en la red para crear un índice y busca posibles respuestas de candidatos en el índice, mientras que el modo de generación aprende el modelo de conversación directamente de la gran cantidad de conversaciones de cada persona y luego usa el modelo de conversación para "crear" la respuesta.

El administrador de diálogo generará una respuesta de intención basada en el estado actual del diálogo y luego ingresará el enlace de generación de lenguaje natural (NLG) ⑤ - texto a voz (TTS) ⑤ para convertir la respuesta estructurada esperada. a un lenguaje natural y finalmente presentado al usuario.

Comúnmente conocido como "persona del sistema", equivale a la parte frontal del producto, es decir, ① características de voz, tono, entonación, timbre, ritmo, etc. adoptado por el sistema. Puede optar por utilizar voces sintetizadas o grabaciones;

(2) Habilidades del habla, palabras y frases al escribir saludos, respuestas especiales, recordatorios, etc. , exhiben rasgos de personalidad que son consistentes con la marca, como amabilidad o moderación, iniciativa o cumplimiento.

Un buen personaje del sistema puede convertirse naturalmente en una referencia cuando escribes un diálogo: "¿Qué diría o haría este personaje en esta situación?".

Es difícil el método de interacción y el contenido del diálogo. El concepto de VUI se analizará por separado, pero este intento ayudará a salir de la perspectiva del usuario y entrar en la "caja negra".

Tiendo a considerar el "modo de interacción" como el "diseño de alto nivel" en el diseño de la interfaz de usuario de voz, y el "contenido del diálogo" como el "diseño detallado".

El "diseño de alto nivel" se centra en cómo promover un diálogo fluido y permitir a los usuarios comprender el estado del sistema y el progreso de las tareas de operación, como por ejemplo, el sistema está escuchando, esperando recibir instrucciones, fuera de línea, etc Puede entenderse como ventanas emergentes, efectos dinámicos, retroalimentación visual, etc. en la GUI.

Al mismo tiempo, se diseñan mejores reglas para que el sistema pueda tomar mejores decisiones, como cuando es necesario confirmar una solicitud al usuario, lo que puede entenderse como un diamante invisible. caja de juicio en forma en el diseño de la GUI.

Estos problemas involucran principalmente los siguientes aspectos:

①Diseño del modo de conversación

A. debe despertarse primero, usando una palabra de activación, un gesto o presionando una tecla. Después de una conversación, el usuario debe reactivar el sistema nuevamente para iniciar la siguiente conversación.

B. Conversacional, es decir, en un proceso de diálogo cerrado, por ejemplo, al completar una tarea específica, el usuario no tiene que despertar el sistema en cada ronda, sino que se turna de forma natural y el sistema. se turna cuando es el turno del usuario para hablar. Enciende automáticamente el micrófono.

C. Tipo híbrido, es decir, una combinación de comandos y diálogos. El sistema proporciona a los usuarios señales obvias de cambio de estado, como el uso de earcon para indicar el comienzo y el final de un estado.

② Diseño de estrategia de diálogo.

Incluyendo:

A. Diseño del marco de diálogo, es decir, estrategia de organización del diálogo.

El libro "Diseño de interfaz de usuario de voz" divide el marco de diálogo en: a . Diálogo de orientación, es decir, diálogo dirigido por el sistema que plantea a los usuarios preguntas muy específicas y espera obtener respuestas igualmente específicas, es decir, el sistema proporciona al usuario una serie de opciones. Una vez que el usuario completa la selección del menú A, el sistema continuará proporcionando el menú B hasta que se complete la solicitud del usuario. Híbrido-activo, es decir, una mezcla de diálogo dirigido y jerarquía de menú. El sistema hace preguntas al usuario y le permite guiar la conversación proporcionando información adicional.

B. Estrategia de reparación del diálogo

La tecnología aún no está completa, es posible que el reconocedor no esté listo para aceptar las palabras de la persona que llama, o que no reciba la voz del hablante o el tiempo de respuesta. Puede que sea demasiado largo. Los usuarios suelen cambiar de tema repentinamente o proporcionar demasiada información. Por lo tanto, además de facilitar el diálogo, el sistema también debe estar dotado de estrategias para afrontar estas situaciones para reducir la probabilidad de abandonar todos los esfuerzos anteriores.

A. Corrección de errores

Hay cuatro errores posibles:

No se detecta sonido.

Sonido detectado pero no reconocido.

El reconocimiento de voz es correcto pero no se puede procesar.

Algunos errores en el reconocimiento de voz

Retrasos

En general, hay dos formas de manejar estas situaciones. Para ser claros, es mejor agregar más detalles para que el usuario sepa lo que está pasando, como "Lo siento, no entendí, por favor dime el nombre de tu ciudad y región", o no hacer nada en absoluto. La elección depende del método de interacción y del escenario de usuario del sistema VUI.

B. Comandos generales

Como "pedir ayuda", "detener", "por favor repetir", "salir", etc. El diseño debe considerar no sólo lo que los usuarios pueden necesitar, sino también cómo los usuarios podrían expresar esas necesidades.

③Diseño de umbral condicional.

Cada aplicación definirá el error máximo que el sistema puede tolerar, y los sistemas de diálogo no son una excepción. En particular, la descripción anterior del proceso de interacción nos muestra claramente que el funcionamiento de VUI está lleno de incertidumbres por parte de los usuarios, los módulos técnicos y los recursos de datos.

El libro "Diseño de interfaces de usuario de voz" sugiere que deberíamos considerar establecer tres umbrales: el número máximo de errores consecutivos en un único estado de conversación (recuento de errores específico del estado), el número máximo de errores calculados globalmente Cantidad, el número máximo de confirmaciones de errores.

Con esto en mente, es fácil entender lo que debe hacer el diseño detallado, que es profundizar en una sola conversación y diseñar en detalle el flujo de la conversación, las indicaciones auxiliares y las soluciones de manejo de excepciones. Incluyendo:

①Diseño de diálogo

Diseñar un proceso de diálogo es muy similar a escribir un guión, es decir, qué tipo de personajes deben decir y en qué circunstancias. La diferencia es que el sistema de diálogos y las tramas de algunos personajes han sido escritos.

Todas las plataformas como Google, Amazon y Microsoft tienen orientación relevante sobre el diseño de conversaciones. Puede obtener más información al respecto a través de este artículo resumido.

②Lista de mensajes.

En retrospectiva, la comunicación entre personas también debería basarse en el mismo conocimiento, al igual que las conversaciones con las máquinas. Permitir a los usuarios saber qué puede hacer el sistema, qué no puede hacer, cómo hacerlo bien, etc. , logrando así un diálogo eficaz.

Esto se puede lograr diseñando una lista de mensajes.

Los tipos de mensajes incluyen:

A. Mensaje inicial,

B. Mensaje de error,

C. . Respuestas especiales, etc.

Existen muchos tipos de indicaciones, incluidas voz, texto, imágenes e incluso sonidos.

Por ejemplo, en la imagen, el asistente de Google usa un botón con texto para decirme que puede reconocer el contenido en la pantalla, y solo necesito hacer clic o decir el comando en las dos imágenes; A la derecha, Google usa [conversión de elementos visuales] + mensajes de texto "Ingresar al diálogo" y "Salir del diálogo" + Efectos de sonido (earcon)] para metaforizar el principio y el final del juego.

Google resume los diferentes tipos de componentes conversacionales que utilizan en las indicaciones en sus pautas de diseño del Asistente de Google, lo cual es una gran referencia.

De hecho, el proceso de diseño no es muy diferente del de los productos generales, por lo que debes considerar:

1). Incluyendo casos de uso, escenarios de uso, patrones de lenguaje del usuario y patrones psicológicos. Puede consultar las notas de diseño del blogger @罗 "Análisis de casos de gestión financiera por voz".

2). Escenarios y objetivos empresariales. Determina principalmente la lista de funciones, la prioridad de la función, el método de interacción, etc. Recomiendo el “Tutorial de ejemplo de asistente de voz de hotel” de Baidu AI Community.

En particular, los productos de inteligencia artificial se presentan en diversas formas. Los diseñadores deben comprender los dispositivos de hardware conectados a los productos, los datos y el soporte técnico detrás de los productos, para poder determinar los límites del producto y descubrir el diseño. Oportunidades Optimizar continuamente la experiencia del usuario. Por tanto, también es necesario considerar:

3). Fundamento tecnológico y hardware.

Por ejemplo, el grado de conexión en red del dispositivo, si el motor ASR le permite configurar la lista N-best, personalizar el límite de tiempo de terminación de voz, la carga del sistema, etc.

4).Recursos de datos.

Por ejemplo, si los recursos actuales pueden cumplir esta función y qué datos afectarán el tiempo de respuesta del sistema.

La gente suele evaluar el rendimiento de una aplicación por la precisión del reconocimiento de voz, que es quizás el peor estándar de medición. Una aplicación puede lograr una precisión de reconocimiento del 90 % e implementar automáticamente el 85 % de las llamadas comerciales; otra aplicación puede lograr una precisión de reconocimiento del 97 % e implementar automáticamente el 40 % de las llamadas comerciales. ¿El primero debe ser peor o mejor que el segundo?

-"Cómo construir una aplicación de reconocimiento de voz" (Bruce Balentine, David Morgen)

La evaluación implica tres preguntas:

Cómo definir el éxito.

p>

Es necesario hacerlo * * * con los desarrolladores y clientes para determinar qué estados son medibles y cuáles no. Haga que el estado de éxito sea lo más concreto y digital posible.

A continuación se muestran algunos ejemplos de criterios de éxito:

El 60% de los usuarios que querían reservar un hotel acabaron completando la reserva.

El 85% de los usuarios completaron al menos 20 días de registros de salud diarios en 1 mes.

La tasa de error al reproducir canciones es inferior al 15%.

-"Diseño de interfaz de usuario de voz" Cathy Pearl

2. ¿Qué se puede medir?

A. Tasa de finalización de tareas

B. Tasa de abandono de usuarios (dónde) (para qué)

Período de uso

D. Interrupción del sonido

E. Anomalía de alta frecuencia

*Si no se considera la causa, todos los resultados de las mediciones anteriores no estarán disponibles.

3. Cómo obtener datos de medición

A. Establecer registros de grabación en las primeras etapas

B. Transcribir registros de llamadas de usuarios

……

Referencias:

Cathy Pearl, Diseño de interfaz de usuario de voz

"Diseño de interfaz de usuario de voz" Michael H. Cohen, James P. Jangora, Jennifer Baroff

Comunidad de IA de Baidu

Pautas de diseño de Google

Centro de desarrollo de Cortana

Nielsen Norman Group

/

Zhou: motor de diálogo en lenguaje natural

Casi humano