[Compilación] Guía básica para el diseño de VUI (interacción de usuario por voz)
Basado en la comprensión del trabajo real, el autor organiza brevemente el artículo de la siguiente manera como referencia.
Complemente la comprensión de la interacción de voz nacional y la información relacionada en plataformas nacionales como Baidu, Alibaba y Xiaomi. y diseñado parcialmente con sus propios materiales)
Si ha utilizado productos de voz inteligentes, debería tener escenarios similares.
Nuestras voces son diversas y complejas, y los comandos de voz son aún más difíciles de procesar: todas las conversaciones entre personas reales, y mucho menos entre computadoras. Cualquier diferencia sutil en nuestra forma de pensar, antecedentes culturales, abreviaturas de jerga y formas de razonamiento afectará la comprensión semántica de la escucha.
Entonces, ¿cómo responden los diseñadores e ingenieros a este desafío? ¿Cómo cultivar la confianza entre los usuarios y la IA? Esta es la clave de VUI.
VUI se refiere a una interfaz que utiliza la voz para realizar la interacción entre personas y dispositivos (la voz puede ser el único método de interacción o puede ser un complemento de la visión y el tacto). VUI puede ser cualquier cosa: la atmósfera y la iluminación al escuchar música en el centro de control de entretenimiento de un automóvil. La VUI no puede tener ninguna interfaz y depende únicamente del oído, el tacto o el movimiento para lograr la interacción.
VUI tiene muchas formas y portadores completos, pero todos comparten los mismos conceptos básicos de UX. Al comprender estos conocimientos básicos y analizar los métodos diarios de interacción de voz desde la perspectiva del usuario, los diseñadores pueden crear una mejor experiencia de interacción de voz.
Las limitaciones tecnológicas, ambientales y sociales actuales tienen un enorme impacto en la forma en que nos relacionamos con el mundo: afectarán la rapidez con la que procesamos la información, la precisión con la que convertimos los datos en acciones y la forma en que intercambiamos información entre nosotros. y métodos.
Antes de comenzar con el diseño de la interacción de voz, debemos comprender los antecedentes de la interacción de voz.
El tipo de dispositivo afecta directamente a la forma de interacción de voz, limitando el alcance (profundidad y amplitud) de la entrada de voz.
Teléfono móvil
Marca de teléfono móvil: iphone, pixel, galaxy, Huawei, Xiaomi...
Modo de conexión: red de datos móvil, Wi-Fi, Emparejamiento de Bluetooth...
Entorno de uso: el entorno ambiental tiene un gran impacto en la interacción de voz
Hábitos del usuario: los usuarios están acostumbrados a utilizar la interacción de voz.
Modo de interacción multicanal que admite retroalimentación visual, auditiva y táctil
La forma de interacción en cada modo está bastante estandarizada.
Dispositivos wearables
Casos de uso específicos: como relojes, pulseras fitness o zapatos inteligentes.
Modo de conexión: red de datos móviles, Wi-Fi, emparejamiento Bluetooth...
Hábitos de usuario: Los usuarios pueden estar acostumbrados a utilizar la interacción por voz, pero esta interacción no es estándar en el dispositivo.
Los dispositivos portátiles admiten retroalimentación visual, auditiva y táctil, aunque algunos dispositivos son pasivos y menos interactivos.
La interacción del usuario y el consumo de datos muchas veces dependen del dispositivo conectado.
Dispositivos de conexión fija
Ejemplos de dispositivos: ordenadores de sobremesa, electrodomésticos con pantalla, termostatos, centros de control del hogar inteligente, sistemas de sonido y televisores, etc.
Métodos de conexión: red cableada, Wi-Fi, emparejamiento Bluetooth...
Los usuarios están acostumbrados a interactuar en el mismo lugar, manteniendo la configuración del dispositivo sin cambios.
Utilice métodos de interacción de voz estandarizados similares entre diferentes dispositivos (como computadoras de escritorio y hogares inteligentes, como Google Home, Amazon Alexa y termostatos inteligentes sin diferencias obvias)
No estacionario Dispositivos informáticos (distintos de los teléfonos móviles)
Ejemplos de dispositivos: ordenadores portátiles, tabletas, transpondedores, sistemas de información y entretenimiento para vehículos.
Métodos de conexión: red inalámbrica, red cableada (no utilizada habitualmente), Wi-Fi, emparejamiento Bluetooth...
El método de entrada principal no es la voz.
El entorno ambiental tiene un gran impacto en la interacción de voz.
Las interacciones entre diferentes dispositivos a menudo no están estandarizadas.
¿Cuáles son los casos de uso primario, secundario y terciario de la interacción de voz? ¿Tiene el dispositivo un caso de uso principal (como un rastreador de actividad física)? ¿O existen múltiples combinaciones de casos de uso (como teléfonos inteligentes)?
Crear una matriz de casos de uso es importante ya que te ayudará a determinar por qué los usuarios interactúan con el dispositivo. ¿Cuál es su principal forma de interactuar? ¿Qué es secundario? ¿Qué patrones de interacción son buenos y cuáles son esenciales?
Puedes crear una matriz de casos de uso para cada patrón de interacción. Cuando se aplica a la interacción de voz, esta matriz le ayudará a comprender los métodos de interacción de voz que sus usuarios utilizan actualmente o quieren utilizar, incluido dónde utilizan su asistente de voz:
Si desea utilizar la investigación de usuarios para enriquecer su Comprensión de los casos de uso Es importante utilizar su investigación para clasificar los modos de interacción de voz según su comprensión (ya sea volumen de uso o investigación bruta de volumen/calidad).
Si alguien te dice: "¡Sería genial si pudiera hablar con el televisor y hacer que cambie de canal!", entonces realmente necesitas profundizar más: ¿realmente funcionan? ¿Conocen ya las limitaciones del equipo? ¿Realmente entienden las funciones que prefieren utilizar?
Por ejemplo, digamos que estamos evaluando si un usuario utilizará comandos de voz para interactuar con el televisor. En este caso, la suposición más segura es que el usuario tiene muchas opciones; la interacción por voz es sólo una de ellas.
Los usuarios tienen muchas opciones: un control remoto, un teléfono inteligente emparejado, un controlador de juego o un dispositivo IoT conectado. Por lo tanto, la interacción por voz puede no ser el método de interacción predeterminado, sino sólo uno de muchos métodos.
En este punto, nuestra pregunta es: ¿Qué probabilidades hay de que los usuarios utilicen la interacción de voz como el método de interacción más importante? Si no fuera el modo principal de interacción, ¿sería el modo secundario? ¿Supresión o una tercera droga? Esto validará aún más su hipótesis.
Traducir nuestras palabras en acción es un desafío técnico extremadamente difícil. A través de innumerables tiempos, conexiones y entrenamiento, un modelo de motor informático bien adaptado puede reconocer muy bien nuestro habla y desencadenar las operaciones correspondientes.
Desafortunadamente, todavía no podemos lograr una conexión completamente fluida y el tiempo es limitado. Queremos que las interacciones de voz sean tan sencillas como alternativas como la visión o el tacto tradicionales, incluso si el procesamiento y los modelos predictivos de los motores del habla deben ser más complejos.
La siguiente figura muestra el proceso de reconocimiento de voz:
Se puede observar que muchos modelos requieren un entrenamiento continuo para reconocer nuestro vocabulario, acento, tono y otros elementos.
Cada plataforma de reconocimiento de voz tiene sus propias características técnicas y limitaciones. Al diseñar productos de interacción de voz, debemos aceptar estas limitaciones.
Las principales limitaciones son las siguientes:
Nivel de conectividad: ¿El dispositivo puede estar siempre conectado a la red?
Velocidad de procesamiento: ¿Se procesa la voz del usuario en tiempo real?
Progreso del procesamiento: ¿Cómo equilibrar precisión y velocidad?
Modelos de habla: ¿Qué tan bien estamos entrenando a nuestros modelos hasta ahora? ¿Podemos procesar frases largas enteras o identificar inteligentemente palabras cortas?
Opciones de copia de seguridad: ¿Cuáles son las opciones de copia de seguridad si no se reconoce la voz? ¿Existen otras formas en que el usuario puede interactuar?
Coste de los errores: ¿El manejo inadecuado de las instrucciones de uso tendrá consecuencias irreversibles? ¿Nuestro motor de reconocimiento de voz está lo suficientemente maduro como para evitar errores graves de forma eficaz?
Pruebas ambientales: ¿Se ha probado el motor de voz en muchos entornos diferentes? Por ejemplo, el entorno en el que se encuentra el sistema de infoentretenimiento de un coche tiene más factores de interferencia que un termostato inteligente en casa.
También debemos considerar que los usuarios pueden interactuar con los dispositivos de forma no lineal.
Por ejemplo, si quiero reservar un boleto de avión en el sitio web, debo seguir el proceso de reserva establecido por el sitio web y seleccionar o ingresar la información requerida por el sitio web: seleccionar el destino, seleccionar la fecha, seleccionar la cantidad de boletos, ver las opciones...
VUI enfrenta mayores desafíos. Un usuario puede decir "Quiero reservar un vuelo en clase ejecutiva a San Francisco" y luego la VUI debe extraer información relevante de la oración del usuario para completar la reserva del vuelo utilizando las API existentes. Todo el orden lógico ha fallado y VUI tiene la responsabilidad de extraer información más relevante del usuario: puede ser a través de voz, visión o puede obtener automáticamente información de ubicación del dispositivo, cuentas personales, etc.
Ahora hemos comprendido las limitaciones, dependencias y casos de uso que enfrenta el diseño de VUI. Ahora profundicemos en el diseño de VUI real.
Lo primero que debemos comentar es cómo sabe el dispositivo y cuándo debe escuchar al usuario.
La siguiente figura es el proceso básico de la experiencia de interacción de voz:
Los ejemplos de visualización en la interfaz son los siguientes:
Hay cuatro activadores de entrada de voz:
Disparador por voz:? El usuario pronunciará una frase específica para indicarle al dispositivo que comience a procesar la voz ("Ok Google").
Disparo táctil: presionar un botón (físico o digital) o cambiar un control (como el ícono de un micrófono)
Disparo por movimiento: agitar el brazo frente al sensor, etc.
Autodisparo del dispositivo: la respuesta del dispositivo se activa mediante condiciones preestablecidas (hora y lugar especificados, recordatorio de tarea u otras condiciones de activación).
El diseñador debe comprender qué desencadenantes son relevantes para su caso de uso; y clasificar los distintos desencadenantes según su relevancia para su caso de uso.
Normalmente, hay señales auditivas, visuales o táctiles cuando se activa un dispositivo para escuchar. Estas indicaciones deben cumplir con los siguientes principios de usabilidad:
Retroalimentación inmediata: las indicaciones de orientación deben presentarse lo más rápido posible después de activarse, incluso si pueden interrumpir la operación actual (siempre que la interrupción no sea perjudicial). ).
Preciso y conciso: Las indicaciones de arranque deben ser instantáneas, especialmente para dispositivos de uso común. Por ejemplo, dos pitidos afirmativos son un poco más agradables que "Está bien, Justin, ¿qué puedo hacer por ti?". Cuanto más largo sea el mensaje de inicio, más probable será que las palabras del usuario entren en conflicto con el mensaje del dispositivo. Este principio también se aplica a las señales visuales: la pantalla debería cambiar inmediatamente a un estado de escucha.
Inicio claro: los usuarios deben saber cuándo se están grabando sus voces.
Coherencia: las señales iniciales deben ser siempre las mismas. La inconsistencia en los comentarios de audio o visuales puede confundir a los usuarios.
Reconocibilidad: las señales de orientación deben diferir de los sonidos e imágenes normales del dispositivo y nunca deben usarse ni repetirse en ningún otro contexto.
Consejos adicionales: si es posible, presente indicaciones de varias maneras (por ejemplo, dos pitidos, luces intermitentes y diálogo en pantalla).
Consejos para la primera vez: para los usuarios nuevos o que parecen estancados, puede brindarles sugerencias o consejos para la primera vez para mantener la conversación.
La retroalimentación es muy importante para una VUI exitosa. Le deja claro al usuario que el dispositivo está captando y procesando sus palabras y también le permite tomar medidas correctivas o continuar la conversación.
Los siguientes principios de usabilidad proporcionan una buena experiencia de retroalimentación para VUI:
Respuesta a la retroalimentación visual en tiempo real: la retroalimentación visual es más común en dispositivos de voz nativa, como los teléfonos móviles. Visualmente, los colores o patrones pueden cambiar en tiempo real para transmitir retroalimentación cognitiva de tono, timbre, intensidad del sonido y duración.
Comentarios de audio: envíe comentarios reproduciendo audio breve.
Texto en vivo: Sigue el discurso del usuario y lo muestra en pantalla en tiempo real.
Texto de salida: una vez que el usuario ha terminado de hablar, el texto se presenta al usuario para su transformación y modificación. Esto puede brindar una oportunidad de corrección antes de ejecutar las instrucciones del usuario.
Señales visuales fuera de la pantalla, como iluminación: las imágenes responsivas anteriores no se limitan a la pantalla del dispositivo y también pueden tener luces LED o patrones de iluminación.
El mensaje de finalización informa al usuario que el dispositivo ya no monitoreará la voz del usuario en este momento.
Se aplican muchos de los consejos principales (como inmediatez, simplicidad, claridad, coherencia y diferenciación), pero existen algunos principios de diseño adicionales:
Tiempo suficiente: asegúrese de que los usuarios tengan tiempo suficiente para dar instrucciones.
¿Es hora de adaptarse? : El tiempo de respuesta asignado debe adaptarse al caso de uso así como a las expectativas del usuario. Por ejemplo, cuando a un usuario se le hace una pregunta "¿es formal?", se debe proporcionar una pausa razonable después de reproducir la última sílaba de la pregunta.
Pausa Razonable: ¿Ha transcurrido un tiempo razonable desde que se completó la última grabación? Esto implica cálculos complejos, pero también está influenciado por casos de uso contextuales.
Los comandos simples como "activar mi alarma" no necesariamente requieren conversaciones largas, pero los comandos más complejos sí. A diferencia de las conversaciones tradicionales de persona a persona, los dispositivos de persona a inteligente requieren confirmación, redundancia y correcciones adicionales (estrictamente hablando, todavía existen en las conversaciones de persona a persona, pero la probabilidad es pequeña y no habrá configuraciones claras). ).
Los comandos más complejos, o múltiples rondas de diálogo, generalmente requieren verificación de voz/opciones multiparámetro para garantizar la precisión del diálogo. El problema se complica cuando los usuarios no están seguros de cómo dar instrucciones. Descifrar la información del usuario y guiarlo para que proporcione más información contextual se ha convertido en una tarea importante de VUI.
Afirmativa: Cuando la IA entiende la voz del usuario, debe dar una respuesta positiva y un tono de confirmación. Por ejemplo, en lugar de decir "por supuesto", la inteligencia artificial dice "Por supuesto, apagaré las luces" o "¿Estás seguro de que quieres apagar las luces?"
Corrección: Cuando la IA no puede comprender la intención del usuario, debe responder con opciones correctivas; esto le permite al usuario elegir o comenzar de nuevo por completo.
Empatía: Cuando la IA no puede satisfacer la petición del usuario, debe admitir que no puede satisfacer al usuario y ofrecer alternativas. La empatía es muy importante para nosotros para brindar servicios personalizados a nuestros usuarios.
Dar características antropomorfas a la interacción de voz para que se pueda establecer la relación entre personas y dispositivos. Esta característica antropomórfica puede representarse mediante luces, pelotas que rebotan, patrones de muestreo, sonidos de máquinas y más.
Las características antropomórficas hacen que la conexión entre los usuarios y las máquinas sea más estrecha, y se pueden establecer conexiones similares en diferentes productos inteligentes en diferentes plataformas (como el Asistente de Google, Alexa de Amazon y Siri de Apple).
Personalidad: Aporta una dimensión extra a las interacciones, las personalidades virtuales nos ayudan a generar conexión y empatía con nuestros usuarios. Ayuda a reducir el impacto negativo de los errores de procesamiento del habla.
Entusiasmo: Suele utilizar el entusiasmo para fomentar interacciones repetidas y utilizar un tono positivo.
Confianza y confianza: fomente interacciones adicionales y conversaciones complejas, brindando a los usuarios la confianza para lograr resultados positivos y más valiosos.
La interacción por voz debe ser fluida y dinámica. En nuestras conversaciones reales suele haber infinidad de expresiones faciales, tonos de voz, lenguaje corporal y movimientos corporales. Traducir la confianza tan rica de las conversaciones reales al mundo digital es un gran desafío.
Si es posible, toda la experiencia de interacción de voz debería parecer una interacción beneficiosa. Por supuesto, las interacciones breves (como "apagar las luces") no necesariamente requieren una relación completa. Sin embargo, cualquier tipo de interacción más compleja (como cocinar con la ayuda de un asistente inteligente) requiere una larga conversación.
Una experiencia de interacción de voz eficaz se beneficiará de los siguientes principios:
Conmutación perfecta: transición perfecta entre diferentes estados. Los usuarios deben darse cuenta de que nunca pueden esperar, el asistente inteligente trabaja para ellos.
Brillantes: Los colores vivos transmiten alegría y futurismo. Agrega un elegante elemento futurista a las interacciones, fomentando la repetición de interacciones.
Responsive: responde a las entradas y gestos del usuario. Indica el comando que se está procesando actualmente y permite al usuario verificar que su voz/intención se entendió con precisión.
Las VUI son complejas, multifacéticas y, a menudo, multimodales. De hecho, no tiene una definición completa. Además de esto, un mundo cada vez más digital significa que pasaremos cada vez más tiempo en varios dispositivos, mucho más del que interactuamos entre nosotros. ¿Se convertirá la VUI en la principal forma de interactuar con el mundo? Esperemos y veremos.
Al mismo tiempo, ¿quieres planificar y construir una VUI de clase mundial? Aquí hay algunos recursos útiles:
¿Cómo diseñar una interfaz de usuario de voz? Conceptos básicos del diseño de interacción
¿Qué es la interfaz de usuario de voz (VUI)? ¿introducir? Desarrollador de Amazon
¿Acciones de voz? Desarrolladores de Google
¿SiriKit? Desarrolladores de Apple
¿Diseño VUI? Fredrik Goossens
¿Una guía para interfaces de usuario de voz? Fiordo