¿Cuáles son los puntos importantes en la construcción de un sistema inteligente de interacción de voz?
Prefacio
Con la propuesta de la inteligencia artificial, en los últimos años han surgido una gran cantidad de proveedores e integradores de servicios de call center basados en inteligencia artificial. Solo existen módulos de llamadas salientes inteligentes. cerca de un centenar de empresas que lo promocionan y explotan. Se puede decir que todo el mercado basado en tecnología de inteligencia artificial ha comenzado a desarrollarse vigorosamente.
Permítanme presentarles brevemente qué es una plataforma de interacción de voz inteligente. De hecho, la verdad es que se basa en el centro de llamadas, una plataforma de servicio de llamadas que integra ASR, TTS, etc.
Entonces, ¿cómo construimos nosotros mismos un sistema de voz inteligente?
Primero enumeremos las tecnologías y servicios necesarios para construir un sistema inteligente de llamadas salientes:
Opinión personal:
[if !supportLists]·[endif] Lo primero y más importante es el conmutador:
[if !supportLists]1. [endif] PBX es un conmutador. Los fabricantes de equipos comerciales originales incluyen conmutadores de hardware producidos por Huawei, Avaya, Cisco, Donghui, etc.
[if !supportLists]2. [endif] También existen conmutadores de software actuales como FreeSitch, Asterisk y OpenPBX.
[if !supportLists]·[endif] La siguiente es la tecnología de inteligencia artificial: tres tecnologías que incluyen el reconocimiento de voz, la comprensión semántica y la síntesis de voz son los componentes principales. El reconocimiento de voz es equivalente al "oído" de una persona. Después de recibir una llamada, las palabras de la persona se procesan y se convierten en datos que el sistema puede reconocer y entregar al sistema para su procesamiento y reconocimiento. En otras palabras, se puede escapar como texto. La comprensión semántica es equivalente al "cerebro" humano, que identifica las intenciones de las personas basándose en palabras. La síntesis de voz es equivalente a la "boca" de una persona. Después de reconocer la intención de la persona, puede responder y guiar la conversación de acuerdo con un método de respuesta específico.
[if !supportLists]·[endif] La tercera es la plataforma de servicios front-end: es decir, el sitio web donde los usuarios inician sesión, configuran procesos de llamadas, crean tareas de llamadas, cuentan datos de llamadas y exportan. informes de llamadas. Este es el único sitio web para usuarios finales. Interfaz que se puede ver y operar.
[if !supportLists]·[endif] Finalmente, están las líneas salientes: incluidos los tres principales operadores y otros pequeños proveedores de líneas integradas, el objetivo principal son las llamadas salientes o las llamadas entrantes.
Algunas personas también pueden tener preguntas: "¿No es la inteligencia artificial lo más importante del sistema inteligente de interacción de voz? ¿Qué tiene que ver con el interruptor? ¿Por qué se dice que es lo más importante?" ¿Cuál es el interruptor? La razón es que ya sea que estemos haciendo llamadas salientes o para acceder al teléfono, la plataforma de servicio de front-end debe enviar la solicitud de llamada saliente al interruptor y realizar la llamada a través de la línea de llamada saliente. En otras palabras, el conmutador controla la situación general de las llamadas salientes. Los conmutadores de hardware, como los de Huawei, tienen un precio que oscila entre decenas de miles y varios millones. Para aquellos que desean construir su propio sistema de interacción de voz inteligente, el precio es inasequible para algunas pequeñas empresas, y la conmutación suave como FreeSitch facilita enormemente a las pequeñas empresas construir su propio sistema de interacción de voz inteligente.
¿Qué es FreeSwitch?
FreeSitch es una solución de softswitch de telefonía que incluye un softphone y un controlador de producto de softswitch para proporcionar voz y chat. FreeSitch se puede utilizar como motor de conmutación, PBX, puerta de enlace multimedia, servidor multimedia, etc. Admite una variedad de estándares de tecnología de comunicación, incluidos SIP, H.323, IAX2 y GoogleTalk, y también se puede conectar fácilmente con otros sistemas PBX de código abierto. Y tiene una gran escalabilidad. Un protocolo de comunicaciones diseñado para proporcionar enrutamiento e interconexión para audio, video, texto o cualquier otra forma de medio.
Funciones típicas de FreeSwitch
[if !supportLists]·[endif]Funciones de facturación online y prepago. ?
[if !supportLists]·[endif]Servidor de enrutamiento telefónico. ?
[if !supportLists]·[endif]Servidor de transcodificación de voz. ?
[if !supportLists]·[endif] Servidores que soportan prioridad de recursos y QoS. ?
[if !supportLists]·[endif]Servidor de conferencias multipunto. ?
[if !supportLists]·[endif]IVR, servidor de notificaciones por voz. ?
[if !supportLists]·[endif]Servidor de correo de voz. ?
[if !supportLists]·[endif]Aplicaciones PBX y softswitches. ?
[if !supportLists]·[endif]Puerta de enlace de la capa de aplicación. ?
[if !supportLists]·[endif] Aplicación transversal de firewall/NAT. ?
[if !supportLists]·[endif]Servidor privado. ?
[if !supportLists]·[endif]Puerta de enlace de Internet SIP. ?
[if !supportLists]·[endif]SBC y puerta de enlace de seguridad. ?
La función más típica de FreeSwitch es actuar como servidor y conectarse a él mediante el software cliente del teléfono. Aunque FreeSwitch admite muchos protocolos de comunicación, su protocolo más importante es SIP, que inicia protocolos de sesión a través de retransmisiones SIP.
La ventaja de utilizar conmutación suave como FreeSwitch es que solo necesita un servidor para configurar su propio centro de llamadas salientes en cualquier momento, y FreeSwitch admite operaciones multiplataforma. Puede ejecutar de forma nativa muchas plataformas de 32/64 bits como Windows, Linux, BSD, etc.
FreeSwitch utiliza un modelo de subprocesos internamente para manejar solicitudes simultáneas. Cada conexión se procesa en un subproceso separado para acceder a recursos compartidos a través de la exclusión mutua de Mutex y utilizar mensajes y eventos asincrónicos para comunicarse de otras maneras. FreeSwitch en sí es relativamente estable y es un excelente software de código abierto. Por otro lado, FreeSwitch es relativamente radical y se agregarán una gran cantidad de funciones nuevas a su rama de desarrollo, por lo que puede ocurrir fácilmente inestabilidad sin una prueba exhaustiva. Cuando se utiliza en un entorno de producción, la estabilidad del sistema es la clave para saber si el sistema se puede utilizar normalmente. En el proceso de trabajo anterior en el proyecto, encontramos algunas situaciones en las que FreeSwitch era inestable, lo que resultaba en llamadas salientes insatisfactorias. Para dar un ejemplo: cuando estábamos probando las llamadas salientes, las llamadas de voz eran intermitentes. Aunque la plataforma de servicio front-end podía recibir la transmisión de datos muy bien, cuando realmente se comunicaba con humanos, se producían varios tipos de obstáculos en orden. Para resolver este problema, pasamos varios meses estudiando las características estructurales de FreeSwitch. Finalmente resolvió este problema. Sólo entonces nuestro proyecto siguió avanzando y finalmente se implementó.
Algunas personas también pueden tener preguntas: "Aunque el cambio suave de FreeSwitch es importante, dado que es un sistema inteligente de interacción de voz, ¿la inteligencia artificial no es importante?", ¡importante, por supuesto importante! Déjame explicarte lentamente ~
Tecnología de inteligencia artificial
1 Principio de comunicación
Primero explique brevemente el proceso de las llamadas telefónicas normales
Proceso. : A→PSTN→B
Explicación: PSTN es una red telefónica pública conmutada, es decir, la red telefónica pública conmutada, que es el teléfono de Internet de nuestro operador.
Entonces, ¿cómo hacemos normalmente las llamadas al centro de llamadas? : El individuo A llama al centro de llamadas 1***6. Después de marcar, escucha la grabación Hola. Para llamar al escritorio manual, presione la tecla 0. Después de presionar la tecla, aparece un tono ciego. conectado, la persona de servicio al cliente se conecta. Recibí el teléfono.
Proceso: A→PSTN→PBX→IVR→Servicio al Cliente
Explicación: PBX también se llama conmutador, que equivale a la entrada y salida de todo el centro de llamadas p>
IVR también se llama interacción / respuesta de voz interactiva, navegación por voz, que equivale a presionar el botón de consulta comercial. Este enlace se desvía al servicio de atención al cliente según el negocio.
¿Cómo implementa la plataforma de interacción de voz inteligente (robot inteligente) escenarios comerciales específicos?
Por ejemplo: "El individuo A quiere reservar un asiento en un determinado hotel grande", p>
p>
La persona A escuchó por primera vez la voz después de marcar: "Hola, soy el robot Xiaoyue. ¿Necesitas que te reserve un asiento?
La persona A dijo: "No quiero hablar con el robot. Encuentra a una persona real".
Luego escuché la grabación: "Te transferiré a una persona real muy costosa de servicio al cliente, esperando en la fila, espere."
La llamada se conectará en unos minutos, la persona real de atención al cliente respondió la llamada.
Proceso: A→PSTN→PBX→IVR (TTS→ASR→ NLP→TTS)→ACD→Servicio al cliente
Explicación: En la parte IVR: No, ya no necesita solicitar un botón, sino preguntar directamente a la persona que llama qué negocio debe procesarse y luego, después de reconocer la voz y entendiendo la intención, según las necesidades del usuario, la respuesta se transferirá a la cola de servicio correspondiente
El proceso de llamadas salientes anterior es el opuesto, por lo que no lo haré. entre en detalles.
2. Aplicación de la tecnología de IA actualmente en el mercado
Ya sea ASR, TTS o NLP, actualmente están todas ocupadas en el mercado. Empresas gigantes como Alibaba, Baidu, iFlytek, etc. Estas tecnologías básicamente se han convertido en una conclusión inevitable en el mercado nacional. La mayoría de los motores como ASR son utilizados por Alibaba Cloud e iFlytek, o Baidu Cloud. La tasa de reconocimiento de iFlytek es mayor. alcanzando aproximadamente 97. La tasa de reconocimiento de Baidu es ligeramente menor, con una tasa de reconocimiento de aproximadamente 80. Cuando estábamos trabajando en el proyecto, elegimos ASR para las pruebas. Resulta que Alibaba Cloud tiene una tasa de reconocimiento más alta y también puede reconocer dialecto. Por lo tanto, cuando estábamos trabajando en el proyecto, elegimos TTS de Alibaba Cloud. Elegimos iFlytek por una razón muy simple. Después de todo, iFlytek es un gigante en el campo de la inteligencia artificial.
3. Acoplamiento de capacidades de IA
En una implementación específica, los participantes habituales en este campo suelen tener capacidades de centro de llamadas o capacidades de IA, y el principal punto de conexión radica en la conexión entre la IA. capacidades y equipos del centro de llamadas, y el protocolo convencional para la conexión entre ASR/TTS y el equipo del centro de llamadas es principalmente mrcp/sip
Protocolo de control de recursos multimedia
(MRCP). un protocolo de comunicación utilizado por servidores de voz para proporcionar diversos servicios de voz (como reconocimiento de voz y síntesis de voz) a los clientes. Hay dos versiones del protocolo MRCP, se utiliza la versión 2 como protocolo de control, la versión 1 usa RTSP.
Durante la conexión real, encontraremos muchos problemas técnicos cuando nuestro motor ASR/TTS se implemente en una nube privada, para evitar muchas configuraciones de firewall y retrasos en la transmisión de voz durante la penetración de la red interna y externa. Esto también requirió mucho esfuerzo cuando estábamos atracando.
Plataforma de servicio front-end:
La parte más importante es configurar el proceso de llamada.
Esta parte es fácil de ignorar, pero es un lugar. donde se pueden producir resultados. En términos generales, el mejor conjunto de plantillas de discurso puede derrotar a miles de personas. Debes tener una base psicológica. ¿Cómo puedes decir una frase para que la persona que contesta el teléfono siga sus propias ideas con la mayor probabilidad y logre el objetivo? Esto formará una plantilla para el habla del robot en subdivisiones específicas y obtendrá la mejor efecto de llamada saliente (tasa de respuesta de llamadas, duración de la llamada, intención de telemercadeo, intención de cobro) o efecto de conexión (satisfacción)
El resto son básicamente cosas del lado web, y los puntos de función específicos son. inicio de sesión de usuario y configuración del flujo de llamadas, establecer tareas de llamadas, contar datos de llamadas y exportar informes de llamadas. Estos puntos de función se pueden implementar básicamente, porque desde la perspectiva del producto, el valor más importante del producto es que puede llamar o conectarse. teléfono del usuario, y puede identificar con precisión el número de teléfono del usuario y responder al usuario con precisión. Este es el objetivo final del sistema de interacción de voz inteligente y siempre ha sido nuestro objetivo final.
Fabricante de línea de llamadas salientes:
Generalmente, si compra un sistema, la línea se proporciona y solo necesita pagar algunas tarifas de línea. Si estás haciendo tu propio proyecto, hay muchos en línea y en Taobao. Las tarifas se pueden negociar y también proporcionan interfaces para la conexión de línea.
Conclusión
Aunque actualmente existen muchos sistemas inteligentes de interacción de voz en el mercado, generalmente se limitan a las ventas telefónicas en diversas industrias, y todavía hay muy pocas interacciones de voz inteligentes en el mercado. verdadero sentido. La razón es muy simple. Aunque el principio no es difícil, cuando realmente se implementa, se encuentran muchas dificultades en casi cada paso del camino. Afortunadamente, ya se ha implementado realmente y los efectos en todos los aspectos siguen siendo muy buenos. Más de un año de duro trabajo ha dado sus frutos. Jaja ~
Estoy escribiendo este artículo para intentar brindarle una breve introducción al sistema de interacción de voz inteligente. Sin embargo, mi conocimiento es superficial y las omisiones y puntos inapropiados son inevitables. ideas.
Muchos detalles no se describen en detalle debido al tema y los requisitos de extensión. Si tiene alguna pregunta, no dude en comunicarse.