Facilidad de uso: el reconocimiento de voz en comparación con teclado

https://stackoverflow.com/questions/898402

23-08-2019
|

Pregunta

Estamos viendo cada vez más reconocimiento del habla implementado y solicitud de bibliotecas que hace el bien de reconocimiento de voz. ¿Cuál es la razón de ser (en términos de facilidad de uso) detrás de él frente a un teclado o teclado? ¿Qué razones podría tener que invertir en este desarrollo?

Por ejemplo, tomemos los centros de llamadas. Hace algunos años, casi todos los centros de llamadas usa un IVR que solicita una clave para los menús. Ahora, estamos viendo más y más menús con la solicitud de un teclado y una o hablado palabra clave / presionado: "Por favor, diga factura o pulse 1 para ver su factura". O estamos viendo lo mismo en el directorio telefónico de las empresas: 'Por favor diga el nombre de la persona que está tratando de alcanzar' ... 'Franck Loyd' ... "¿Dijiste Jack Freud Por favor, decir que sí si quieres para llegar a esta persona o decir no a intentarlo de nuevo".

Creo que es una ventaja cuando estás en su coche sin sostener el teléfono, pero vale la pena el tiempo de espera adicional? interacción más tiempo para que todas las opciones, el tiempo ya pronta al tratar de analizar si algo se dijo y así sucesivamente? Además, la fiabilidad es mejor de lo que era, sin duda, pero en algún momento se siente más como un juguete de alguien decidió enchufado en el sistema para que pueda sentir futurista.

Cualquier experiencia IVR o software de diseño que utiliza (o eligió no) de reconocimiento de voz?

Gracias!

Solución

¿Cuál es la razón de ser (en términos de usabilidad) detrás de él frente a un teclado o el teclado?

usabilidad es un término muy amplio. Si tuviera que intentar entrar en mi dirección con una pantalla táctil, no sería considerado muy usable. Algunos argumentan que el uso de un motor de voz con una tasa de éxito del 70-80% no es muy útil, ya sea. Como se indica en otras críticas, las manos de entrada libre puede ser mucho más fácil para aquellos con un teléfono móvil. Sin embargo, el uso de palabras frente a la entrada numérica en realidad puede ser menos intuitivo que un teléfono de marcación por tonos si el tema es un tanto extraña a la persona que llama. Una persona que llama términos y frases que no están muy familiarizados no recuerdo en los 10-30 segundos de la pronta pero pueden flotar sobre la mejor opción que suena con su dedo o recordar el orden de las opciones de audición.

¿Qué razones tendría usted para invertir en este desarrollo?

Esta es una pregunta extraña. Por lo general, la decisión de utilizar el habla o no en un entorno IVR no es impulsado desde el punto de vista del desarrollo del mundo. A menos que tenga un requisito específico que realmente requiere el habla, que está casi siempre reducir las tasas de éxito global. El habla es por lo general un factor de imagen corporativa ... o que tengan el último juguete tecnológico.

Creo que es una ventaja cuando estás en su coche sin sostener el teléfono pero vale la pena el tiempo de espera adicional?

latencias de reconocimiento de voz no son muy alto en estos días cuando se utiliza ASR modernas. En la mayoría de los casos, de entrada es manejado en paralelo con el habla y el tiempo entre el final del reconocimiento de voz es 0,5 a 1 s. Tenga en cuenta que muchos IVR entonces necesitan para llevar a cabo datos look-ups después de algunos insumos y esto puede aparecer como un sistema más lento. entradas normales que empujan más allá de 1s suele ser el signo de una implementación de bajo poder.

Puede que no han sido insuficientemente alimentado al original, implementado, pero a través de los esfuerzos de ajuste, que hacer un montón de rendimiento frente a las decisiones de precisión. Para conseguir que el próximo 0,1%, los recursos pueden ser empujados más allá de lo que deberían ser en el pico.

Además, la fiabilidad es mejor de lo que era, sin duda, pero en algún momento se siente más como un juguete de alguien decidió a enchufado en el sistema para que pueda sentir futurista.

En general, sí. En la nota de fiabilidad, lo que necesita realmente mirar los números generales para tener una idea del sistema. Es una batalla de estadísticas cuando el individuo no es muy importante (a menos que tengan el título de vicepresidente o superior). A través de la optimización de la entrada (que provocó el desplazamiento), uso de recursos y otros parámetros de ajuste reco discurso que intenta maximizar la precisión. Para las respuestas básicas de lenguaje natural, se puede obtener en los 90 superiores. Sin embargo, su tasa de éxito es mucho menor. Imagínese 5 indicaciones todo al 98% (en realidad, que tienden a tener un montón 99 y luego un par de mediados de los 90 o ligeramente por debajo): 0,98 * 0,98 * 0,98 * 0,98 * 0,98 = 90%. Eso significa que 1 de cada 10 falla. Es decir, antes de llamadas reglas de confusión y de negocios. entrada DTMF es generalmente muy cerca de 100%, incluso después de varias entradas.

Cualquier experiencia en el diseño IVR o software que utilizado (o eligió no) de reconocimiento de voz? Si. Sin embargo, sospecho que en realidad no es la pregunta que desea. Como alguien en el lado de la tecnología, esto no suele ser su decisión y que tienen una influencia limitada sobre el mismo. Si usted está realmente en busca de las ventajas / desventajas de discurso:

Pros:

Cool / cadera (nota, el habla por sí sola no es suficiente. Es necesario un gran talento y la voz VUI)
Bueno para una multitud de gran movilidad que huye de piezas para el oído. El futuro se supone que es el habla de mezcla con la entrada táctil. Tal vez. Es probable que no vendrá del lado de IVR del mercado.
Bueno para tareas que no se pueden hacer con DTMF. Tenga en cuenta que muchos de estos problemas tienden a tener pocas probabilidades de éxito rates en el habla también. Costo (en comparación con los humanos) no suele ser el factor determinante usabilidad. Dejar caer una llamada a un buzón de voz para cosas como el cambio de dirección puede ser muy rentable.

Contras:

Caro para el desarrollo, implementación y mantenimiento. La adición de nuevas opciones puede tener un impacto significativo sobre las tasas de éxito si no se tiene cuidado. Siempre monitorear el impacto del cambio.
es frecuentemente usado de manera inapropiada. Por ejemplo, sólo decir su opción del menú numérico. Esto es casi a menudo un caso de frescor que queremos hablar, pero no puede permitirse lo que realmente se necesita para lograr frialdad discurso.
Las tasas de éxito serán más bajos y por lo tanto llamar a los costes del centro serán más altos.
Los fracasos tienden a centrarse en indicaciones específicas y los llamadores individuales. Una persona que llama que experimenta regularmente problemas con su sistema será muy infeliz con usted.
Las personas que llaman se enojan cuando no se entienden. ¿Su objetivo es identificar un subconjunto de su base de clientes y realmente conseguir enojado?

Otros consejos

Creo que de reconocimiento de voz como cualquier método de entrada tiene es de pros y los contras.

Pro

No hay curva de aprendizaje, hemos estado hablando desde una edad muy joven.
Muy fácil e intuitiva.
En el teléfono, sin necesidad de mover constantemente el auricular del oído.

Contras

Un mayor tiempo de espera
Si la mala calidad del sonido, lleva varios intentos para obtener el derecho de selección.

En algunos casos, una empresa se requiere para manejar los teléfonos de disco. Podría ser encontrado como más coste afectivo que acaba de configurar el sistema de reconocimiento en lugar de dos.

El reconocimiento de voz tiene mucho más espacio que los tonos al tacto. Si desea que los mejores resultados necesita ajustar constantemente la aplicación y entrenar el sistema de pronunciación de las palabras no reconocidas. También es necesario ser muy particular de cómo se pedirá al usuario con reconocimiento de voz o puede obtener respuestas inesperadas.

En general el tono táctil es mucho más fácil, ya que hay sólo un conjunto limitado de opciones posibles en un momento dado.

Si su aplicación es bastante sencillo que muchos Grabación de voz que sólo complican. Presione 2 para algún otro idioma ..

El reconocimiento de voz es sin duda la ola del futuro cuando se combina con la tecnología de pantalla táctil. Como ejemplo, yo utilizo el reconocimiento de voz tazti. Está disponible en la versión XP y Vista. Desde la plataforma de pantalla táctil "Surface" de Microsoft se ejecuta en Vista, estoy seguro que tazti trabajarán con la tecnología de pantalla táctil. Cuando traté de reconocimiento de voz tazti el construido en comandos funcionaba muy bien. También me permite crear mis propios comandos de voz y los que también funcionan muy bien. la búsqueda de voz de Google y Yahoo, Wikipedia Youtube y muchos otros motores de búsqueda funciona muy bien. Tiene muchas otras características también. Pero no tiene el dictado. Me di cuenta que eliminar el 70% o más de mi internet generan clics .... tal vez más. NOTA:. Tazti es una descarga gratuita desde su página web

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow