▷ Exploradores web a base de voz | Actualizado junio 2025

🐰 Utilizar la voz para controlar un sitio web

Hay dos características de la API de Voz Web: la síntesis de voz, también conocida como texto a voz, y el reconocimiento de voz, o voz a texto. Anteriormente hemos investigado la conversión de texto a voz, así que veamos cómo la API de reconocimiento de voz gestiona el reconocimiento y la transcripción del habla por parte de los navegadores.
Chrome te pedirá permiso para usar tu micrófono cuando ejecutes el código y luego, si tu página se sirve en un servidor web, recordará tu preferencia. Ejecuta el código, y luego di algo a tu micrófono una vez que hayas concedido el permiso. Deberías ver un SpeechRecognitionEvent publicado en la consola una vez que dejes de hablar.
En estas 3 líneas de código, están sucediendo muchas cosas. Construimos un ejemplo de la API de SpeechRecognition (proveedor prefijado con «webkit» en este caso), le dijimos que registrara cualquier resultado que obtuviera del servicio de voz a texto, y le dijimos que comenzara a escuchar.
Todavía hay algunos ajustes por defecto en el trabajo. Una vez que el objeto obtenga una respuesta, dejará de escuchar. Es necesario llamar de nuevo a Start para comenzar la transcripción. A menudo, desde el programa de reconocimiento de voz, sólo se obtiene el resultado final. Hay ajustes que veremos más adelante que, a medida que se habla, permiten la transcripción continua y los resultados intermedios.

🔉 Exploradores web a base de voz en línea

Serie de libros (LNCS, volumen 5616) Resumen En nuestro trabajo presentamos los resultados de la evaluación de VoiceBrowse, un marco interactivo que permite a los usuarios acceder a contenidos y servicios mediante el control por voz desde Internet. Con respecto a su eficacia y juicio de dos variantes del sistema que varían en la iniciativa de diálogo, equiparamos dos clases de usuarios, los principiantes y los experimentados en informática. También analizamos la usabilidad de los sistemas tras un uso prolongado (simulado por quince minutos de práctica). Descubrimos que incluso los usuarios novatos de la máquina saben cómo hablar con el dispositivo desde el principio, lo que entra en conflicto con las suposiciones de la literatura asociada. Antes y después de la instrucción, las aplicaciones para novatos funcionan tan bien como los usuarios experimentados de ambos sistemas. Antes y después de la práctica, también se comparan las decisiones de la máquina. Palabras clavenavegación web sistemas de diálogo hablado experiencia en Internet Descargar sistemas de diálogo hablado

🤩 Exploradores web a base de voz 2020

La última versión de Popular Voice, su conjunto de datos de voz transcritos de código abierto, ha sido publicada hoy por Mozilla para que startups, investigadores y aficionados puedan crear aplicaciones, servicios y dispositivos con voz. Popular Voice comprende actualmente más de 7.226 horas acumuladas de datos de voz aportados en 54 idiomas diferentes, frente a las 1.400 horas de febrero de 2019 en 18 idiomas.
Popular Voice se compone no solo de fragmentos de voz, sino también de metadatos enviados voluntariamente, como las edades, los géneros y los acentos de los hablantes, útiles para el entrenamiento de los motores de voz. Está diseñado para incorporarse a DeepSpeech, un conjunto mantenido por la Comunidad de Aprendizaje Automático de Mozilla de motores de voz a texto de código abierto y modelos cualificados.
También se ha publicado hoy la primera sección de objetivos de conjuntos de datos de Mozilla, cuyo objetivo es recopilar datos de voz para fines y casos de uso particulares. Esta sección contiene los dígitos del «cero» al «nueve», así como las frases «sí», «no», «hola» y «Firefox», pronunciadas colectivamente en 18 idiomas por 11.000 personas durante 120 horas. Anteriormente, Megan Branson, jefa de producto de Common Voice, dijo que se utilizará parcialmente para la investigación de palabras de vigilia para «Hey Firefox».

🧔 Exploradores web a base de voz online

Para ello, la Web Speech API cuenta con una interfaz de control clave, SpeechRecognition, además de una serie de interfaces estrechamente relacionadas para la representación de la gramática, el rendimiento, etc. La mayoría de los sistemas operativos modernos ofrecen un sistema de reconocimiento de voz para la emisión de comandos de voz. Piense en MacOS Dictation, iOS Siri, Windows 10 Cortana, Android Voice, etc.
Nota: El uso del reconocimiento de voz en una página web requiere un motor de reconocimiento basado en el servidor para ciertos navegadores, como Chrome. Para el procesamiento del reconocimiento, el audio se envía a un servidor web, por lo que no funcionará sin conexión.
DemoHemos escrito una demo llamada Speech color changeer para mostrar el uso sencillo del reconocimiento de voz en la web. Puedes decir una palabra clave de color HTML cuando la pantalla es tocada/clicada, y el color de fondo de la aplicación cambiará a ese color.
Puedes clonar (o importar directamente) el repositorio de Github para ejecutar la prueba, abrir el archivo de índice HTML en un navegador de escritorio compatible, o navegar a la URL de la demostración en vivo en un navegador móvil compatible como Chrome. Soporte del navegadorEl soporte del reconocimiento de voz de la API de Web Speech está actualmente restringido a Chrome para escritorio y Android. Chrome lo soporta desde la versión 33, pero con prefijos Tenemos un título, un párrafo de instrucciones y un div en el que emitimos mensajes de diagnóstico.