El reconocimiento de voz de Windows (WSR) es un reconocimiento de voz desarrollado por Microsoft para Windows Vista que permite utilizar comandos de voz para controlar la interfaz de usuario del escritorio, dictar texto en documentos electrónicos y correo electrónico, navegar por sitios web, ejecutar métodos abreviados de teclado y manejar el cursor del ratón. Admite macros personalizadas para realizar tareas adicionales o complementarias.
Reconocimiento de voz de Windows | ||
---|---|---|
Información general | ||
Tipo de programa | Reconocimiento de voz | |
Desarrollador | Microsoft | |
Lanzamiento inicial | 30 de noviembre de 2006 | |
WSR es una plataforma de reconocimiento del habla procesada localmente; no depende de la computación en nube para la precisión, el dictado o el reconocimiento, sino que se adapta en función de contextos, gramáticas, muestras de habla, sesiones de formación y vocabularios. Ofrece un diccionario personal que permite a los usuarios incluir o excluir palabras o expresiones del dictado y grabar pronunciaciones para aumentar la precisión del reconocimiento. También admite modelos lingüísticos personalizados.
Con Windows Vista, WSR se desarrolló para formar parte de Windows, ya que antes el reconocimiento de voz era exclusivo de aplicaciones como el Reproductor de Windows Media. Está presente en Windows 7, Windows 8, Windows 8.1, Windows RT, Windows 10 y Windows 11.
Microsoft estuvo involucrada en la investigación del reconocimiento y la síntesis del habla durante muchos años antes de WSR. En 1993, Microsoft contrató a Xuedong Huang de la Universidad Carnegie Mellon para dirigir sus esfuerzos de desarrollo del habla; la investigación de la empresa condujo al desarrollo de la API del habla (SAPI) introducida en 1994.[1] El reconocimiento del habla también se había utilizado en productos anteriores de Microsoft. ¡Office XP y Office 2003 ofrecían funciones de reconocimiento de voz entre Internet Explorer y las aplicaciones de Microsoft Office;[2] también permitían funciones de voz limitadas en Windows 98, Windows Me, Windows NT 4.0 y Windows 2000.[3]Windows XP Tablet PC Edition 2002 incluía funciones de reconocimiento de voz con el panel de entrada de Tablet PC,[4][5]y Microsoft Plus! para Windows XP habilitaba comandos de voz para el Reproductor de Windows Media. [6]Sin embargo, todos ellos requerían la instalación del reconocimiento de voz como componente independiente; antes de Windows Vista, Windows no incluía un reconocimiento de voz integrado o amplio.[5] Office 2007 y las versiones posteriores dependen de WSR para los servicios de reconocimiento de voz.[7]
En WinHEC 2002, Microsoft anunció que Windows Vista (cuyo nombre en clave es "Longhorn") incluiría avances en el reconocimiento de voz y en funciones como la compatibilidad con matrices de micrófonos,[8]como parte de un esfuerzo por "proporcionar una infraestructura de audio de calidad consistente para el reconocimiento natural (continuo) de voz y el mando y control (discreto)". [9]"Bill Gates declaró durante el PDC 2003 que Microsoft "incorporaría capacidades de voz al sistema: un gran avance para ello en “Longhorn”, tanto en reconocimiento como en síntesis, en tiempo real";[10][11] y las versiones preliminares durante el desarrollo de Windows Vista incluían un motor de voz con funciones de entrenamiento.[12]En una presentación para desarrolladores del PDC 2003 se afirmaba que Windows Vista incluiría también una interfaz de usuario para la respuesta y el control del micrófono, así como funciones de configuración y formación del usuario.[13] Microsoft aclaró hasta qué punto se integraría el reconocimiento del habla al afirmar en un kit de desarrollo de software previo al lanzamiento que "los escenarios comunes del habla, como los menús y botones habilitados para el habla, se habilitarán en todo el sistema".[14]
Durante WinHEC 2004, Microsoft incluyó WSR como parte de una estrategia para mejorar la productividad en los PC móviles.[15][16]Más tarde, en WinHEC 2005, Microsoft hizo hincapié en la accesibilidad, los nuevos escenarios de movilidad, la compatibilidad con idiomas adicionales y las mejoras en la experiencia de usuario del habla. A diferencia del soporte de voz incluido en Windows XP, que estaba integrado en el Panel de Entrada del Tablet PC y requería cambiar entre los modos de Comando y Dictado, Windows Vista introduciría una interfaz dedicada para la entrada de voz en el escritorio y unificaría los modos de voz separados;[17]anteriormente los usuarios no podían decir un comando después de dictar o viceversa sin cambiar primero entre estos dos modos.[18]Windows Vista Beta 1 incluía reconocimiento de voz integrado.[19] Para incentivar a los empleados de la empresa a que analizaran el WSR en busca de fallos de software y aportaran sus comentarios, Microsoft ofreció a sus probadores la oportunidad de ganar un modelo Premium de la Xbox 360.[20]
Durante una demostración realizada por Microsoft el 27 de julio de 2006 -antes de la salida a fabricación (RTM) de Windows Vista- se produjo un incidente notable relacionado con WSR que dio lugar a una salida no intencionada de "Querida tía, vamos a poner así que doble el asesino eliminar seleccionar todo" cuando varios intentos de dictado dieron lugar a errores de salida consecutivos;[21] [22]el incidente fue objeto de burla significativa entre los analistas y periodistas presentes en la audiencia,[23][24]a pesar de que otra demostración para la gestión de aplicaciones y la navegación fue un éxito.[21]Microsoft reveló que estos problemas se debían a un fallo en la ganancia de audio que hacía que el reconocedor distorsionara las órdenes y los dictados; el fallo se solucionó antes del lanzamiento de Windows Vista.[25]
Los informes de principios de 2007 indicaban que WSR es vulnerable a los atacantes que utilizan el reconocimiento de voz para operaciones maliciosas reproduciendo ciertos comandos de audio a través de los altavoces de un objetivo;[26][27] fue la primera vulnerabilidad descubierta tras la disponibilidad general de Windows Vista.[28]Microsoft declaró que, aunque un ataque de este tipo es teóricamente posible, una serie de factores atenuantes y requisitos previos limitarían su eficacia o lo impedirían por completo: un objetivo necesitaría que el reconocedor estuviera activo y configurado para interpretar correctamente tales comandos; los micrófonos y los altavoces tendrían que estar activados y a niveles de volumen suficientes; y un ataque requeriría que el ordenador realizara operaciones visibles y produjera retroalimentación audible sin que los usuarios se dieran cuenta. El control de cuentas de usuario también prohibiría la realización de operaciones privilegiadas.[29]
WSR se ha actualizado para utilizar Microsoft UI Automation y su motor utiliza ahora la pila de audio WASAPI, lo que mejora sustancialmente su rendimiento y permite la cancelación de eco, respectivamente. El recolector de documentos, que puede analizar y recopilar texto en correos electrónicos y documentos para contextualizar los términos del usuario, ha mejorado su rendimiento y ahora se ejecuta periódicamente en segundo plano, en lugar de hacerlo sólo tras el inicio del reconocedor. El modo de suspensión también ha experimentado mejoras de rendimiento y, para abordar los problemas de seguridad, el reconocedor se apaga por defecto después de que los usuarios digan "dejar de escuchar" en lugar de suspenderse. Windows 7 también introduce la opción de enviar datos de entrenamiento de voz a Microsoft para mejorar futuras versiones del reconocedor.[30]
Una nueva interfaz de bloc de notas de dictado funciona como un documento temporal en el que los usuarios pueden dictar o escribir texto para su inserción en aplicaciones que no son compatibles con el marco de servicios de texto.[30]Windows Vista anteriormente proporcionaba una "opción de habilitar el dictado en todas partes" para tales aplicaciones.[31]
WSR se puede utilizar para controlar la interfaz de usuario Metro en Windows 8, Windows 8.1 y Windows RT con comandos para abrir la barra Charms ("Pulsa Windows C"); para dictar o mostrar comandos en aplicaciones de estilo Metro ("Pulsa Windows Z"); para realizar tareas en aplicaciones (por ejemplo, "Cambiar a Celsius" en MSN Weather); y para mostrar todas las aplicaciones instaladas listadas por la pantalla de Inicio ("Apps").[32][33]
WSR aparece en la aplicación Configuración a partir de Windows 10 Abril 2018 Update (Versión 1803); el cambio apareció por primera vez en Insider Preview Build 17083.[34]La actualización de abril de 2018 también introduce un nuevo atajo de teclado ⊞ Win + Ctrl + S para activar WSR.[35]
En la versión 22H2 de Windows 11, se añadió una segunda app de Microsoft, Voice Access, además de WSR.[36]En diciembre de 2023 Microsoft anunció que WSR quedaba obsoleto en favor de Voice Access y que podría eliminarse en una futura build o versión de Windows.[37]
WSR permite a un usuario controlar aplicaciones y la interfaz de usuario del escritorio de Windows mediante comandos de voz.[38]Los usuarios pueden dictar texto dentro de documentos, correo electrónico y formularios; controlar la interfaz de usuario del sistema operativo; realizar atajos de teclado; y mover el cursor del ratón.[39]La mayoría de las aplicaciones integradas en Windows Vista pueden ser controladas;[40]las aplicaciones de terceros deben soportar el [39]Text Services Framework para el dictado. [1]Inglés (EE. UU.), Inglés (Reino Unido), francés, alemán, japonés, chino mandarín y español son los idiomas soportados.[41]
Cuando se inicia por primera vez, WSR presenta un asistente de configuración del micrófono y un tutorial interactivo opcional paso a paso que los usuarios pueden comenzar para aprender comandos básicos mientras adaptan el reconocedor a sus características de voz específicas;[39] se estima que el tutorial requiere aproximadamente 10 minutos para completarse.[42]La precisión del reconocedor aumenta con el uso regular, que lo adapta a contextos, gramáticas, patrones y vocabularios.[41][43]También admite modelos lingüísticos personalizados para contextos, fonética y terminología específicos de usuarios de determinados campos profesionales, como el jurídico o el médico.[44] Con Windows Search,[45] el reconocedor también puede recopilar texto de documentos, correos electrónicos y entradas manuscritas de tabletas para contextualizar y desambiguar términos con el fin de mejorar la precisión; no se envía información a Microsoft.[43]
WSR es una plataforma de reconocimiento de voz procesada localmente; no depende de la computación en nube para la precisión, el dictado o el reconocimiento.[46] Los perfiles de voz que almacenan información sobre los usuarios se conservan localmente.[15] Las copias de seguridad y las transferencias de perfiles se pueden realizar a través de Windows Easy Transfer.[47]
La interfaz del WSR consta de un área de estado que muestra instrucciones, información sobre comandos (por ejemplo, si un comando no es escuchado por el reconocedor) y el estado del reconocedor; un medidor de voz muestra información visual sobre los niveles de volumen. El área de estado representa el estado actual del WSR en un total de tres modos, que se enumeran a continuación con sus respectivos significados:
Los colores del botón de modo de escucha del reconocedor denotan sus distintos modos de funcionamiento: azul cuando está escuchando; azul-gris cuando está durmiendo; gris cuando está apagado; y amarillo cuando el usuario cambia de contexto (por ejemplo, del escritorio a la barra de tareas) o cuando se malinterpreta un comando de voz. El área de estado también puede mostrar información personalizada del usuario como parte de las macros de reconocimiento de voz de Windows.[48][49]
Si la palabra o frase que el usuario desea insertar en una aplicación aparece entre los resultados, el usuario puede pronunciar el número correspondiente de la palabra o frase en los resultados y confirmar su elección diciendo "Aceptar" para insertarla en la aplicación.[50]El panel de alternativas también aparece cuando se inician aplicaciones o se pronuncian comandos que hacen referencia a más de un elemento (por ejemplo, decir "Iniciar Internet Explorer" puede mostrar tanto el navegador web como una versión separada con los complementos desactivados). Una entrada ExactMatchOverPartialMatch en el Registro de Windows puede limitar los comandos a elementos con nombres exactos si hay más de una instancia incluida en los resultados.[51]
A continuación se enumeran los comandos WSR más comunes. Las palabras en cursiva indican una palabra que puede sustituirse por el elemento deseado (por ejemplo, "dirección" en "dirección de desplazamiento" puede sustituirse por la palabra "abajo").[40]El comando "empezar a escribir" permite a WSR interpretar todos los comandos de dictado como atajos de teclado.[50]
Comandos de dictado: "Nueva línea"; “Nuevo párrafo”; “Tabulador”; “Palabra literal”; “Número numeral”; “Ir a palabra”; “Ir después de palabra”; “Sin espacio”; “Ir a principio de frase”; “Ir a final de frase”; “Ir a principio de párrafo”; “Ir a final de párrafo”; “Ir a principio de documento” “Ir a final de documento”; “Ir a nombre de campo” (por ejemplo, ir a dirección, cc o asunto). Los caracteres especiales, como la coma, se dictan pronunciando el nombre del carácter especial.[40]
Comandos de navegación:
Atajos de teclado: "Pulsar tecla del teclado"; “Pulsar ⇧ Mayús más a”; “Pulsar b mayúscula”.
Entre las teclas que se pueden pulsar sin dar primero el comando de pulsación están: Backspace, Borrar, Fin, ↵ Entrar, Inicio, Av Pág, Re Pág yTab ↹.[52]
Comandos del ratón: "Clic"; “Clic que”; “Doble clic”; “Doble clic que”; “Marcar”; “Marcar que”; “Clic derecho”; “Clic derecho que”; “MouseGrid”.[40]
Comandos de gestión de ventanas: "Cerrar (alternativamente maximizar, minimizar o restaurar) ventana"; “Cerrar eso”; “Cerrar nombre de aplicación abierta”; “Cambiar de aplicación”; “Cambiar a nombre de aplicación abierta”; “Dirección de desplazamiento”; “Dirección de desplazamiento en número de páginas”; “Mostrar escritorio”; “Mostrar números”.[40]
Comandos de reconocimiento de voz: "Empezar a escuchar"; “Dejar de escuchar”; “Mostrar opciones de voz”; “Abrir diccionario de voz”; “Mover reconocimiento de voz”; “Minimizar reconocimiento de voz”; “Restaurar reconocimiento de voz”[40] En el idioma inglés, los comandos aplicables se pueden mostrar diciendo “What can I say?”[41]Los usuarios también pueden consultar al reconocedor sobre tareas en Windows diciendo “How do I task name” (por ejemplo, “How do I install a printer?”), lo que abre la documentación de ayuda relacionada.[53]
MouseGrid permite a los usuarios controlar el cursor del ratón mediante la superposición de números en nueve regiones de la pantalla; estas regiones se estrechan gradualmente a medida que el usuario pronuncia el número o números de la región en la que debe centrarse hasta llegar al elemento de la interfaz deseado. A continuación, los usuarios pueden emitir comandos como "Hacer clic en el número de la región", que desplaza el cursor del ratón a la región deseada y luego hace clic en ella; y "Marcar el número de la región", que permite seleccionar un elemento (como un icono de ordenador) en una región, sobre el que se puede hacer clic con el comando de clic anterior. Los usuarios también pueden interactuar con varias regiones a la vez.[40]
Las aplicaciones y los elementos de la interfaz que no presentan comandos identificables pueden controlarse pidiendo al sistema que superponga números sobre ellos mediante el comando Mostrar números. Una vez activo, al pronunciar el número superpuesto se selecciona ese elemento para que el usuario pueda abrirlo o realizar otras operaciones.[40] Mostrar números se diseñó para que los usuarios pudieran interactuar con elementos que no son fácilmente identificables.[54]
WSR permite dictar texto en aplicaciones y en Windows. Si se produce un error de dictado, puede corregirse pronunciando "Corregir palabra" o "Corregir eso" y aparecerá el panel de alternativas, que ofrece sugerencias de corrección; estas sugerencias pueden seleccionarse pronunciando el número correspondiente al número de la sugerencia y pronunciando "OK". Si el elemento deseado no aparece entre las sugerencias, el usuario puede pronunciarlo para que aparezca. Alternativamente, los usuarios pueden pronunciar "Deletréalo" o "Lo deletrearé yo mismo" para pronunciar la palabra deseada letra a letra; los usuarios pueden utilizar su alfabeto personal o el alfabeto fonético de la OTAN (por ejemplo, "N como en noviembre") al deletrear.[44]
Se pueden corregir simultáneamente varias palabras de una frase (por ejemplo, si un usuario dice «dictando» pero el reconocedor interpreta esta palabra como "la cosa", el usuario puede decir "corregir la cosa"para corregir ambas palabras a la vez). En inglés se reconocen por defecto más de 100.000 palabras.[44]
Un diccionario personal permite a los usuarios incluir o excluir ciertas palabras o expresiones del dictado.[44]Cuando un usuario añade una palabra que empieza por mayúscula al diccionario, puede especificar si debe ir siempre en mayúscula o si la mayúscula depende del contexto en el que se pronuncie la palabra. Los usuarios también pueden grabar la pronunciación de las palabras añadidas al diccionario para aumentar la precisión del reconocimiento; también se almacenan las palabras escritas con un lápiz óptico en una tableta PC para la función de reconocimiento de escritura a mano de Windows. La información almacenada en un diccionario se incluye como parte del perfil de voz del usuario.[43] Los usuarios pueden abrir el diccionario de voz pronunciando el comando "mostrar diccionario de voz".
WSR admite macros personalizadas a través de una aplicación complementaria de Microsoft que permite comandos adicionales de lenguaje natural.[55][56] Como ejemplo de esta funcionalidad, una macro de correo electrónico publicada por Microsoft permite un comando de lenguaje natural en el que un usuario puede decir "enviar correo electrónico a contacto sobre asunto", lo que abre Microsoft Outlook para redactar un nuevo mensaje con el contacto designado y el asunto insertados automáticamente.[57] Microsoft también ha publicado macros de ejemplo para el diccionario de voz,[58]para el Reproductor de Windows Media,[59]para Microsoft PowerPoint,[60] para la síntesis de voz,[61] para cambiar entre varios micrófonos,[62] para personalizar varios aspectos de la configuración del dispositivo de audio, como los niveles de volumen,[63]y para consultas generales en lenguaje natural como "¿Cuál es la previsión meteorológica? "[64] "¿Qué hora es?"[61] y "¿Qué fecha es?"[61] Las respuestas a estas preguntas del usuario se responden con la voz activa de texto a voz de Microsoft instalada en la máquina.
Aplicación o artículo | Ejemplos de macrofrases (la cursiva indica palabras sustituibles) | ||||||
---|---|---|---|---|---|---|---|
Microsoft Outlook | Enviar correo electrónico | Enviar correo electrónico a | Enviar correo electrónico a Makoto | Enviar correo electrónico a Makoto Yamagishi | Enviar correo electrónico a Makoto Yamagishi sobre | Enviar correo electrónico a Makoto Yamagishi sobre la reunión de esta semana | |
Microsoft PowerPoint | Siguiente diapositiva | Diapositiva anterior | Siguiente | Anterior | Avanzar 5 diapositivas | Retroceder 3 diapositivas | Actualizar los contactos de correo electrónico de Outlook |
Windows Media Player | Siguiente pista | Canción anterior | Tocar Beethoven | Toca algo de Mozart | Reproducir el CD que tiene En la sala del rey de la montaña | Reproducir algo escrito en 1930 | Ir a la diapositiva 8 |
Micrófonos en Windows | Micrófono | Cambiar de micrófono | Micrófono Array | Cambiar a Línea | Cambia a Conjunto de Micrófonos | Cambiar a micrófono de línea | Pausar la música |
Niveles de volumen en Windows | Silenciar los altavoces | Desactivar los altavoces | Apagar el audio | Subir el volumen | Sube el volumen 2 veces | Bajar el volumen un 50 | Cambiar al micrófono Array |
Diccionario de voz WSR | Exportar el diccionario de voz | Añadir una pronunciación | Añadir ese [texto seleccionado] al diccionario de voz | Bloquear ese [texto seleccionado] del diccionario de voz | Quitar ese [texto seleccionado] | [Texto seleccionado] suena como... | Ajustar el volumen a 66
¿Cómo suena [texto seleccionado]? |
Síntesis de voz | Lea ese [texto seleccionado] | Leer los 3 párrafos siguientes | Leer la frase anterior | Por favor, deje de leer | ¿Qué hora es? | ¿Qué fecha es hoy? | Dime la previsión del tiempo en Redmond |
Los usuarios y desarrolladores pueden crear sus propias macros basadas en transcripción y sustitución de texto; ejecución de aplicaciones (con soporte para argumentos de línea de comandos); atajos de teclado; emulación de comandos de voz existentes; o una combinación de estos elementos. Se admiten XML, JScript y VBScript.[50]Las macros pueden limitarse a aplicaciones específicas[65] y las reglas para las macros pueden definirse mediante programación.[57] Para que una macro se cargue, debe estar almacenada en una carpeta de macros de voz dentro del directorio Documentos del usuario activo. Todas las macros están firmadas digitalmente de forma predeterminada si se dispone de un certificado de usuario para garantizar que los comandos almacenados no sean alterados o cargados por terceros; si no se dispone de un certificado, un administrador puede crear uno.[66]Los niveles de seguridad configurables pueden prohibir que se carguen macros no firmadas; solicitar a los usuarios que firmen las macros tras su creación; y cargar macros no firmadas.[65]
A partir de 2017 WSR utiliza Microsoft Speech Recognizer 8.0, la versión introducida en Windows Vista. Para el dictado, Mark Hachman, editor jefe de PC World, encontró que tenía una precisión del 93,6% sin entrenamiento, una tasa que no es tan precisa como el software de la competencia. Según Microsoft, la tasa de precisión cuando está entrenado es del 99%. Hachman opinó que Microsoft no discute públicamente la función debido al incidente de 2006 durante el desarrollo de Windows Vista, con el resultado de que pocos usuarios sabían que se podían dictar documentos dentro de Windows antes de la introducción de Cortana.[42]