He decidido no escribir esta columna, sino dictársela a un teléfono. Ups. Ya hay un error en la primera líneO... Ups, otra vez... Seguiré tratando hasta que lo consiga.
Cambié de opinión, mejor vuelvo al teclado de la
computadora hasta que el aparato logre identificar palabras como
"escribir" y "línea".
Por desgracia, cuando se trata de
aparatos electrónicos diseñados para reaccionar a ordenes habladas, las
expectativas aún no han sido colmadas.
"Este es el año de las tecnologías del habla".
Esa frase me la han dicho muchos ejecutivos de relaciones públicas
durante convenciones de tecnología desde el año 1997.
Sus pruebas demostraban que los aparatos funcionaban. Pero todo cambiaba cuando intentaba hacerlo solo.
Por eso me sorprendí gratamente durante una
reciente visita a la sede de la empresa de tecnología del habla Nuance
Comunicaciones, cerca de Boston, cuando el alto ejecutivo Daniel
Faulkner fue honesto sobre la precisión de los sistemas que vende.
"Nunca captará el 100%. Con los seres humanos no existe el 100%", dijo.
"Es posible que cuando llame por teléfono a mis
familiares, tenga que repetir varias veces lo que esté diciendo por
distintas razones: puede que haya ruido de fondo, que la línea tenga
problemas... todos esos asuntos se aplican a cualquier sistema
automatizado".
Sin embargo, en los dos últimos años se han
visto mejoras sorprendentes. La precisión de muchas aplicaciones supera
ya en muchos casos el 90%. Y ese desarrollo podría acelerarse en el
corto plazo debido a dos nuevos aspectos.
Mejoras
En primer lugar, las recientes aplicaciones
móviles -como Dragon Go y Siri- están proporcionando a Nuance un flujo
enorme de datos para su estudio.
Cada vez que le hablas al dispositivo, las
palabras se cargan y se almacenan en los servidores. Eso significa que
Nuance puede analizar la entonación, los acentos e idiomas en detalle y
mejorar constantemente los algoritmos de reconocimiento.
"Nunca captará el 100%. Con los seres humanos no existe el 100%"
Daniel Faulkner, alto ejecutivo de Nuance
En segundo lugar, la gente está cada vez más
acostumbrada a hablarle "correctamente" a sus teléfonos y navegadores
web. Los usuarios descubren con el tiempo que el tipo de frases, el
ruido de fondo y el ritmo, juegan un papel importante en el éxito de la
operación hablada.
Sin embargo, todavía hay áreas de nuestra vida en las que eso no funciona.
Los vehículos, por ejemplo, rara vez están
conectados a internet o a servidores remotos. Eso significa que el
procesador de la computadora ya instalado por el fabricante es el que se
encarga del reconocimiento de voz.
Lamentablemente, con frecuencia instalan los más
baratos y lentos, que no fueron diseñados para realizar operaciones
intensivas como el análisis de la palabra hablada.
Eso está cambiando de acuerdo a Vlad Sejnoha,
director de tecnología de Nuance, quien dice que los fabricantes de
automóviles han tenido que reinventarse como fabricantes de productos
electrónicos de consumo.
"Tienen que construir un buen carro, pero
también deben atraer al usuario que tiene expectativas de conexión
permanente, así como acceso a las canciones más recientes y la capacidad
de conectarse y comunicarse con sus amigos. Los empresarios necesita
conectividad y comunicación constante en sus autos".
Analfabetismo
Por supuesto que los fabricantes de televisores,
microondas, refrigeradores y aspiradoras tendrán que ver como pueden
añadir tecnología del habla a sus dispositivos. Si logra funcionar con
eficacia, el sistema activado por el habla es normalmente una opción
mucho más conveniente que presionar botones.
La fabricación de dispositivos de lujo que
responden a la palabra hablada es una parte muy pequeña de la
investigación de tecnologías vocales.
Una gran cantidad está invirtiéndose en lograr
un cubrimiento lingüístico global. Nuance, por ejemplo, ha cubierto 13
de los 22 idiomas que se hablan en India y está trabajando en los otros
nueve.
La tecnología del habla también puede ser la
mejor opción en muchas aplicaciones usadas en áreas con altas tasas de
analfabetismo. El problema será cómo recoger los datos, pues el
desarrollo de algoritmos depende de una enorme base de datos creada con
las muestras recogidas en situaciones de la vida real.
En los países desarrollados es fácil, gracias a
los teléfonos inteligentes. Pero en lugares en donde la gente no puede
permitirse estos dispositivos, la oportunidad para la recolección de
datos se reduce.
En algunos países se considera de mala educación
interactuar con clientes a través de un sistema automático de voz, que
también constituye otra fuente de muestreo.
Falta tiempo
Es posible que un hotel de lujo que quiera
instalar un ascensor que funcione por voz decida incorporar todos los
idiomas del mundo en su sistema, corriendo el riesgo de alienar a
algunos de sus huéspedes. El mismo razonamiento podría aplicarse a una
aerolínea global que instala un sistema de chequeo de pasajeros que se
controle con el habla.
Peter Mahoney, director de marketing de Nuance,
afirma que la tecnología del habla ya está teniendo un gran impacto en
ciertas áreas. Incluso, irónicamente, en aquellas profesiones con
vocabulario complejo, como medicina y derecho. En esos casos el software
puede diferenciar muy bien entre las palabras.
"Estamos viendo que una gran cantidad de
personas utilizan una tecnología llamada "escritura de la voz". Usan
Dragón Dictate y utilizan a menudo algún tipo de micrófono privado.
"Dictan todo lo que está pasando. Lo dicen con
mucha rapidez y con un código especial para que la máquina pueda
identificar quién está diciendo qué".
Pero hay un aspecto de la tecnología de voz que ha demostrado ser el más difícil de vencer: las voces múltiples.
La tecnología de voz no funciona si dos personas
hablan al mismo tiempo. Si varias personas están llevando a cabo una
reunión en una misma habitación, se convierte en una tecnología inútil.
Los investigadores esperan que un día haya una
solución para eso, pero por ahora están satisfechos con tratar de
acercarse lo más que puedan al 100% de precisión para el caso en que una
sola persona esté hablando.
Y ese es un proyecto que aún tomará tiempo.
No hay comentarios:
Publicar un comentario
Tu opinion nos ayuda a crecer