He decidido no escriTir esta columna, sino dictársela a un teléfono. Ups. Ya hay un error en la primera líneO... Ups, otra vez... Seguiré tratando hasta que lo consiga.
Por desgracia, cuando se trata de aparatos electrónicos diseñados para reaccionar a ordenes habladas, las expectativas aún no han sido colmadas.
"Este es el año de las tecnologías del habla". Esa frase me la han dicho muchos ejecutivos de relaciones públicas durante convenciones de tecnología desde el año 1997.
Sus pruebas demostraban que los aparatos funcionaban. Pero todo cambiaba cuando intentaba hacerlo solo.
Por eso me sorprendí gratamente durante una reciente visita a la sede de la empresa de tecnología del habla Nuance Comunicaciones, cerca de Boston, cuando el alto ejecutivo Daniel Faulkner fue honesto sobre la precisión de los sistemas que vende.
"Nunca captará el 100%. Con los seres humanos no existe el 100%", dijo.
"Es posible que cuando llame por teléfono a mis familiares, tenga que repetir varias veces lo que esté diciendo por distintas razones: puede que haya ruido de fondo, que la línea tenga problemas... todos esos asuntos se aplican a cualquier sistema automatizado".
Sin embargo, en los dos últimos años se han visto mejoras sorprendentes. La precisión de muchas aplicaciones supera ya en muchos casos el 90%. Y ese desarrollo podría acelerarse en el corto plazo debido a dos nuevos aspectos.
Mejoras
En primer lugar, las recientes aplicaciones móviles -como Dragon Go y Siri- están proporcionando a Nuance un flujo enorme de datos para su estudio.Cada vez que le hablas al dispositivo, las palabras se cargan y se almacenan en los servidores. Eso significa que Nuance puede analizar la entonación, los acentos e idiomas en detalle y mejorar constantemente los algoritmos de reconocimiento.
"Nunca captará el 100%. Con los seres humanos no existe el 100%"
Daniel Faulkner, alto ejecutivo de Nuance
Sin embargo, todavía hay áreas de nuestra vida en las que eso no funciona.
Los vehículos, por ejemplo, rara vez están conectados a internet o a servidores remotos. Eso significa que el procesador de la computadora ya instalado por el fabricante es el que se encarga del reconocimiento de voz.
Lamentablemente, con frecuencia instalan los más baratos y lentos, que no fueron diseñados para realizar operaciones intensivas como el análisis de la palabra hablada.
Eso está cambiando de acuerdo a Vlad Sejnoha, director de tecnología de Nuance, quien dice que los fabricantes de automóviles han tenido que reinventarse como fabricantes de productos electrónicos de consumo.
"Tienen que construir un buen carro, pero también deben atraer al usuario que tiene expectativas de conexión permanente, así como acceso a las canciones más recientes y la capacidad de conectarse y comunicarse con sus amigos. Los empresarios necesita conectividad y comunicación constante en sus autos".
Analfabetismo
La fabricación de dispositivos de lujo que responden a la palabra hablada es una parte muy pequeña de la investigación de tecnologías vocales.
Una gran cantidad está invirtiéndose en lograr un cubrimiento lingüístico global. Nuance, por ejemplo, ha cubierto 13 de los 22 idiomas que se hablan en India y está trabajando en los otros nueve.
La tecnología del habla también puede ser la mejor opción en muchas aplicaciones usadas en áreas con altas tasas de analfabetismo. El problema será cómo recoger los datos, pues el desarrollo de algoritmos depende de una enorme base de datos creada con las muestras recogidas en situaciones de la vida real.
En los países desarrollados es fácil, gracias a los teléfonos inteligentes. Pero en lugares en donde la gente no puede permitirse estos dispositivos, la oportunidad para la recolección de datos se reduce.
En algunos países se considera de mala educación interactuar con clientes a través de un sistema automático de voz, que también constituye otra fuente de muestreo.
Falta tiempo
Peter Mahoney, director de marketing de Nuance, afirma que la tecnología del habla ya está teniendo un gran impacto en ciertas áreas. Incluso, irónicamente, en aquellas profesiones con vocabulario complejo, como medicina y derecho. En esos casos el software puede diferenciar muy bien entre las palabras.
"Estamos viendo que una gran cantidad de personas utilizan una tecnología llamada "escritura de la voz". Usan Dragón Dictate y utilizan a menudo algún tipo de micrófono privado.
"Dictan todo lo que está pasando. Lo dicen con mucha rapidez y con un código especial para que la máquina pueda identificar quién está diciendo qué".
Pero hay un aspecto de la tecnología de voz que ha demostrado ser el más difícil de vencer: las voces múltiples.
La tecnología de voz no funciona si dos personas hablan al mismo tiempo. Si varias personas están llevando a cabo una reunión en una misma habitación, se convierte en una tecnología inútil.
Los investigadores esperan que un día haya una solución para eso, pero por ahora están satisfechos con tratar de acercarse lo más que puedan al 100% de precisión para el caso en que una sola persona esté hablando.
Y ese es un proyecto que aún tomará tiempo.
Fuente:BBCMundo
0 comentarios:
Publicar un comentario