BlackberryVzla: ¡Hable alto para que sus aparatos lo oigan!

Algunos teléfonos inteligentes trabajan con tecnología de reconocimiento de voz.

He decidido no escriTir esta columna, sino dictársela a un teléfono. Ups. Ya hay un error en la primera líneO... Ups, otra vez... Seguiré tratando hasta que lo consiga.

Cambié de opinión, mejor vuelvo al teclado de la computadora hasta que el aparato logre identificar palabras como "escribir" y "línea".

Por desgracia, cuando se trata de aparatos electrónicos diseñados para reaccionar a ordenes habladas, las expectativas aún no han sido colmadas.

"Este es el año de las tecnologías del habla". Esa frase me la han dicho muchos ejecutivos de relaciones públicas durante convenciones de tecnología desde el año 1997.

Sus pruebas demostraban que los aparatos funcionaban. Pero todo cambiaba cuando intentaba hacerlo solo.

Las nuevas aplicaciones telefónicas recogen datos que luego pueden analizar las compañías que desarrollan tecnologías del habla.

Por eso me sorprendí gratamente durante una reciente visita a la sede de la empresa de tecnología del habla Nuance Comunicaciones, cerca de Boston, cuando el alto ejecutivo Daniel Faulkner fue honesto sobre la precisión de los sistemas que vende.

"Nunca captará el 100%. Con los seres humanos no existe el 100%", dijo.
"Es posible que cuando llame por teléfono a mis familiares, tenga que repetir varias veces lo que esté diciendo por distintas razones: puede que haya ruido de fondo, que la línea tenga problemas... todos esos asuntos se aplican a cualquier sistema automatizado".

Sin embargo, en los dos últimos años se han visto mejoras sorprendentes. La precisión de muchas aplicaciones supera ya en muchos casos el 90%. Y ese desarrollo podría acelerarse en el corto plazo debido a dos nuevos aspectos.

Mejoras

En primer lugar, las recientes aplicaciones móviles -como Dragon Go y Siri- están proporcionando a Nuance un flujo enorme de datos para su estudio.

Cada vez que le hablas al dispositivo, las palabras se cargan y se almacenan en los servidores. Eso significa que Nuance puede analizar la entonación, los acentos e idiomas en detalle y mejorar constantemente los algoritmos de reconocimiento.

"Nunca captará el 100%. Con los seres humanos no existe el 100%"

Daniel Faulkner, alto ejecutivo de Nuance

En segundo lugar, la gente está cada vez más acostumbrada a hablarle "correctamente" a sus teléfonos y navegadores web. Los usuarios descubren con el tiempo que el tipo de frases, el ruido de fondo y el ritmo, juegan un papel importante en el éxito de la operación hablada.

Sin embargo, todavía hay áreas de nuestra vida en las que eso no funciona.

Los vehículos, por ejemplo, rara vez están conectados a internet o a servidores remotos. Eso significa que el procesador de la computadora ya instalado por el fabricante es el que se encarga del reconocimiento de voz.

Lamentablemente, con frecuencia instalan los más baratos y lentos, que no fueron diseñados para realizar operaciones intensivas como el análisis de la palabra hablada.

Eso está cambiando de acuerdo a Vlad Sejnoha, director de tecnología de Nuance, quien dice que los fabricantes de automóviles han tenido que reinventarse como fabricantes de productos electrónicos de consumo.

"Tienen que construir un buen carro, pero también deben atraer al usuario que tiene expectativas de conexión permanente, así como acceso a las canciones más recientes y la capacidad de conectarse y comunicarse con sus amigos. Los empresarios necesita conectividad y comunicación constante en sus autos".

Analfabetismo

Aún tendremos que esperar para que nuestro refrigerador nos obedezca.

Por supuesto que los fabricantes de televisores, microondas, refrigeradores y aspiradoras tendrán que ver como pueden añadir tecnología del habla a sus dispositivos. Si logra funcionar con eficacia, el sistema activado por el habla es normalmente una opción mucho más conveniente que presionar botones.

La fabricación de dispositivos de lujo que responden a la palabra hablada es una parte muy pequeña de la investigación de tecnologías vocales.

Una gran cantidad está invirtiéndose en lograr un cubrimiento lingüístico global. Nuance, por ejemplo, ha cubierto 13 de los 22 idiomas que se hablan en India y está trabajando en los otros nueve.
La tecnología del habla también puede ser la mejor opción en muchas aplicaciones usadas en áreas con altas tasas de analfabetismo. El problema será cómo recoger los datos, pues el desarrollo de algoritmos depende de una enorme base de datos creada con las muestras recogidas en situaciones de la vida real.

En los países desarrollados es fácil, gracias a los teléfonos inteligentes. Pero en lugares en donde la gente no puede permitirse estos dispositivos, la oportunidad para la recolección de datos se reduce.

En algunos países se considera de mala educación interactuar con clientes a través de un sistema automático de voz, que también constituye otra fuente de muestreo.

Falta tiempo

Los avances tecnológicos harán lucir obsoleto al control remoto.

Es posible que un hotel de lujo que quiera instalar un ascensor que funcione por voz decida incorporar todos los idiomas del mundo en su sistema, corriendo el riesgo de alienar a algunos de sus huéspedes. El mismo razonamiento podría aplicarse a una aerolínea global que instala un sistema de chequeo de pasajeros que se controle con el habla.

Peter Mahoney, director de marketing de Nuance, afirma que la tecnología del habla ya está teniendo un gran impacto en ciertas áreas. Incluso, irónicamente, en aquellas profesiones con vocabulario complejo, como medicina y derecho. En esos casos el software puede diferenciar muy bien entre las palabras.

"Estamos viendo que una gran cantidad de personas utilizan una tecnología llamada "escritura de la voz". Usan Dragón Dictate y utilizan a menudo algún tipo de micrófono privado.

"Dictan todo lo que está pasando. Lo dicen con mucha rapidez y con un código especial para que la máquina pueda identificar quién está diciendo qué".

Pero hay un aspecto de la tecnología de voz que ha demostrado ser el más difícil de vencer: las voces múltiples.

La tecnología de voz no funciona si dos personas hablan al mismo tiempo. Si varias personas están llevando a cabo una reunión en una misma habitación, se convierte en una tecnología inútil.

Los investigadores esperan que un día haya una solución para eso, pero por ahora están satisfechos con tratar de acercarse lo más que puedan al 100% de precisión para el caso en que una sola persona esté hablando.

Y ese es un proyecto que aún tomará tiempo.

Fuente:BBCMundo