1

Jon Rojí: “La voz es solo un camino para hacer la relación máquina-humano más natural”

1

Según prevé Jon Rojí, Frontend Architect en Sngular, las búsquedas por voz trasformarán el posicionamiento SEO

Se define como un tipo de “gustos sencillos” y apasionado del JavaScript. Jon Rojí comparte su pasión por las arquitecturas web, propiciando, como él mismo indica, “historias de amor estricto entre desarrolladores y código”. Estudió ingeniería informática en la Universidad de Deusto y actualmente trabaja como Fronted Architect en Sngular, una empresa nacida de la unión de compañías líderes en tecnología e innovación. Experto en asistentes virtuales para facilitar la navegación en web y ante el impacto que están teniendo los interfaces de voz en las búsquedas en Internet. El 14 y 15 de marzo Rojí fue uno de los ochenta ponentes de la séptima edición del T3chFest, la feria de informática y nuevas tecnologías celebrada en la Universidad Carlos III de Madrid. Aprovechando la temática de su charla sobre “asistentes para crear un mundo web adaptado”, nos cuenta para Next Media algunas herramientas y desarrollos disponibles para que los medios de comunicación generen contenido adaptado a las búsquedas por voz y logren un buen posicionamiento.

a82d9b9f-cd68-4187-97fe-e15478c44536

 

Actualmente estamos viviendo la expansión de los asistentes virtuales. ¿Con qué objetivo crees que han nacido las interfaces de voz?

Buscan aportar otro tipo de conexión con el usuario para aquellos contextos en los que las herramientas visuales o táctiles no son suficientes. Cada día estamos más conectados y tenemos la necesidad de realizar consultas o buscar información en más lugares. La voz es una herramienta natural y polivalente que puede ayudarnos a relacionarnos con la tecnología de una forma más concisa y cómoda.

¿En qué nivel de desarrollo se encuentran?

Creo que estamos en un punto muy potente y bonito desde la parte de desarrollo, ya que contamos con tecnologías de reconocimiento de voz e interpretación del significado muy potentes, con las que poco a poco se van a ir creando aplicaciones y herramientas muy interesantes. Las tecnologías para estos desarrollos están ya disponibles, con lo que solo hacen falta buenas ideas y saber orientar la comunicación.

¿Qué pronosticas para la siguiente generación de asistentes de voz inteligentes?

Es complicado saberlo al ritmo que avanza la ciencia. Hoy por hoy ya existen algunos asistentes de voz capaces de pasar el test de Turing y no ser reconocidos como conversadores artificiales. La voz es solo un camino para hacer la relación máquina-humano más natural, por lo que creo que se seguirá avanzando en el mismo camino, con reconocimiento de imágenes, gestos, generación de lenguaje natural autónomo…

¿Cuál es el reto principal al que se enfrenta esta industria ahora mismo? ¿Consideras que es todavía una tecnología inmadura?

Desde mi punto de vista, lo complicado al desarrollar este tipo de aplicaciones es el UX (Experiencia de Usuario). Estamos muy acostumbrados a trabajar con usuarios a nivel visual, presentarle una información y dejarle escoger, pero con los asistentes de voz no se puede funcionar igual. La información que presentamos debe ser más condensada y se debe presentar en formato de conversación, por lo que tiene que ser una UX totalmente distinta. La tecnología como tal no creo que sea inmadura, pero sí todo lo que lo rodea. Para crear entornos webs accesibles e interesantes, hemos tardado años. Puede pasar mucho tiempo hasta que sepamos cómo presentar y superar correctamente barreras que ya hemos pasado a través de interfaces, como puede ser la identificación a través de la voz.

¿Podemos utilizar estas tecnologías para hacer más fácil la navegación en web?

Totalmente, y creo que ese es el camino. Actualmente tenemos las tecnologías y las capacidades para hacer que las webs sean navegables por voz. El desafío está en la creación del diálogo y en saber cómo comunicar la información clave de nuestras webs. Una sobrecarga de información es mucho más molesta a través de los oídos que visualmente.

Actualmente las búsquedas de voz a través de móvil suponen un 20% del total y se prevé que en 2021 alcancen el 50%. El SEO está recibiendo el impacto de los servicios de reconocimiento por voz, los cuales tienen cada vez más y más usuarios. ¿La búsqueda por voz transformará el posicionamiento SEO?

Aunque el texto final sea el mismo, sí que habrá que empezar a pensar en cómo se busca a través de la voz. Cuando escribimos tendemos a utilizar términos concretos, como los nombres de las personas que buscamos, aunque queramos saber únicamente su edad, porque cada pulsación nos cuesta un esfuerzo. En cambio, las palabras con la voz nos salen más “baratas” ya que estamos acostumbrados a expresarnos a través de ella. Los términos de búsqueda pasarán a ser más específicos, pasando de “Pepito Grillo edad” a “cuantos años tiene Pepito grillo”. Además, con la voz tendemos a utilizar mucho el contexto sin darnos cuenta. Si mi primera búsqueda era “Pepito grillo edad” la segunda puede ser “en qué año nació”. Obviamente, estamos haciendo referencia a Pepito Grillo, pero sin decirlo explícitamente. Muchos buscadores ya están trabajando en esta clase de búsquedas con contexto previo y da la sensación de que estos se volverán mucho más inteligentes y comprensivos con el paso del tiempo.

Los medios tendrán que tener en cuenta lo que el usuario busca a través de la voz, dar respuestas directas y concisas para lograr un buen posicionamiento

¿Si los usuarios han cambiado su manera de realizar las consultas, también deberá cambiar la manera con la que los medios den respuestas?

A la hora de devolver información en terminales móviles o Smart Tv, los asistentes aún se basan en medios visuales, presentando tarjetas de noticias o artículos y únicamente usando la voz para confirmar los resultados. En los casos en los que la respuesta sea exclusivamente de voz, creo que los resultados van a tener que cambiar, para aportar únicamente la información más relevante del artículo o titular. Además, se debe pensar en la reacción del usuario. No tiene sentido leer 5 titulares de golpe, si no que quizás haya que ir de uno en uno, dando al usuario la oportunidad de saber más o continuar. Una buena estrategia, si al usuario le interesa el artículo, puede ser ofrecerle abrir ese artículo en su dispositivo, ya que es complicado adaptar todo un artículo a una “conversación interesante”.

¿Cómo tendrán que ser las respuestas para estar entre esos resultados inmediatos y directosy lograr un buen posicionamiento?

A la hora de posicionarse, los medios se encuentran también ante otro gran desafío, ya que los primeros puestos serán mucho más valiosos si solo podemos saber de ellos a través del oído. Nuestra vista está acostumbrada en web a ignorar resultados no interesantes, pero para saber si no nos interesa con el oído, debemos prestar atención, lo cual hace que nos cansemos antes si lo que buscamos no se encuentra entre los primeros puestos.

Creo que las respuestas a preguntas como qué y quién, cobrarán mucho más valor. Así mismo, los buscadores intentarán responder a las preguntas realizadas de una forma mucho más directa, por lo que la búsqueda de los términos que respondan a estas preguntas de la manera más exacta se verán recompensados. Sobre todo, los medios tendrán que tener en cuenta lo que el usuario busca a través de la voz, respuestas directas y concisas. Deberá haber un gran trabajo previo para intentar comprender y anticipar cómo el usuario va a preguntar por el contenido. Eso implica pensar en cómo van a expresarse esas personas, cómo suele preguntar el target del medio, cuál es la pregunta clave (qué, quién, cuál). Titulares mucho más concisos y keywords más concretas ayudarán a mejorar el posicionamiento de los medios.

¿La era de la voz trae consigo la necesidad de dotar a los medios de comunicación de una personalidad sonora que logre un vínculo indisoluble entre el usuario y el asistente virtual?  

La relación con el asistente puede ser un punto clave para distinguirse de otros medios, al igual que cada informativo de televisión tiene su voz, el cómo se perciba el asistente o narrador de las noticias puede ser un punto clave para que un usuario se decante por un medio u otro. Así mismo, el tono con el que se lee la noticia puede dar un enfoque u otro a la misma, por lo que también es importante cuidarlo, y estudiar cómo afecta el mismo a los usuarios habituales. Es importante el dotar de ciertas características a los asistentes. Cuando las marcas empiecen a entrar en juego, la personalidad de un asistente u otro puede dar mucho que hablar.

¿La radio será el medio que más salga beneficiado? ¿De qué manera la prensa y la televisión pueden adaptarse?

La radio y los creadores de contenido serán los principales beneficiados ya que están acostumbrados a comunicar contenido de una forma más amena e interesante que a través de un medio visual. Aun así, la prensa tendrá mucha cabida, debido a que el consumo de información de manera visual puede aportar más información y dejarte verla a tu ritmo. En los próximos años, muchos medios optarán por leer únicamente titulares o secciones, y dar la opción al usuario de abrirlo en dispositivos físicos para que el consumo sea de esta manera.

El cómo se perciba el asistente o narrador de las noticias puede ser un punto clave para que un usuario se decante por un medio u otro

¿Dejará de tener sentido el trabajar nuestro SEO con short-tail-keywords (palabras clave de cola corta)?

Seguirá teniendo sentido en ciertos casos, pero es cierto que perderán valor. Actualmente utilizamos este tipo de búsquedas porque cada pulsación o cada palabra nos cuesta un esfuerzo. La voz es una herramienta que estamos acostumbrados a usar y nos cuesta usar mucho menos. Por esta razón, las búsquedas pasarán a ser no solo los términos concretos, si no la intención que buscamos. En vez de “huevos revueltos”, preguntaremos “cómo hacer huevos revueltos”. Esto tendrá mucho impacto en el SEO y en el contenido que ofrecerán las webs.

Si todas las experiencias de interfaz de usuario por voz están soportadas por inteligencia artificial. ¿Favorecerá eso a los medios para poder seleccionar grandes cantidades de datos conversacionales y traducirlos en comportamientos predictivos, creando así unos contenidos personalizados?

No es nada que no se esté haciendo ahora. Al fin y al cabo, una búsqueda por voz se transcribe en texto, y eso en última instancia es con lo que se busca. El hecho de también se almacena esa información en formato sonoro es muy interesante para que el día de mañana se pueda correlacionar tono, ánimo, sexo y demás parámetros identificables a través de la voz para la presentación de resultados.

Y en cuanto al sistema de financiación. ¿La publicidad tiene cabida en los asistentes virtuales o las marcas deberán dar un giro hacia la vocación de servicio?

Creo que la publicidad explicita y no relacionada, como los banners, popups etc… tiene poco que hacer aquí, ya que el usuario va a estar prestando más atención, y por tanto le molestará más si lo que obtiene no es algo que él haya pedido. Creo que cobrará más importancia el contenido patrocinado, el product placement y otro tipo de acciones publicitarias.

¿SEM dejará de existir? ¿Se deberá comunicar al usuario que el contenido está patrocinado?

Es un desafío interesante que deben afrontar los buscadores al hablar de búsquedas de voz. Éticamente, se debería comunicar que el contenido que se va a presentar es patrocinado para que el usuario sea consciente, pero eso a la vez seguramente perjudique el uso de ese buscador, ya que la información que se busca a través de la voz es directo y concreto.

Otra de las preocupaciones de los usuarios es el tema de la privacidad. ¿Crees que si los asistentes ofrecen un justo intercambio de valores los usuarios aceptaran estar vigilados por el Big Brother?

Hoy por hoy, le damos acceso a nuestra voz a grandes corporaciones a cambio de comodidad, y lo hacemos sin pensar y eso puede ser un gran problema. La voz es algo a lo que aún no le hemos puesto precio, y estamos renunciando a ella sin pensarlo. De momento, las acciones que podemos realizar con nuestra voz son limitadas, pero a medida que crezcan (identificación por voz, análisis de sentimiento…) habrá que ir estableciendo límites a esas “donaciones” que realizamos día tras día.

La voz es algo a lo que aún no le hemos puesto precio, y estamos renunciando a ella sin pensarlo

¿Deberíamos, por lo tanto, poner limitaciones legales o éticas a su desarrollo?

Totalmente. La voz es un recurso delicado. Hoy por hoy, con la mayoría de los asistentes, estamos registrando y dando permiso para el envío de nuestra voz. Al ritmo que avanzan los sintetizadores y la inteligencia artificial, el día de mañana nuestra voz puede ser perfectamente suplantada por un sistema artificial. Así mismo, hay que pensar en qué información debemos limitar a través de la voz. Si en un sitio público nuestro asistente comienza a soltar información delicada de nuestros contactos, podemos estar violando su intimidad sin darnos cuenta.

Comentarios

1
1

Utilizamos 'cookies' propias y de terceros, no exceptuadas, a fin de mejorar nuestros servicios, la experiencia de navegación mediante el análisis de tus hábitos de navegación y mostrarle publicidad relacionada con sus preferencias y hábitos de navegación. En los casos que no manifiestes expresamente si aceptas o no la instalación de las cookies pero continuas navegando por la web, entendemos que habrás dado tu consentimiento y que aceptas su uso e instalación. Puedes obtener más información o bien como cambiar la configuración consultando nuestra Política de Cookies.