Own My Voice, la tecnología de Xiaomi para ayudar a las personas con trastornos del habla

Cada 19 de mayo se conmemora el Día Mundial de Concientización sobre Accesibilidad y durante todo el mes se busca visibilizar la importancia de que millones de personas en el mundo se vean y sientan incluidas. En ese contexto, Xiaomi dio a conocer su proyecto «Own My Voice«, que permite a los destinatarios de voz poseer voces únicas y personalizadas.

El gigante tecnológico presentó su última aplicación de algoritmos avanzados y tecnología de voz de desarrollo propio en el campo de la accesibilidad. Se trata de la tecnología Text-To-Speech, desarrollada por Xiaomi AI Lab, y que se utiliza para generar una voz única y personalizada para un usuario con trastornos del habla.

Los usuarios ahora pueden comunicarse con otros utilizando «su propia voz», en lugar de una típica voz electrónica monótona.

Como parte del proyecto de pre investigación «Own My Voice» dirigido por el Comité Técnico de Xiaomi, este intento exitoso demuestra el compromiso de Xiaomi con «Tech for Good» con lograr su misión de «permitir que todos en el mundo disfruten de una vida mejor a través de soluciones innovadoras». 

¿Por qué Xiaomi lanzó este proyecto?

Xiaomi se preocupa por las personas y se esfuerza por satisfacer sus diversas necesidades a través de la innovación tecnológica, es así que es su camino descubrió el deseo de muchos usuarios con trastornos del habla de poseer sus propias voces para la comunicación diaria y le pidió al equipo del proyecto «Own My Voice» que invitara a un usuario con trastornos del habla como destinatario de la voz.

Zhu Xi, coordinador del tema del Comité de Tecnología sobre Tech for Good, Xiaomi Corporation, dijo: «Estamos entusiasmados de explorar los múltiples valores que nos brinda la innovación tecnológica, como responder a las demandas de los usuarios sobre la identidad propia y la construcción de la identidad». 

¿Cómo llevó a cabo Xiaomi el proyecto?

Para generar la voz más adecuada y personalizada para el destinatario, el equipo del proyecto reclutó a más de 200 voluntarios dentro de Xiaomi para donar sus voces.

Utilizaron el algoritmo de coincidencia de huellas de voz para unir las características de las voces donadas por los voluntarios con las de la voz del destinatario.

A través de este enfoque, encontraron la voz más adecuada como sonido básico de referencia para el destinatario. Teniendo en cuenta la personalización y la protección de la privacidad, la voz real elegida se manipuló con una modificación acústica compleja para formar un sonido de voz nuevo y original.

A continuación, utilizaron la tecnología Text-To-Speech, en un estilo espontáneo, para entrenar el modelo de IA, haciendo que esta nueva voz adquiera gradualmente un ritmo y una entonación naturales que pueden expresar con sinceridad la emoción y el tono de un ser humano.

El proyecto «Own My Voice» combina una variedad de los algoritmos más avanzados con la tecnología de voz desarrollada por Xiaomi para garantizar la especificidad, seguridad y alta autenticidad de la voz sintetizada, creando una nueva idea sobre la síntesis de voz personalizada para usuarios con trastornos del habla.

¿Cuál es la importancia del proyecto?

La columna vertebral de este proyecto es un grupo de expertos en tecnología del habla de Xiaomi AI Lab. Desde 2017, han publicado 37 artículos sobre el habla en las actas de las principales conferencias internacionales, como la Conferencia Internacional sobre Acústica, Habla y Procesamiento de Señales (ICASSP).

El éxito de «Own My Voice» depende principalmente de la tecnología Text-To-Speech de estilo espontáneo.

Esta tecnología de texto a voz de estilo espontáneo esencialmente hace que la voz sintetizada sea como un ser humano real en su entonación, pausa, velocidad y otras características. Esto reemplaza la sensación monótona y antinatural de la voz electrónica por una más natural.

Actualmente, esta tecnología se aplica a muchos dispositivos inteligentes equipados con Xiaoai, el asistente de voz AI de Xiaomi. El proyecto «Own My Voice» muestra que la tecnología Text-To-Speech de estilo espontáneo también puede adoptarse ampliamente en áreas de accesibilidad con el fin de mejorar la experiencia del usuario.

Zhu Xi agregó: «Si notamos y abordamos las necesidades de los grupos minoritarios en una etapa temprana, el proceso de difusión de la tecnología podría acortarse en gran medida. Esto permite que los beneficios de las nuevas tecnologías sean accesibles para los usuarios con necesidades especiales sin demora«.

En el futuro, Xiaomi continuará recibiendo retroalimentación del destinatario de la voz y estudiará más a fondo la viabilidad de este proyecto en un rango más amplio.

Xiaomi seguirá potenciando la accesibilidad a través de tecnología de punta, esforzándose por satisfacer las diversas necesidades de las personas a través de la innovación tecnológica.