Todas las herramientas(tools) de videollamadas con múltiples integrantes tienen la funcionalidad de concentrar la imagen en la persona que está hablando.
Eso está genial si el habla es la manera de comunicación. Sin embargo, el lenguaje de signos no activa esos algoritmos, lo que supone un problema para las personas que se comunican así.
Por suerte, una investigación de Google podría intercambiar eso. La compañía ha inventado un motor de detección de lenguaje de señas en tiempo real que puede saber cuándo alguien está realizando signos (en lugar de sólo moverse) y cuándo ha terminado.
Aunque esto es algo trivial para los humanos, es más complicado para un sistema de videollamadas que solo retransmite imágenes y sonido.
Un nuevo producto de los indagadores de Google℗ muestra cómo se puede hacer con eficacia y con muy poca latencia.
El sistema 1.º pasa el video a través de un modelo llamado PoseNet, que estima las posiciones del cuerpo y las extremidades en cada cuadro. Esta info visual simplificada (esencialmente una figura con palos) se envía a un modelo entrenado con datos(info) de poses de personas que usan el lenguaje de signos.
Este curso consigue un 80 por ciento de precisión en la predicción de si una persona está empleando lenguajes de signos, y con alguna optimización adicional obtiene hasta un 91,5 por ciento de precisión.
Este sistema además puede utilizarse con herramientas(tools) de videoconferencia existentes mediante un pequeño truco.
Utiliza una fuente de audio virtual para generar un tono de 20 kHz, que está fuera del rango de audición humana, pero que es detectado por los micrófonos de los ordenadores. Esta señal se genera siempre que la persona está realizando señas, realizando que los algoritmos de detección del habla piensen que está conversando en voz alta.