Twitter publica parte de su código fuente y explica el funcionamiento del algoritmo de recomendación en ‘Para ti’

Twitter ha compartido parte de su código fuente en GitHub, plataforma que ahora ofrece dos repositorios que contienen parte de su algoritmo de recomendación de publicaciones, con detalles sobre cómo funciona la sección ‘Para ti’. Actualmente se investiga una filtración por la que parte del código fuente de la red social llegó de forma no autorizada a dicho portal publicado por parte de un usuario identificado como ‘FreeSpeechEnthusiast’.

GitHub retiró de su plataforma este contenido tras recibir una notificación judicial por infracción de derechos de autor emitida por parte de Twitter, que solicitó entonces conocer la identidad tanto de la persona que lo había filtrado como de quienes lo habían descargado.

Esto sucedió tan solo unos días después de que el propietario de Twitter, Elon Musk, anunciase que a finales de marzo haría público el algoritmo de la plataforma, que algo que finalmente ha ocurrido manera oficial este viernes 31 de marzo.

La plataforma ha compartido este contenido con el objetivo de «dar el primer paso en una nueva era de transparencia» y para excluir «cualquier código que pudiera comprometer la seguridad y privacidad del usuario», según ha explicado en un comunicado compartido en su blog.

GitHub ahora dispone de dos repositorios nuevos -‘Principal’ y ‘ML’-, que contienen el código fuente de algunos procesos de Twitter, incluido el algoritmo de recomendaciones, que determina qué ‘tuits’ ofrece la red social a los usuarios en el apartado ‘Para ti’.

Twitter también ha indicado que ha compartido más información sobre su algoritmo de recomendación en su blog, donde ha explicado cómo canaliza las recomendaciones y cómo filtra las recomendaciones que considera relevantes las publicaciones para sugerirlas. Con ello, ha subrayado que, si bien ha puesto a disposición de los usuarios esta parte de su código fuente, ha decidido omitir la parte destinada a las recomendaciones de anuncios.

ALGORITMO DE RECOMENDACIÓN

La plataforma ha profundizado acerca del modo en que brinda información a los usuarios y selecciona una serie de ‘tuits’ para incluirlos en el apartado ‘Para ti’ de cada uno de ellos. Twitter ha matizado que su sistema de recomendación «está compuesto por muchos servicios y trabajos interconectados» y ha expuesto el modo en que filtra esta información, mediante un proceso formado por tres etapas.

En primer lugar, recibe «los mejores tuits» de diferentes fuentes de recomendación -en un proceso llamado ‘abastecimiento de candidatos’- para, en segundo lugar, clasificar cada uno de ellos utilizando un algoritmo de aprendizaje automático (‘machine learning’). Finalmente, aplica métodos heurísticos para filtrar tuits, publicaciones que ya haya visto y contenido etiquetado como no seguro o apropiado para el trabajo (NSFW, por sus siglas en inglés).

El servicio que se encarga de construir el apartado ‘Para ti’ recibe el nombre de ‘Home Mixer’ (algo así como mezclador de la página de inicio) y se basa en el programa Product Mixer (mezclador de producto), que facilita la creación de fuentes de contenido y «actúa como la columna vertebral» del ‘software’ que conecta las publicaciones candidatas a formar parte de este apartado y otras funciones de puntuación.

La primera de las etapas del proceso maneja una serie de fuentes de las que extrae los mejores 1.500 ‘tuits’ de un grupo de cientos de millones de estas fuentes. Para ello, emplea tanto cuentas a las que siguen como a las que no siguen los usuarios.

«Hoy en día, la cronología de ‘Para ti’ consiste en un 50 por ciento de tuits dentro de la red y otro 50 por ciento fuera de ella en promedio, aunque esto puede variar de un usuario a otro», ha matizado la red social. En cuanto a las fuentes a las que siguen los usuarios, Twitter ha explicado que «es la candidata más grande» y que tiene como fin mostrar los ‘tuits’ más recientes y relevantes de los usuarios a los que se sigue.

Es entonces cuando hace uso de una herramienta llamada Real Graph, un modelo de aprendizaje automático que predice la probabilidad de interacción entre dos usuarios. Cuanta mayor compatibilidad haya, se incluirán más ‘tuits’.

La plataforma ha explicado que recientemente ha trabajado en este apartado, puesto que ha dejado de utilizar Fanour Service, una solución que anteriormente se empleaba para promocionar publicaciones desde un caché para cada usuario.

USUARIOS A LOS QUE NO SE SIGUE

La red social ha explicado también cómo integra publicaciones de usuarios a los que no se sigue en las sugerencias de ‘Para ti’ y ha adelantado que adopta dos posturas en torno a esto. En primer lugar, tiene en cuenta el denominado gráfico social, con el que busca dar respuesta a con qué tuits interactuaron los usuarios de las personas a las que siguen y a quién le gustan las publicaciones que estos hacen.

Una vez respondidas estas cuestiones, genera ‘tuits’ candidatos según estas respuestas y los clasifica mediante un modelo de regresión logística. Para conocer su recorrido en la plataforma, ha desarrollado un motor de procesamiento de gráficos llamado GraphJet.

El otro de los enfoques por los que apuesta Twitter para recomendar publicaciones de cuentas a las que no se siguen son los llamados ‘espacios de incrustación’, que tiene como objetivo responder la pregunta ‘¿Qué tuits y usuarios son similares a mis intereses?’. Estas incrustaciones generan representaciones numéricas de los intereses de los usuarios y el contenido de los ‘tuits’ y, a continuación, calcula la similitud entre dos usuarios o dos ‘tuits’ al azar integrados en este espacio.

El paso siguiente es el de la clasificación de ‘tuits’ recomendados, un punto del proceso en el que se presentan alrededor de 1.500 candidatos «que pueden ser relevantes» y que se someten a una puntuación que predice directamente la importancia de cada publicación candidata.

Esta clasificación se logra con una red neuronal de alrededor de 48 millones de parámetros y que se entrena constantemente para optimizar el compromiso positivo en la plataforma. Es entonces cuando el sistema establece diez etiquetas para otorgar una puntuación determinada a cada ‘tuit’. Cada una de ellas, representa la probabilidad de que se interactúe con dichas publicaciones.

Tras esta clasificación, se aplican una serie de filtros que permiten a la plataforma recomendar con mayor precisión para ofrecer resultados diversos. Es en este momento cuando Twitter elimina las sugerencias de las cuentas bloqueadas, reduce el número de ‘tuits’ consecutivos de una sola cuenta, entre otras acciones.

Llegados al último punto y con las publicaciones de sugerencia ya escogidas Twitter activa el Home Mixer para enviarlo a cada dispositivo. En este momento del proceso, el sistema de clasificación combina ‘tuits’ con otros contenidos, como anuncios o recomendaciones de seguimiento a otras cuentas.

Tras publicar esta parte del algoritmo de Twitter para las recomendaciones, Musk ha confirmado en su perfil en la red social que «en las próximas semanas» abrirán «todo lo que contribuya a mostrar un tuit». La compañía también ha confirmado su intención de expandir su sistema de recomendaciones, con nuevas oportunidades en las que ya están trabajando, como nuevas características en tiempo real, incrustados y representaciones de usuarios.