El equipo de Investigación Fundamental de IA (FAIR) de Meta ha anunciado recientemente el lanzamiento de nuevos modelos y herramientas de vanguardia orientados a la generación de música, imágenes y a la identificación de voces creadas con inteligencia artificial (IA). Estos avances se enmarcan dentro de un enfoque científico abierto que busca facilitar a la comunidad el acceso a estas innovaciones.
La compañía ha compartido los modelos más recientes que ha desarrollado, entre los que se encuentran «modelos de generación de imagen a texto y de texto a música, un modelo de predicción de múltiples tokens y una técnica para detectar el habla generada por IA». Estas herramientas representan un importante paso adelante en la democratización de la tecnología de IA y su aplicación en diversos ámbitos creativos.
Chameleon: Modelos unificados para la codificación y decodificación de texto e imágenes
Uno de los principales lanzamientos es Chameleon, una familia de modelos que admite como entrada y resultado tanto texto como imágenes, e incluso una combinación de ambos. Esta arquitectura unificada para la codificación y decodificación ha sido presentada en mayo y ahora Meta ha anunciado la disponibilidad de dos versiones específicas: Chameleon 7B (7.000 millones de parámetros) y Chameleon 34B (34.000 millones de parámetros), bajo una modalidad de licencia de investigación.
Modelos de predicción multitoken para un entrenamiento más eficiente
Además de Chameleon, FAIR también ha facilitado un conjunto de modelos basados en un enfoque de predicción multitoken. Esta técnica permite un entrenamiento más eficiente de modelos lingüísticos, ya que otorga la capacidad de predecir múltiples palabras futuras de una vez, en lugar de hacerlo una a una.
JASCO: Generación de música a partir de texto con control mejorado
Un tercer conjunto de modelos presentados por Meta se recoge bajo el acrónimo JASCO, que responde a «conjunto de audio y condicionamiento simbólico para la generación de texto a música controlada temporalmente«. Esta herramienta permite la generación de música a partir de un texto, con la posibilidad de aplicar diversos condicionantes, como acordes o ritmos específicos, logrando un control mejorado sobre el resultado final.
Junto a estos modelos de generación, Meta también ha facilitado AudioSeal, una marca de agua diseñada específicamente para audio, que detecta la voz generada por una herramienta de IA, incluso si se trata de segmentos dentro de un archivo de audio más extenso. Esta herramienta ha sido lanzada bajo una licencia comercial.
Finalmente, para abordar los sesgos geográficos presentes en los modelos de texto a imagen, Meta ha compartido las herramientas diseñadas para medir y evaluar las posibles disparidades, incluyendo los indicadores automáticos «DIG In«, que analizan y detectan estos problemas.
En resumen, los nuevos modelos y herramientas de IA presentados por Meta a través de su equipo FAIR representan un avance significativo en la democratización y el desarrollo de tecnologías de vanguardia orientadas a la creatividad y la identificación de contenido generado por IA. Estos lanzamientos reflejan el compromiso de la compañía por impulsar la investigación abierta y poner a disposición de la comunidad herramientas innovadoras que puedan tener un impacto positivo en diversos campos.