Meta presenta Llama 3.2, su primer modelo de lenguaje multimodal de código abierto

Meta, la empresa líder en tecnología, ha presentado su más reciente modelo de lenguaje, Llama 3.2. Esta innovadora plataforma combina la capacidad de procesar tanto texto como imágenes, abriendo nuevas posibilidades en el campo de la Inteligencia Artificial (IA).

En el marco de su evento Meta Connect 2024, la compañía ha dado a conocer los detalles de este avanzado modelo, que llega tan solo dos meses después de la presentación de Llama 3.1. La principal novedad de Llama 3.2 es su capacidad multimodal, es decir, su habilidad para interactuar tanto con datos textuales como visuales.

La Arquitectura Multimodal de Llama 3.2

El nuevo modelo Llama 3.2 se compone de dos versiones multimodales, una de 11.000 millones de parámetros (11B) y otra de 90.000 millones de parámetros (90B). Estas potentes estructuras permiten a los desarrolladores realizar tareas como el razonamiento sobre imágenes, la comprensión de gráficos y diagramas, y la localización de objetos en fotografías.

Además, Llama 3.2 se complementa con dos modelos de texto exclusivo, uno de 1.000 millones de parámetros (1B) y otro de 3.000 millones de parámetros (3B). Estos modelos más ligeros están diseñados para ejecutarse de manera eficiente en dispositivos móviles, como smartphones, ofreciendo soluciones personalizadas y garantizando la privacidad de los datos.

Las Aplicaciones de Llama 3.2

Los modelos de Llama 3.2 permiten a los desarrolladores crear aplicaciones personalizadas que pueden procesar tanto texto como imágenes. Algunas de las posibles aplicaciones incluyen la extracción de detalles de fotografías, la comprensión de escenas visuales y la generación de subtítulos o descripciones de imágenes.

Además, los modelos de texto exclusivo de 1B y 3B se destacan por su capacidad de ejecución local, lo que significa que las respuestas y procesamiento se realizan directamente en el dispositivo del usuario. Esto no solo garantiza una latencia mínima, sino que también asegura la privacidad de los datos, ya que no es necesario enviarlos a la nube.

Comparativa con Otros Modelos de IA

Según las evaluaciones realizadas por Meta, los modelos multimodales de Llama 3.2 (11B y 90B) son competitivos con los líderes del mercado, como Claude 3 Haiku y GPT4o-mini, en tareas de reconocimiento de imágenes y comprensión visual. Por su parte, los modelos de texto exclusivo (3B y 1B) superan a otros modelos como Gemma 2 2.6B y Phi 3.5-mini en la ejecución de tareas como seguir instrucciones, resumir, reescribir y utilizar herramientas.

En resumen, Llama 3.2 representa un hito en el desarrollo de la Inteligencia Artificial, al combinar la capacidad de procesar texto e imágenes en una misma plataforma. Con su arquitectura multimodal y sus modelos optimizados para dispositivos móviles, Meta ofrece a los desarrolladores una herramienta poderosa y versátil para crear aplicaciones innovadoras y respetuosas con la privacidad de los usuarios.