Google ha asegurado que solo recopila información de archivos de sus servicios, como Google Docs u Hojas de cálculo, para entrenar su modelo de Inteligencia Artificial (IA) Gemini si estos documentos están «disponibles públicamente» en Internet, es decir, si han sido compartidos a través de redes sociales o publicados en sitios web.
Las compañías dedicadas al desarrollo de los modelos de IA más potentes actualmente, como es el caso de OpenAI, Meta y Google, cada vez necesitan recolectar más datos para continuar entrenando y mejorando las capacidades de estas tecnologías.
Esto ha llevado a la búsqueda de nuevas fuentes de datos en Internet, lo que, a su vez, ha ocasionado que las tecnológicas se arriesguen a potenciales violaciones de derechos de autor. De hecho, tal y como se pudo conocer recientemente en un artículo de The New York Times, estas empresas han estado utilizando datos disponibles públicamente en Internet para entrenar sus modelos de IA.
OpenAI y la propia Google habrían hecho uso de los vídeos publicados en YouTube para entrenar su modelo GPT-4, lo que, tal y como confirmó el director ejecutivo de la plataforma de Google, Neal Mohan, se trata de una práctica que va en contra de las políticas de YouTube.
Además de todo ello, el mismo medio compartió que, según fuentes conocedoras de las prácticas de Google, la compañía también habría accedido a archivos de Google Docs, Google Sheets, reseñas de restaurantes en Google Maps y otros materiales en línea «disponibles públicamente» para obtener más información y entrenar sus productos de IA. Todo ello, tras un cambio en los términos de uso que la tecnológica introdujo el pasado año para permitir este tipo de uso de los datos.
En concreto, en el caso de los archivos de servicios como Google Docs, la tecnológica ofrece varias opciones a la hora de compartir documentos. Como se explica en la página de soporte de Google, una de estas alternativas es introducir las direcciones de correo electrónico de los usuarios en cuestión en la opción de compartir del archivo, de manera que solo estas personas puedan abrir el documento.
Por otra parte, Google también permite compartir el archivo a través de un enlace. De esta forma, el documento se configura como público para que pueda abrirlo cualquier usuario que disponga del enlace.
Sin embargo, la tecnológica ha matizado al respecto que este tipo de documentos no son necesariamente archivos «disponibles públicamente», por lo que no son una opción para el entrenamiento del modelo de IA de Google y su información se mantiene privada para los usuarios que tengan acceso.
Así lo ha compartido un representante de Google en declaraciones al medio Business Insider, en las que aclara que compartir un documento con la configuración de «cualquiera con enlace» no significa que este archivo sea público y, por tanto, no se utilizará para el entrenamiento de la IA.
En concreto, según ha explicado, para que un documento se considere disponible públicamente y pueda ser considerado para entrenar la IA de Google, deberá publicarse en un sitio web o compartirse a través de redes sociales.
Es decir, por ejemplo, un documento de Google Docs se volvería público al compartir su enlace en una publicación de X (antigua Twitter) o Threads. Al publicarse en estas plataformas, se facilita que los rastreadores web puedan encontrar el documento y, por tanto, se convierte en un archivo público.
Sin embargo, el representante de Google también subrayó que si el documento se comparte a través una vía privada, como es a través de un enlace enviado por correo electrónico, el archivo se mantiene restringido exclusivamente para aquellos usuarios que dispongan del enlace.