Investigación de Amazon Web Services sobre el uso de ‘web scrapping’ por parte de Perplexity

Amazon Web Services (AWS) ha comunicado recientemente que ha iniciado un proceso de investigación para analizar el funcionamiento de Perplexity, una empresa que hace uso de sus servidores, con el objetivo de determinar si están llevando a cabo la práctica de ‘web scrapping’ para el entrenamiento de sus modelos de Inteligencia Artificial (IA).

¿Qué es el ‘web scrapping’ y por qué es materia de investigación?

El término ‘web scrapping’, también conocido como raspado de datos, hace referencia a un procedimiento mediante el cual se recolectan contenidos de páginas web utilizando software especializado que extrae el código HTML de dichos sitios, permitiendo filtrar la información relevante para su posterior almacenamiento y análisis. En este caso, el uso de ‘web scrapping’ por parte de Perplexity ha suscitado preocupación debido a posibles violaciones al Protocolo de Exclusión de Robots.

Robb Knight, un desarrollador reconocido, junto con el medio Wired, han revelado información que sugiere que la ‘startup’ Perplexity ha infringido el Protocolo de Exclusión de Robots en ciertas páginas web al ejecutar esta técnica con el propósito de mejorar sus modelos de IA. Este protocolo, comúnmente conocido como robots.txt, es una norma web que indica a los robots y rastreadores automatizados qué secciones de un sitio no deben ser accedidas.

Las implicaciones legales y éticas del ‘web scrapping’

Las implicaciones legales y éticas asociadas al ‘web scrapping’ son fundamentales en este contexto, ya que el respeto a las normas establecidas por los propietarios de los sitios web es crucial para mantener la integridad y legalidad de la recopilación de datos en línea. Amazon Web Services, como proveedor de servicios en la nube, ha enfatizado la prohibición de actividades ilegales por parte de sus clientes y la responsabilidad de estos de cumplir con las condiciones establecidas y las leyes pertinentes.

En respuesta a las acusaciones, un portavoz de AWS ha aclarado que están investigando las acciones de Perplexity para determinar si están llevando a cabo ‘web scrapping’ en contravención a las políticas de uso de AWS. Es fundamental resaltar que el uso no autorizado de datos a través de esta técnica no solo puede constituir una infracción legal, sino que también plantea cuestiones éticas con respecto al respeto a la privacidad y la propiedad de la información en línea.

La postura de Perplexity y su respuesta a las acusaciones

Ante estas acusaciones, Perplexity ha defendido su postura alegando que respetan el archivo robots.txt y que sus servicios no incurren en prácticas que violen los términos de servicio de Amazon Web Services. Según Sara Platnick, portavoz de la ‘startup’, su ‘bot’ seguía las directrices del archivo robots.txt, a menos que un usuario especificara una URL en su consulta, en cuyo caso el comportamiento de rastreo se activaba para recuperar la información relevante.

Es importante destacar que, según las declaraciones de Platnick, Perplexity ha afirmado que su ‘bot’ no accede de forma no autorizada a la información, sino que actúa en nombre del usuario para recuperarla, de manera similar a un usuario humano que visita una página web, lee un artículo y lo copia para su posterior uso. Si bien es cierto que este caso de uso puede considerarse poco frecuente, es relevante analizar si se ajusta a las normativas vigentes en materia de recopilación de datos en la web.