Amazon Web Services investiga si Perplexity ejecuta 'web scrapping' para entrenar su IA

MADRID, 1 Jul. (Portaltic/EP) -

Amazon Web Services (AWS) ha anunciado que ha comenzado una investigación sobre el funcionamiento de Perplexity -que emplea sus servidores- para conocer si esta empresa ejecuta la técnica de 'web scrapping' para entrenar sus modelos de Inteligencia Artificial (IA).

El también conocido como raspado de datos es un proceso mediante el cual se recopilan contenidos de páginas web mediante un 'software' que extrae el código HTML de estos sitios para filtrar la información y almacenarla, lo que se compara con el proceso automático de copiado y pegado.

El desarrollador Robb Knight y Wired habrían descubierto recientemente que la 'startup' de búsquedas con IA Perplexity habría violado el conocido como Protocolo de Exclusión de Robots de ciertas páginas web y ejecutado esta técnica para entrenar sus modelos de IA.

Este Protocolo responde a una norma web que consiste en colocar un archivo de texto sin formato (robots.txt) en un dominio para señalar a qué páginas no deben acceder los robots y rastradores automatizados, tal y como explica dicho medio.

En base a estas acusaciones, Amazon Web Services ha dado comienzo a una investigación para determinar si Perplexity, que emplea AWS para entranar su IA, está infringiendo las normas y ejecutando 'web scrapping' en sitios web que intentaban impedírselo.

Así lo ha confirmado a Wired un portavoz de AWS, que ha recordado que en sus términos prohíbe a sus clientes usar sus servicios para cualquier actividad ilegal y que estos son responsables de cumplir con sus condiciones "y todas las leyes aplicables".

Desde la 'startup' han indicado que Perplexity "respeta robots.txt" y que los servicios que controla "no realizan un rastreo de ninguna forma que infrinja las condiciones de servicio de AWS", en palabras de la portavoz Sara Platnick.

Esta, no obstante, ha explicado que su 'bot' ignorará el archivo robots.txt cuando un usuario introduzca una url en su consulta, un caso de uso "no frecuente". "Cuando un usuario indica una url específica no desencadena un comportamiento de rastreo" sino que "el agente actúa en nombre del usuario para recuperar la url. Funciona igual que si este fuera a una página, copiara el tecto del artículo y después lo pegara en el sistema", ha dicho.

En este sentido, Wired ha subrayado que, según la descripción de la portavoz, se confirman que las investigaciones que ha llevado a cabo son veraces y que su 'chatbot' ignora robots.txt en ciertos casos para recopilar información de forma no autorizada.

RESPONSABLE	EUROPA PRESS NOTICIAS S.A.
FINALIDAD PRINCIPAL	Gestionar el envío del boletín de noticias diario para informarle de los hechos más relevantes de cada día.
LEGITIMACIÓN	Consentimiento del interesado.
DESTINATARIOS	Sus datos podrán ser comunicados al resto de entidades del Grupo Europa Press con la finalidad de poder gestionar de forma correcta la suscripción.
DERECHOS	Acceso, rectificación, supresión y portabilidad de sus datos, de limitación y oposición a su tratamiento, así como a no ser objeto de decisiones basadas únicamente en el tratamiento automatizado de sus datos, cuando procedan.
INFORMACIÓN ADICIONAL	Puede consultar la información adicional y detallada sobre nuestra Política de Privacidad enhttps://www.europapress.es/politica-privacidad.htmlo escribiendo al correo electrónicoprotecciondedatos@europapress.es

Autonomías

Portales temáticos

Amazon Web Services investiga si Perplexity ejecuta 'web scrapping' para entrenar su IA

Leer más acerca de:

Más leídasofrecido por

Autonomías

Portales temáticos

Amazon Web Services investiga si Perplexity ejecuta 'web scrapping' para entrenar su IA

Boletín de PortalTIC

Leer más acerca de:

Más leídasofrecido por