Inicio España ByteDance tiene un programa que recopila datos de Internet y lo realiza...

España

ByteDance tiene un programa que recopila datos de Internet y lo realiza 25 veces más rápido que el de OpenAI

Por

8 octubre, 2024

MADRID, 8 (Portaltic/EP)

ByteDance lleva meses extrayendo datos de Internet con un ‘bot’ llamado Bytespider, una actividad que hace a mayor velocidad que los ‘bots’ de otras empresas líderes en el mercado de los grandes modelos de lenguaje (LLM, por sus siglas en inglés).

Los grandes modelos de lenguaje necesitan enormes cantidades de datos para su entrenamiento y estas solo se encuentran en internet, donde ya operan varios ‘bots’ para ‘raspar’ o extraer información de sitios web.

Firmas como Google, Meta, Amazon, OpenAI y Anthropic utilizan sus propios ‘bots’, pero no son los únicos, ya que ByteDance también tiene el suyo, llamado Bytespider, que apareció en algún momento de abril, como han confirmado las firmas especializadas en este tipo de automatizaciones Kasada y Dark Visitors a Fortune.

Bytespider tiene la particularidad de que en poco tiempo se ha vuelto muy agresivo en la recopilación de datos, como se desprenden de los informes de Kasada. Según el director ejecutivo de esta firma, Sam Crowther, extrae datos a una velocidad 25 superior a la de GPTbot (OpenAI) y 300 veces superior a la de ClaudeBot (Anthropic).

El ‘bot’ de ByteDance, además, no respeta la línea de código robots.txt, que los editores de medios de comunicación pueden incorporar a su sitio web para indicar a los ‘bots’ que no extraigan datos. Tampoco lo respetan GPTbot y ClaudeBot.

Detrás de esta extracción masiva de datos parece estar el desarrollo de un nuevo LLM por parte de ByteDance, según ha compartido una fuente familiarizada con el asunto con Fortune, que se usaría para la función de búsqueda de TikTok, según otra fuente.

- Te recomendamos -

ByteDance tiene un programa que recopila datos de Internet y lo realiza 25 veces más rápido que el de OpenAI

Recibe NoticiasDe en tu mail

Últimas noticias

Emilio Sánchez Vicario resalta la entrega y humildad de Rafa Nadal

Netflix reconoce a TransPerfect por su trabajo en la localización de contenido audiovisual

Formación y seguridad, prioridades en el nuevo centro de capacitación de Tüv Süd en...

Incluso más noticias

Netflix reconoce a TransPerfect por su trabajo en la localización de...

Emilio Sánchez Vicario resalta la entrega y humildad de Rafa Nadal

Formación y seguridad, prioridades en el nuevo centro de capacitación de...

Categoría popular