La empresa matriz de TikTok, ByteDance, tiene una herramienta que rastrea la web 25 veces más rápido que OpenAI

La empresa matriz de TikTok, ByteDance, está acumulando enormes volúmenes de datos web mucho más rápido que otros rastreadores web importantes.

Es posible que ByteDance esté planeando lanzar su propio LLM y esté utilizando agresivamente su rastreador web, “Bytespider”, para recopilar datos para entrenar sus modelos. Fortuna informó.

Bytespider apareció en escena en abril y, desde entonces, su tasa de consumo avergüenza a los web scrapers de OpenAI, Google, Meta y Anthropic.

Velocidad de la luz triturable

VER TAMBIÉN:

Texas se suma a los problemas legales de TikTok por la seguridad de los niños

Sam Crowther, director ejecutivo de Kasada, una empresa que se especializa en la gestión de bots, dijo al medio que la tasa de raspado de Bytespider es 25 veces mayor que la del GPTbot de OpenAI y 3.000 veces la tasa de ClaudeBot, que es el rastreador web de Anthropic para su Claude LLM. Crowther también dijo que los datos de Kasada han visto “enormes picos en la actividad de scraping” de Bytespider en las últimas seis semanas.

Mientras Bytespider consume vorazmente la web, el gobierno de los EE. UU. está tratando de inhibir el posible acceso de los datos de los usuarios estadounidenses al gobierno chino. En abril, el presidente Biden firmó un proyecto de ley que obligaba a prohibir TikTok a menos que ByteDance lo vendiera dentro del año. Dado el tictac de ByteDance para vender TikTok, la sensación de urgencia se ajusta al ritmo masivo de su actividad de rastreo web; ya sea para un LLM, un mejor algoritmo o algo más, no lo sabemos.

Queda por ver qué planea hacer ByteDance con todos sus datos recién extraídos. Pero TikTok ha lanzado varias funciones impulsadas por IA para la plataforma. En mayo, anunció un conjunto de herramientas para que los anunciantes creen anuncios generados por IA y avatares generados por IA para marcas y creadores. También se rumorea que TikTok está trabajando en un motor de búsqueda interno, con resultados impulsados ​​por IA, posiblemente usando ChatGPT.

Temas
Inteligencia artificialTikTok



Fuente