Anthropic用来为Claude等人工智能模型抓取训练数据的ClaudeBot网络爬虫在24小时内对iFixit的网站进行了近100万次的攻击,在此过程中似乎违反了这家维修公司的使用条款。
“如果这些请求访问了我们的服务条款,他们会告诉你使用我们的内容是明确禁止的。但别问我,问克劳德!iFixit首席执行官凯尔·维恩斯在X上说。他发布的图片显示,Anthropic的聊天机器人承认iFixit的内容是禁区。“你们不仅免费获取我们的内容,还占用了我们的开发资源。如果你想就授权我们的内容用于商业用途展开对话,我们随时恭候。”
iFixit的使用条款政策规定,“未经公司明确事先书面许可,严禁复制、复制或分发”网站上的任何内容,其中特别包括“训练机器学习或人工智能模型”。然而,当404媒体对Anthropic提出质疑时,这家人工智能公司链接回了一个常见问题解答页面,该页面表示,它的爬虫只能通过robots.txt文件扩展名来阻止。
Wiens说iFixit已经在其robots.txt中添加了爬行延迟扩展。我们已经请Wiens和Anthropic发表评论,如果我们得到回复,我们会更新这个故事。
iFixit似乎并不孤单,Read the Docs的联合创始人埃里克·霍尔舍尔和Freelancer.com的首席执行官马特·巴里在Wiens的帖子中表示,他们的网站也曾被Anthropic的爬虫恶意抓取。这对ClaudeBot来说似乎也不是什么新行为,几个月前的Reddit帖子就报道了Anthropic网络抓取的急剧增加。今年4月,Linux Mint网络论坛将一次站点中断归因于ClaudeBot抓取活动造成的压力。
通过robots.txt文件禁止爬虫也是OpenAI等许多其他人工智能公司的选择,但它没有为网站所有者提供任何灵活性来表示什么是抓取,什么是不允许的。众所周知,另一家人工智能公司Perplexity完全忽略了robots.txt的排除条款。不过,这是企业将数据排除在人工智能培训材料之外的为数不多的选择之一,Reddit在最近打击网络爬虫时就采用了这种方法。
本文来自作者[若岚]投稿,不代表UA号立场,如若转载,请注明出处:https://wap.uatpe.cn/zlan/202508-2457.html
评论列表(4条)
我是UA号的签约作者“若岚”!
希望本篇文章《Anthropic的爬虫绕过网站的反AI抓取规定》能对你有所帮助!
本站[UA号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:Anthropic用来为Claude等人工智能模型抓取训练数据的ClaudeBot网络爬虫在24小时内对iFixit的网站进行了近100万次的攻击,在此过程中...