well3.0防采集功能可以这样设置吗？

125762285关注2025-08-15 522

现在主流的防采集功能都是前段必须运行某个js给这个ip进行数据更新，只有运行浏览器才能一直访问。

采集直接用脚本get请求的话，没有触发js，顶多访问几次就返回403了，无法采集。

转载请注明原文地址:http://www.wellcms.net/read-867.html

最新回复(5)

125762285关注5月前
引用2楼
可以加ua或者ip白名单
回复00
添加新评论
燃烧的冰关注5月前
引用3楼
用“严防死守”这4个字来形容就够了。防采、防爬虫。
1、没有UA直接屏蔽+自动创建黑名单；
2、针对白名单爬虫自动放行，如果骗过，下一步是通过行为特征或开启反查DNS识别伪造爬虫，假爬虫自动创建黑名单；
3、前面都过了就是黑名单；
4、2次访问不能创建cookie的机器限流+自动创建黑名单；
5、同台机器切换IP超过阈值，被视为非正常用户，直接限流+自动创建黑名单；
6、session 流量，是通过同个session ID在限定时间内的访问次数限流+自动创建黑名单；

以上功能都有开关，部分功能默认打开。

目前上面的6个功能，ChatGPT 都过不去，在已有的站点上已经发现多个AI爬虫被限流。它们仍然想要爬取，会通过瞬间上千不同IP、不同UA的高并发访问的方式来爬取，依然无法穿透。也许未来AI会识别，不过目前我还没有测试 ChatGPT 的代理模式，可能代理模式可以穿透，也只是可能。

其实路由中间件 ThrottleMiddleware 除了以上6个功能，还有个“IP 令牌桶限流功能”，主要是为每个 IP 分配一个“桶”，桶里按固定速率补充令牌，请求要消耗令牌；有令牌就放行，没有就拒绝，从而保证平均速率受控，又允许短时突发。
回复21
- well
  2025-08-17 15:59:02
  @燃烧的冰如果ip触发了防采集就验证ip是否是搜索引擎如果是就加白名单，如果不是就防采集机制还可以在加个浏览器指纹
  回复Ta
- well
  2025-08-17 16:09:50
  @燃烧的冰专业采集15年，上线后我来测试一波，如果我采不了几乎95%以上的人都采集不了
  回复Ta
添加新评论
long201058关注5月前
引用4楼
燃烧的冰用“严防死守”这4个字来形容就够了。防采、防爬虫。1、没有UA直接屏蔽+自动创建黑名单；2、针对白名单爬虫自动放行，如果骗过，下一步是通过行为特征或开启反查DNS识别伪造爬虫，假爬虫自动创建黑名单；3 ...
虽然看不懂，但是依然感觉很牛逼，就是不知道啥时候能用上
回复00
添加新评论
well关注5月前
引用5楼
这套防护措施在应对常规爬虫（包括部分AI爬虫）时已经具备较强的针对性，尤其在规则设计上覆盖了爬虫常见的规避手段（如伪造UA、切换IP、忽略Cookie等），同时结合令牌桶限流实现了流量的精细化管控，整体防护体系较为完善。

不过，从进一步提升安全性和适应性的角度，可考虑以下优化方向：

1. 增强行为特征识别的维度
目前的行为特征主要围绕IP切换、Cookie创建等，可补充更细粒度的指标，比如：

- 鼠标/触摸轨迹（爬虫通常无自然轨迹，可通过前端脚本检测）

- 页面停留时间、点击间隔（真人操作有随机性，爬虫多为固定频率）

- 对页面元素的交互顺序（如先浏览再点击，而非直接定位目标元素）

2. 动态调整防护策略
可根据实时流量特征自动切换防护强度，例如：

- 正常时段默认开启基础防护（如UA校验、令牌桶限流）

- 检测到高并发异常流量时，自动激活更严格的规则（如临时提高IP切换阈值、增加行为验证步骤）

- 对高频访问的“白名单爬虫”（如搜索引擎），可动态调整其令牌桶容量，避免误拦截

3. 引入主动验证机制
针对疑似爬虫的请求，可在关键环节加入轻量验证（如滑块、验证码），但需注意平衡安全性与用户体验，例如：

- 仅对触发多条规则的请求（如“无UA+高频访问+无Cookie”）触发验证

- 对已通过初步验证的正常用户，降低验证频率

4. 完善黑名单的管理机制
目前黑名单为自动创建，可补充：

- 黑名单过期机制（避免误封的IP长期无法访问，可设置临时封禁时长）

- 白名单申诉通道（针对误判的合法用户/爬虫，提供人工复核入口）

总体而言，现有措施已能应对绝大多数场景，上述优化可根据实际业务需求（如用户体验敏感度、爬虫攻击强度）逐步落地，核心是在“有效防护”和“正常访问不受阻”之间找到更精准的平衡。
回复00
添加新评论
well关注5月前
引用6楼
要确保搜索引擎爬虫（如谷歌、百度、必应等）不被拦截，需在防护体系中针对性地为其建立“安全通道”，同时避免被恶意爬虫伪造身份钻空子。具体可从以下几方面着手：

一、精准识别搜索引擎爬虫

1. 基于官方IP/IP段白名单
各大搜索引擎会公开其爬虫的IP地址或IP段（如百度的 baiduspider 、谷歌的 Googlebot ），可直接将这些官方公布的IP段加入白名单，允许其无限制访问。
- 例：百度爬虫IP段可参考百度搜索资源平台的官方文档，谷歌可参考其 _googlebot 的IP列表。
2. 验证爬虫UA的真实性
搜索引擎爬虫会使用固定的User-Agent（如 Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) ），但需注意：
- 不能仅通过UA判断，需结合IP验证（防止恶意爬虫伪造UA）。
- 对声称是搜索引擎爬虫的请求，可通过反向DNS查询验证（如谷歌爬虫的IP反向解析应包含 googlebot.com ）。
3. 利用robots.txt协议协作
在网站根目录放置 robots.txt 文件，明确允许哪些搜索引擎爬虫访问（如 User-agent: Baiduspider Allow: / ），同时防护系统可读取该文件，对符合规则的爬虫自动放行。

二、避免误伤的细节优化

1. 白名单优先级高于通用防护规则
确保搜索引擎爬虫的白名单在防护逻辑中优先级最高，跳过“IP切换阈值”“Cookie检测”等常规限制（部分搜索引擎爬虫可能不支持Cookie或频繁切换IP）。
2. 为搜索引擎爬虫定制流量规则
对已知搜索引擎爬虫，可适当放宽令牌桶限流的阈值（如允许更高的访问频率），避免因爬虫抓取量大而被误判为异常流量。
3. 建立异常监控与人工复核机制
- 监控白名单内爬虫的访问行为，若出现远超正常抓取频率的异常（可能是被伪造），可临时触发人工审核。
- 提供爬虫访问日志查询功能，便于排查“搜索引擎未收录”是否因拦截导致。

三、长期维护策略

- 定期更新搜索引擎官方公布的IP段和UA信息（部分搜索引擎会调整爬虫配置）。
- 与搜索引擎平台建立沟通渠道（如通过百度搜索资源平台、谷歌Search Console），若发现爬虫被拦截，可快速提交申诉并获取技术支持。

通过“精准识别+规则豁免+日志监控”的组合策略，既能保障搜索引擎爬虫正常抓取，又能避免恶意爬虫冒充其身份绕过防护。
回复00
添加新评论