well3.0防采集功能可以这样设置吗?

1257622852025-08-15  259

现在主流的防采集功能都是前段必须运行某个js给这个ip进行数据更新,只有运行浏览器才能一直访问。

采集直接用脚本get请求的话,没有触发js,顶多访问几次就返回403了,无法采集。

转载请注明原文地址:https://www.wellcms.net/read-867.html
00
最新回复(5)
  • 可以加ua或者ip白名单
    回复00
  • 用“严防死守”这4个字来形容就够了。防采、防爬虫。
    1、没有UA直接屏蔽+自动创建黑名单;
    2、针对白名单爬虫自动放行,如果骗过,下一步是通过行为特征或开启反查DNS识别伪造爬虫,假爬虫自动创建黑名单;
    3、前面都过了就是黑名单;
    4、2次访问不能创建cookie的机器限流+自动创建黑名单;
    5、同台机器切换IP超过阈值,被视为非正常用户,直接限流+自动创建黑名单;
    6、session 流量,是通过同个session ID在限定时间内的访问次数限流+自动创建黑名单;

    以上功能都有开关,部分功能默认打开。

    目前上面的6个功能,ChatGPT 都过不去,在已有的站点上已经发现多个AI爬虫被限流。它们仍然想要爬取,会通过瞬间上千不同IP、不同UA的高并发访问的方式来爬取,依然无法穿透。也许未来AI会识别,不过目前我还没有测试 ChatGPT 的代理模式,可能代理模式可以穿透,也只是可能。

     

    其实路由中间件 ThrottleMiddleware 除了以上6个功能,还有个“IP 令牌桶限流功能”,主要是为每个 IP 分配一个“桶”,桶里按固定速率补充令牌,请求要消耗令牌;有令牌就放行,没有就拒绝,从而保证平均速率受控,又允许短时突发。

    回复21

    • well
      2025-08-17 15:59:02
      @燃烧的冰如果ip触发了防采集就验证ip是否是搜索引擎如果是就加白名单,如果不是就防采集机制 还可以在加个浏览器指纹

    • well
      2025-08-17 16:09:50
      @燃烧的冰专业采集15年,上线后我来测试一波,如果我采不了几乎95%以上的人都采集不了

  • 燃烧的冰 用“严防死守”这4个字来形容就够了。防采、防爬虫。1、没有UA直接屏蔽+自动创建黑名单;2、针对白名单爬虫自动放行,如果骗过,下一步是通过行为特征或开启反查DNS识别伪造爬虫,假爬虫自动创建黑名单;3 ...
    虽然看不懂,但是依然感觉很牛逼,就是不知道啥时候能用上
    回复00
  • well10天前
    引用5
    这套防护措施在应对常规爬虫(包括部分AI爬虫)时已经具备较强的针对性,尤其在规则设计上覆盖了爬虫常见的规避手段(如伪造UA、切换IP、忽略Cookie等),同时结合令牌桶限流实现了流量的精细化管控,整体防护体系较为完善。
     
    不过,从进一步提升安全性和适应性的角度,可考虑以下优化方向:
     
    1. 增强行为特征识别的维度
    目前的行为特征主要围绕IP切换、Cookie创建等,可补充更细粒度的指标,比如:

    - 鼠标/触摸轨迹(爬虫通常无自然轨迹,可通过前端脚本检测)

    - 页面停留时间、点击间隔(真人操作有随机性,爬虫多为固定频率)

    - 对页面元素的交互顺序(如先浏览再点击,而非直接定位目标元素)

    2. 动态调整防护策略
    可根据实时流量特征自动切换防护强度,例如:

    - 正常时段默认开启基础防护(如UA校验、令牌桶限流)

    - 检测到高并发异常流量时,自动激活更严格的规则(如临时提高IP切换阈值、增加行为验证步骤)

    - 对高频访问的“白名单爬虫”(如搜索引擎),可动态调整其令牌桶容量,避免误拦截

    3. 引入主动验证机制
    针对疑似爬虫的请求,可在关键环节加入轻量验证(如滑块、验证码),但需注意平衡安全性与用户体验,例如:

    - 仅对触发多条规则的请求(如“无UA+高频访问+无Cookie”)触发验证

    - 对已通过初步验证的正常用户,降低验证频率

    4. 完善黑名单的管理机制
    目前黑名单为自动创建,可补充:

    - 黑名单过期机制(避免误封的IP长期无法访问,可设置临时封禁时长)

    - 白名单申诉通道(针对误判的合法用户/爬虫,提供人工复核入口)
     
    总体而言,现有措施已能应对绝大多数场景,上述优化可根据实际业务需求(如用户体验敏感度、爬虫攻击强度)逐步落地,核心是在“有效防护”和“正常访问不受阻”之间找到更精准的平衡。
    回复00
  • well10天前
    引用6
    要确保搜索引擎爬虫(如谷歌、百度、必应等)不被拦截,需在防护体系中针对性地为其建立“安全通道”,同时避免被恶意爬虫伪造身份钻空子。具体可从以下几方面着手:
     
    一、精准识别搜索引擎爬虫
     
    1. 基于官方IP/IP段白名单
    各大搜索引擎会公开其爬虫的IP地址或IP段(如百度的 baiduspider 、谷歌的 Googlebot ),可直接将这些官方公布的IP段加入白名单,允许其无限制访问。
    - 例:百度爬虫IP段可参考百度搜索资源平台的官方文档,谷歌可参考其 _googlebot 的IP列表。
    2. 验证爬虫UA的真实性
    搜索引擎爬虫会使用固定的User-Agent(如 Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) ),但需注意:
    - 不能仅通过UA判断,需结合IP验证(防止恶意爬虫伪造UA)。
    - 对声称是搜索引擎爬虫的请求,可通过反向DNS查询验证(如谷歌爬虫的IP反向解析应包含 googlebot.com )。
    3. 利用robots.txt协议协作
    在网站根目录放置 robots.txt 文件,明确允许哪些搜索引擎爬虫访问(如 User-agent: Baiduspider Allow: / ),同时防护系统可读取该文件,对符合规则的爬虫自动放行。
     
    二、避免误伤的细节优化
     
    1. 白名单优先级高于通用防护规则
    确保搜索引擎爬虫的白名单在防护逻辑中优先级最高,跳过“IP切换阈值”“Cookie检测”等常规限制(部分搜索引擎爬虫可能不支持Cookie或频繁切换IP)。
    2. 为搜索引擎爬虫定制流量规则
    对已知搜索引擎爬虫,可适当放宽令牌桶限流的阈值(如允许更高的访问频率),避免因爬虫抓取量大而被误判为异常流量。
    3. 建立异常监控与人工复核机制
    - 监控白名单内爬虫的访问行为,若出现远超正常抓取频率的异常(可能是被伪造),可临时触发人工审核。
    - 提供爬虫访问日志查询功能,便于排查“搜索引擎未收录”是否因拦截导致。
     
    三、长期维护策略
     
    - 定期更新搜索引擎官方公布的IP段和UA信息(部分搜索引擎会调整爬虫配置)。
    - 与搜索引擎平台建立沟通渠道(如通过百度搜索资源平台、谷歌Search Console),若发现爬虫被拦截,可快速提交申诉并获取技术支持。
     
    通过“精准识别+规则豁免+日志监控”的组合策略,既能保障搜索引擎爬虫正常抓取,又能避免恶意爬虫冒充其身份绕过防护。
    回复00