# 爬虫加速

要最大限度提高 novel-plus 爬虫的采集速度,可以从以下几个方面着手:

# 1. 启用动态代理 IP (opens new window)

动态代理 IP 是应对目标网站反爬策略的有效手段,可以避免因单一 IP 请求频繁而被封禁或限速。强烈建议在提高采集速度之前,先配置好动态代理。

# 2. 设置采集间隔时间

将爬虫的最小和最大采集间隔时间设置为相同值,能够取消爬虫的采集等待,从而提升整体采集速度。例如:

Copy
crawl:
  # 采集间隔时间,单位:毫秒
  interval:
    min: 0
    max: 0

如果未找到以上配置项,请手动将其添加到 novel-crawlapplication.yml 配置文件中。

⚠️ 注意事项:在未启用动态代理 IP (opens new window) 的情况下,请勿将采集间隔时间设置得过短,或将最小值与最大值设置为相同。此类高频、规律性的请求极易被目标网站识别为异常行为,导致 IP 封禁或限速。

# 3. 多进程 / 多机器并发运行

可在同一台或多台机器上运行多个 novel-crawl 实例,以实现更高的并发采集效率。

建议在启用多实例运行时务必配合使用动态代理 IP (opens new window),以避免因单个 IP 流量过高被屏蔽。


温馨提醒: 如果你想提高采集速度,最好使用独享的爬虫源。共享源使用人数多,采得太快可能会把目标网站“爬崩”。

Last Updated: a few seconds ago