# 爬虫加速
要最大限度提高 novel-plus 爬虫的采集速度,可以从以下几个方面着手:
# 1. 启用动态代理 IP (opens new window)
动态代理 IP 是应对目标网站反爬策略的有效手段,可以避免因单一 IP 请求频繁而被封禁或限速。强烈建议在提高采集速度之前,先配置好动态代理。
# 2. 设置采集间隔时间
将爬虫的最小和最大采集间隔时间设置为相同值,能够取消爬虫的采集等待,从而提升整体采集速度。例如:
crawl:
# 采集间隔时间,单位:毫秒
interval:
min: 0
max: 0
如果未找到以上配置项,请手动将其添加到
novel-crawl
的application.yml
配置文件中。
⚠️ 注意事项:在未启用动态代理 IP (opens new window) 的情况下,请勿将采集间隔时间设置得过短,或将最小值与最大值设置为相同。此类高频、规律性的请求极易被目标网站识别为异常行为,导致 IP 封禁或限速。
# 3. 多进程 / 多机器并发运行
可在同一台或多台机器上运行多个 novel-crawl
实例,以实现更高的并发采集效率。
建议在启用多实例运行时务必配合使用动态代理 IP (opens new window),以避免因单个 IP 流量过高被屏蔽。
温馨提醒: 如果你想提高采集速度,最好使用独享的爬虫源。共享源使用人数多,采得太快可能会把目标网站“爬崩”。
← 安装教程