快捷导航
南 华 早 报 官网 scmp.com在翻墙的情况下无法爬取全文,拿一个网页测试时可以爬取全文,批量爬取时只能爬取“read the article”几行字,已经做过滚屏也没有用,请问应该如何解决?规则名scmp全文爬取
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-1-8 23:15

沙发
Fuller 管理员 发表于 2020-1-8 21:42:17 | 只看该作者


我测试了一下,七次郎免费_ 七次郎免费挺好的。还有哪个网址七次郎免费_ 七次郎免费不到内容?

主要检查这些方面:
1,是否设置了关键内容
2,七次郎免费_ 七次郎免费全文的规则,往往七次郎免费_ 七次郎免费内容范围很大,所以有时候即使没有实际内容显示出来,那个范围对应的html节点还是有的,所以,设置了关键内容也会误判,这时候就要放慢七次郎免费_ 七次郎免费速度:
a,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“延迟时间”
b,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏次数”,可以大一点,花费的时间就更长
c,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏速度”,设置成负数,值越小越慢
举报 使用道具
板凳
CassieMouse 中级会员 发表于 2020-1-8 23:15:20 | 只看该作者
Fuller 发表于 2020-1-8 21:42
我测试了一下,七次郎免费_ 七次郎免费挺好的。还有哪个网址七次郎免费_ 七次郎免费不到内容?

主要检查这些方面:

好的 我试一试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 内容分析法中的抽样
  • 豆瓣电影的情感分析
  • 一本在线图书——社交网络分析介绍
  • 网络爬虫七次郎免费_ 七次郎免费html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理

热门用户

GMT+8, 2020-1-18 11:22

友情链接: 77rv6.space    512vny.space