快捷导航
设置了模拟点击爬取中国大学慕课里某门课的讨论区内容,但只能抓到第一页的内容,找不到原因,求帮助!任务么是Dclick1 和Dclick2.
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-1-10 22:24

沙发
Fuller 管理员 发表于 2020-1-7 21:26:42 | 只看该作者
第一级规则没有设置关键内容,那么就没有判断规则是否适合的依据,很容易七次郎免费在线视频失败,或者漏数据,至少给一个七次郎免费在线视频内容设置关键内容

举报 使用道具
板凳
Fuller 管理员 发表于 2020-1-7 21:30:13 | 只看该作者
第一级规则的样本网址:https://www.icourse163.org/learn ... 257#/learn/announce
第二级规则的样本网址:https://www.icourse163.org/learn ... 7#/learn/forumindex

很明显,各自有不同的独立网址,根本不需要做两级,只需要第二级规则就行了,看这个网址名字,估计所有课程都有类似的网址结构,最后都是 forumindex 表示论坛网页。那么可以在excel中批量把网址构造好
举报 使用道具
地板
Fuller 管理员 发表于 2020-1-7 21:39:01 | 只看该作者


第二级规则加载失败,是翻页规则失败。要注意蓝色箭头,class中含有一串数字,这种数字往往每一页都不一样,所以,要避开它,这个div不能用做翻页区,因为id和class都不能用。那么就选用含有“下一页”的那个A节点作为翻页区。另外,点击定位偏好按钮,选择偏好class,因为很多id都含有数字,会影响适应性。

最后,在创建规则工作台上,勾上关键内容,不然的话,翻页七次郎免费_ 七次郎免费容易漏数据
举报 使用道具
5#
zhaopeng123161 新手上路 发表于 2020-1-7 21:40:16 | 只看该作者
好的  非常感谢
举报 使用道具
6#
zhaopeng123161 新手上路 发表于 2020-1-7 21:53:34 | 只看该作者
您好,就按第二级规则,设了关键内容,还是只能抓一页的内容,TestDis
举报 使用道具
7#
Fuller 管理员 发表于 2020-1-7 22:40:40 | 只看该作者
zhaopeng123161 发表于 2020-1-7 21:53
您好,就按第二级规则,设了关键内容,还是只能抓一页的内容,TestDis

看我在“地板”楼的回答,按照我说的做翻页区映射和翻页记号映射
举报 使用道具
8#
zhaopeng123161 新手上路 发表于 2020-1-10 22:24:01 | 只看该作者
非常感谢指导, 已成功!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 用GooSeeker数据管家能七次郎免费_ 七次郎免费微博内容吗?
  • 怎样使用GooSeeker数据管家启动七次郎免费_ 七次郎免费任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?
  • 关于食品安全的美国联邦法规文件的网络爬虫

热门用户

GMT+8, 2020-7-12 04:29

友情链接: 78vt5.space    512vny.space