×

火车头采集教程

火车头采集怎么设置采集网址规则啊?火车头采集下来怎么发布到网站上

admin admin 发表于2022-05-08 01:06:35 浏览134 评论0

抢沙发发表评论

火车头采集怎么设置采集网址规则啊

“我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊...如果没有数字的网址怎么采集呢!如某个网址是list_50.html ...上图 才... ” ---------------------------- 有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化就无法访问列表页的第一页。 我不知道在火车头里面怎样解决这个问题的。在熊猫采集里面是可以忽略这个问题的,只需要鼠标选择列表页中指向下一页的链接,就能翻页访问。因为熊猫使用的是机器训练的采集设置方式。不需要用户手工设置这些。 少数没有下一页的列表页中,遇到这种情况,可以使用参数列表方式解决。你可以在火车采集器里面找找是否有“参数列表”的翻页方式。 有些采集软件中,可以直接同时输入多个列表页地址。这样也就不必去设置翻页参数,也很简单。熊猫中不支持这种方式,不知道火车采集器是否支持。如果支持,你可以直接输入多个列表页地址,换行区分即可。

火车头采集下来怎么发布到网站上

1、运行火车头软件,点击发布到发布窗口界面;2、点击添加,依次选择发布接口,选择网站编码、填写后台路径、(因为是免登陆接口)选择不需要登录&(注意:如果无法获取列表说明没有配置成功,检测接口文件是否上传,后台路径是否正确等)3、如果你需要同时发布到多个网站,请重复2操作,原则上可以发布N个。4、配置完发布接口后回到火车头界面,双击你要发布的采集规则,进入采集规则 编辑任务窗口,切换到第三步:发布内容配置;5、点击 启用 Web在线发布到网站,然后添加发布配置,在弹出Web发布配置窗口选择你你的发布配置,点击添加,多个网站发布可以多选;6、双击你添加的网站发布,点击获取列表 绑定你要发布到网站的指定栏目的栏目ID,保存规则,到此你的采集规则发布到网站已经配置好了;7、如果你要一条采集规则多个网站发布就重复第6步,原则上可以发布N个站。

火车头采集器怎么采集今日头条文章

第一步采集网址,下载好火车头采集器后打开,新建一个任务,任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页,每页有N篇文章。2列表页会一级网址,添加多级网址获取,从而获取二级网址(文章页网址)设置列表分页获取,3个地方分别是:分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接,因为有34个列表页面。设置完保存。网址获取选项,这一步用于获取列表页上面文章页的链接,根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制,设置完保存。设置好链接采集规则后,可以测试网址,看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。第二步是采集内容,首先修改标题规则,在页面源代码里面找到标题的代码,把标题前后代码负责过去截取出标题。保存。修改内容采集规则,跟标题规则差不多,也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签,所以得添加一个html标签排除的规则。完成后,测试看一下结果,从测试结果来调试规则,直到测试结果是自己想要的内容为止。第三步是采集导出。前面1、2两步把规则设置好,最后就要把文章导出了。先做一个导出的模版。然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认,保存。把采集网址,采集内容,发布3个选项框都勾选,然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。火车头采集器采集文章教程到此就完成了,由于每个网站都是不一样的,所以这里只能用一个网站演示,只是一个方法思路,自己采集文章还需要灵活变通。