×

火车头采集

八爪鱼采集和火车头采集那个比较好用?如何使用火车头采集器采集网页图片详细图文教程

admin admin 发表于2022-05-12 14:34:33 浏览133 评论0

抢沙发发表评论

八爪鱼采集和火车头采集那个比较好用

两者的采集方式不太一样,火车头是老牌的采集器了,用户群体比较大,使用起来效率也高,遇到不懂的问题,能够找到很多解决方案。八爪鱼这几年的用户群体也在不断增加,也有一部分用户群体,火车头采集器需要用插件处理的,八爪鱼只要写对正则表达式就行了。两者存在一定的差异,采集器都有一定门槛,都需要耐下心来学习,使用的越多,会越熟练。具体哪个好用,哪个不好用,看自己喜好,还有就是自己的使用需求了。个人观点:我比较喜欢用火车头,也用了多年,一直在用,八爪鱼也用过,但是用不习惯,哇O(∩_∩)O哈哈~

如何使用火车头采集器采集网页图片详细图文教程

  火车头采集器采集信息分两个步骤:  1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。  2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。  1,采网址。  网页上的产品信息就是所想采的,即为目标。  在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。  然后点击测试按钮测试所填信息的正确性:  测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。  2,内容的采集  经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。  明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:  找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取《span》Description:《/span》作为开始字符串,《/span》为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。  填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。  这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:《li id=“current“》(*)Compare Prices(*)《a href=“[参数]“ onClick=“(*)“》Product Details,填入模块,并测试是否成功。  如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。  这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。  这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。

Phpcms设置火车头采集器发布模块时的全局变量设置怎么填

Phpcms设置火车头采集器发布模块时的全局变量设置怎么填?在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。0 1MFLOVEYAN2020-11-18 超过60用户采纳过TA的回答关注本人钻在火车头web发布配置一整天终于琢磨出怎么用了。看了点教程,没有说道点子上。其中遇到的问题现在记得很清楚相信正在钻研的朋友也是一样。趁热跟大家分享一下。火车头采集第一、二步不会的自己去找教程,网上多的是。 直接进入 web的发布的配置(bdyxel原创)进去之后先选择你要发布的web网站类型,我这里以phpcmsV9为例,内容不用编辑了,都是编辑好的,这点真是比以前方便不少第三步先配置网站,我用的是(在内置浏览器登录)输入登录的网址,和其他浏览器一样。之后点微型浏览器里的确定即可。注意地址栏里的红色标识。就这个地方让我绕了大半天(bdyxel原创)我们看到我这里 pc_hash=4PwPGS每次登录pc_hash这个全局变量值都会改变所以登录操作只能用“使用内置浏览器登录”并获得pc_hash这个变量的值手动填写到“全局变量设置”里。然后将值 填在第二步 (bdyxel原创)然后 编码设置网站根目录一定要填,不知道根目录是什么的自己去百度获取列表 选择要发布的列表(bdyxel原创)测试配置注意:标题和内容需要自己手写。 直接点修改就OK了。然后直接点修改,值里面不是空的就点发表文章测试。测试完,在内置浏览器中浏览。可以看到了在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。