用火车头采集器怎样收集网站上的信息
先去下载火车头采集软件吧,两种方法,一种是按关键字采集,也就是没有限制采集哪个站点的文章,另一种是你提供具体的板块链接,然后按关键字采集,只采集当前提供的地址。
火车头采集器的术语介绍
发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。) 发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。方式一:Web在线发布到网站 这种发布方式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。方式二:保存为本地文件 这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。方式三:导入到自定义数据库 这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,采集器支持连接Mysql、Access、Oracle、MSsql数据库。方式四:保存为本地Sql文件(Insert语句) 这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。 采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。
如何使用火车头采集器采集网页图片详细图文教程
火车头采集器采集信息分两个步骤: 1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。 2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。 1,采网址。 网页上的产品信息就是所想采的,即为目标。 在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。 然后点击测试按钮测试所填信息的正确性: 测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。 2,内容的采集 经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。 明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集: 找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取《span》Description:《/span》作为开始字符串,《/span》为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。 填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。 这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:《li id=“current“》(*)Compare Prices(*)《a href=“[参数]“ onClick=“(*)“》Product Details,填入模块,并测试是否成功。 如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。 这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。 这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。