×

thinkphp火车采集

thinkphp火车采集(火车采集器是干什么的)

admin admin 发表于2023-04-04 07:52:09 浏览53 评论0

抢沙发发表评论

本文目录一览:

火车采集器使用PHP插件配置循环标签的方法

*参数说明:

* LabelUrl - 当前采集的页面的Url地址

*$LabelCookie - 当前采集页面,服务器返回的Cookie信息。

根据以上参数可以推断,我们需要在$LabelArray['Html'] 中对原标签进行处理

例如(替换):

插件中:

if( LabelArray['PageType']=="Content")

{

LabelArray['Html']);

}

else if( JsonData[initDataObj][goods][skus] as specs = normalPrice = groupPrice = skuId = shuxing = "";-thinkphp火车采集

foreach ( spec) {

spec[spec_key].'/spanspan:'. shuxing = spe;

}

shuxing.'/spanspan单价:'. sku[groupPrice].'/spanspanskuId:'. LabelArray['Html']='test'. LabelArray['Html'];-thinkphp火车采集

}

遇到的坑:

测试时在else if( LabelArray['PageType']=="List")中处理

一个插件文件需要在对应的配置中选择才会执行,例如插件有请求处理,结果处理,但是火车头配置中至选了结果处理插件,则请求的部分不会执行

火车头采集,我用迷你FTP设置好,然后在火车头那文件上传那设置好,但是不能上传到FTP空间。

首先你要确定网络和端口是否正常,服务器是否正常

然后,看说明

火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车头采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,SQLite,MySql,MS SqlServer内。-thinkphp火车采集

火车头采集器2010版相对旧版做了重大改进。添加了许多新功能。同时软件更稳定快速。

火车采集器添加的功能:

1.丰富的插件功能:新版中PHP插件和C#插件可以在采网址时,采内容时,采完内容后使用插件,而不限是什么插件.同时对对插件开发提供了更加详细的开发手册,可以方便用户实现自己的特殊要求.

2.任务运行日志:程序将对运行的日志进行保存,方便用户在自动更新时查看采集器的工作情况.

3.更多的数据保存方式.程序可以将数据保存在access,sqlite,mssql,mysql,oracle数据库中,更快的速度,更方便的管理.

4.更方便的升级及.程序对文件目录格式进行了重新设置,用户如果不使用升级程序,只需要复制几个文件夹就可以经松完成升级.

5.支持可选的加密狗授权方式.

6.命令行模式.可以使用参数启动程序执行任务.可以通过计划任务的来实验定时采集,在采集结束后退出程序

7.中文分词增加用户词库,可以添加用户排除的词库.可以只使用用户词库.

8.本地采集数据管理里加入了图片预览功能.

9.标签可以上下进行排序.生成CSV时,就按该排序生成csv文件.测试时,返回的结果也以标签的排序进行显示.

10.图片和flash下载排除功能.对于符合条件的文件不进行下载.

11.文件上传标签里可以针对多个标签进行文件上传.

12.采网址部分在使用2级网址时可以设置列表页包含区域

13.循环采集时可以使用提取关键字,摘要等功能。

14.列表标签可以进行编辑,如排除和过滤,下载等。

thinkphp怎么使用querylist3采集

采OSC内容页内容

$url = "";

$reg = array("title"=array(".QTitle h1","text"),"con"=array(".Content","html"));

$hj = new \QueryList($url,$reg);

$arr = $hj-jsonArr;

echo "pre";

print_r($arr);

echo "/prehr/";

}

火车头采集器利用PHP 插件如何判断是否是有图新

1、我们先新建两个标签,里面起始结束代码不用填任何东西,只用于插件后面对其进行赋值操作,保存数据。

这两个标签名分别是:首图,是否图片新闻

2、复制PHP-demo.php文件,修改为 PHP-zhangthree01.php

以下为获取第一张首图和判断是否图片新闻的主要代码,php文件见附件

function bodyfirstimg($body) {

$body = strtolower($body);

if ( preg_match("/img.*src=[\"](.*?)[\"].*?/", $body, $regs))

{ //使用正则获取第一幅图像地址

return $regs[1] ;

}

else

{

return '' ;

}

}

if($LabelArray['Html'])

{

$LabelArray['Html']='当前页面的网址为:'.$LabelUrl."\r\n页面类型为:".$LabelArray['PageType']."\r\nCookies数据为:$LabelCookie\r\n接收到的数据是:".$LabelArray['Html'];-thinkphp火车采集

}

else

{

$LabelArray['首图'] = bodyfirstimg($LabelArray['内容']);

$LabelArray['是否图片新闻'] = $LabelArray['首图']==''?false:true;

}

该附件下载后解压为PHP-zhangthree01.php放到程序下Plugins目录

3、在插件配置那 考虑到采内容后还可能下载图片,所以选择在保存时选择此插件使用即可

4、以新浪新闻规则作为测试。

有没有phpcms v9的火车头采集入口

1、首先下载安装好火车头采集器软件(收费免费的本文均适用),这个我相信大家都会,如有不会的找百度或官方论坛。二、下载phpcmsv9火车头接口文件jiekou.php与发布模块,官方下载地址,本站下载地址(选本站更好些,不用转换发布模块,站在前辈肩膀上就是好,不用写接口文件也不用写模块)。-thinkphp火车采集

2、接口文件修改与上传:用软件或文本打开jiekou.php文件,找到$password='123456'; ”这句把123456修改成你想要的数字串,任意数字吧,我现在把它修改为$password='111111'; ,记下这个数字串,后面设置发布模块要用到。修改后保存,用FTP上传到你网站的根目录下,即www文件夹下。-thinkphp火车采集

3、设置发布模块:打开火车头软件,找到界面上的:发布:按钮

4、点击进入发布模块界面,我们用6步来完成模块设置,与界面上面的12345步骤顺序有所不同。1.点击新建,找到配置名处:起个配置名,在这里我把这个配置名命名为lunwen。2.选择编码设置,与自己网站的一样吧,在这里我选择GB2312.3.登录操作:首先填入网站根目录地址,如*********,记得这个一定要填根目录;然后点击“在内置浏览器中登录”按钮,用内置浏览器把网站打开,输全后台登录网址,和平时进后台方法一样,登录后台。登录成功后点下下面的“确定”按钮,点击回到模块设置界面:-thinkphp火车采集

5、这步很重要,“选择web在线发布模块”,里面没有模块,我们就点最右边的绿字“更多”,然后选择“导入”选中我们在第二步中下载好的phpcmsv9发布模块phpcms9.wpm(官方下载的叫phpcms9.cwr,需要转为wpm格式,欢迎页界面的扩展上可以转)。导入后,点绿色字“编辑”,进入编辑界面,点击获取栏目列表,看到界面中“刷新列表页面”中的地址:/jiekou.php?pw=123456,后面的123456数字串要改为与jiekou.php里的一样,即/jiekou.php?pw=111111,前面jiekou.php里我们是设置为了111111,所以这里改为与之一样。-thinkphp火车采集

phpcms v9火车头采集器接口设置图文教程

6、设置完后再点击“内容发布参数”按钮,设置方法和上面图中的一样,见下图吧

phpcms v9火车头采集器接口设置图文教程

7、上面设置好了,这步就点“获取列表”,如果上面设置都正确,就会自动获取到网站的所有栏目,如果不能获取就说明上面设置不对,重新检查一次看看。6.成功获取列表后就算成功了,点击“保存设置”,模块设置成功。6步走总图见下图-thinkphp火车采集

phpcms v9火车头采集器接口设置图文教程

8、下一步就等着写采集规则了,做过采集的写火车头采集器采集规则应该不难,都差不多,只要在有多页时注意一下就行了,不懂可以查下百度或论坛,例子很多也很全。

Phpcms设置火车头采集器发布模块时的全局变量设置怎么填

Phpcms设置火车头采集器发布模块时的全局变量设置怎么填?在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。-thinkphp火车采集

在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。

0 1

MFLOVEYAN

2020-11-18 超过60用户采纳过TA的回答

关注

本人钻在火车头web发布配置一整天终于琢磨出怎么用了。看了点教程,没有说道点子上。其中遇到的问题现在记得很清楚相信正在钻研的朋友也是一样。趁热跟大家分享一下。

火车头采集第一、二步不会的自己去找教程,网上多的是。 直接进入 web的发布的配置(bdyxel原创)

进去之后先选择你要发布的web网站类型,我这里以phpcmsV9为例,内容不用编辑了,都是编辑好的,这点真是比以前方便不少

第三步先配置网站,我用的是(在内置浏览器登录)输入登录的网址,和其他浏览器一样。之后点微型浏览器里的确定即可。

注意地址栏里的红色标识。就这个地方让我绕了大半天(bdyxel原创)

我们看到我这里 pc_hash=4PwPGS

每次登录pc_hash这个全局变量值都会改变所以登录操作只能用“使用内置浏览器登录”并获得pc_hash这个变量的值手动填写到“全局变量设置”里。

然后将值 填在第二步 (bdyxel原创)

然后 编码设置

网站根目录一定要填,不知道根目录是什么的自己去百度

获取列表 选择要发布的列表

(bdyxel原创)

测试配置

注意:标题和内容需要自己手写。 直接点修改就OK了。

然后直接点修改,值里面不是空的就点发表文章测试。测试完,在内置浏览器中浏览。可以看到了

在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。-thinkphp火车采集

在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。