火车头js采集（火车头采集器发布模块）

本文目录一览：

js一般是通过ajax来获取列表，你可以找到ajax中的GET地址或者POST地址，来取得分页内容。

还有一点就是没有ocr功能，58同城和赶集网采集的电话号码都是图片格式，python可以用开源图像识别库解决，对接进去识别便可。

也就是一个火车头最多可以跑100个线程，平均采集一章大概时间为1秒（加上列表采集所耗时间进行平均），10万本书的站，大概5000万加的章节，数据采集完毕大概需要一周时间，这是在你服务器配置比较好的情况下。-火车头js采集

discux是可以用火车头采集的。DiscuzX火车头采集器免登陆发布模块是一款专为DiscuzX4论坛而开发的采集器，它能够在不需要登录的情况下，采集网络上的优质文章，并发布到论坛中。

可以通过浏览器的调试功能，例如Firefox按F12，点网络标签，然后就可以看到网页的所有数据信息，网页通过AJAX异步加载的数据也可以得到。

后台源代码里看不到的内容你用火车头当然采集不到。比如有些内容是通过js调入的，你得去分析js是怎么调用的，调入的是哪个网址。推荐使用抓包工具去分析找到真正的你想要抓的网址。

服务器问题，使用起来，在生成数据的时候占CPU资源，采集完成后，就会却没有内容，是空的。还有一个原因就是采集的程序编写有错误。在一个就是你采集的网站有防采集程序。

第一是可能你采集到的没有内容。第二可能是输出的txt模板文件标签和你的规则不对应。

这个是没办法了，建议你用八爪鱼采集器吧八爪鱼采集器的规则是个版本都通用的而且系统会自动保存，恢复，不会丢失，除非你自己删除更重要的是八爪鱼采集器是还是免费的，新手上手比火车头简单很多。你可以试试。-火车头js采集

运行任务采集不到的话有可能是：你的第一步，采集网址的配置出问题的话，那么火车头就无法到达内容页面从而无法采集到内容。

无论你是否排除p标签，采集下来的文章都是没有段落的，因为火车头采集的是源文件，你打开源文件看下，跟你采集的一样都是没有段落的，只有生成了页面，p标签控制了段落才会在页面上表现出段落分明的文章。

1、js一般是通过ajax来获取列表，你可以找到ajax中的GET地址或者POST地址，来取得分页内容。

2、先把分页标签找到，再找到结束标签，找到中间上下翻页控件名字然后对采集分页的img的“进行制定正则表达然后测试采集调整几下就会了。

3、第一步采集网址，下载好火车头采集器后打开，新建一个任务，任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页，每页有N篇文章。

火车头js采集（火车头采集器发布模块）