火车头采集规则

时间：2024-07-08 10:53:53编辑：阿星

火车头采集下来怎么发布到网站上？

1、运行火车头软件，点击发布到发布窗口界面;

2、点击添加，依次选择发布接口，选择网站编码、填写后台路径、（因为是免登陆接口）选择不需要登录&http请求，然后获取列表看看是否成功，成功后请保持配置。
（注意：如果无法获取列表说明没有配置成功，检测接口文件是否上传，后台路径是否正确等）

3、如果你需要同时发布到多个网站，请重复2操作，原则上可以发布N个。
4、配置完发布接口后回到火车头界面，双击你要发布的采集规则，进入采集规则编辑任务窗口，切换到第三步：发布内容配置;

5、点击启用 Web在线发布到网站，然后添加发布配置，在弹出Web发布配置窗口选择你你的发布配置，点击添加，多个网站发布可以多选;

6、双击你添加的网站发布，点击获取列表绑定你要发布到网站的指定栏目的栏目ID，保存规则，到此你的采集规则发布到网站已经配置好了;

7、如果你要一条采集规则多个网站发布就重复第6步，原则上可以发布N个站。

如何使用火车头采集器采集网页图片详细图文教程

　　火车头采集器采集信息分两个步骤:
　　1，采网址。这一步也是就告诉软件，有多少个网页需要去采，并给出具体的网页地址。
　　2，采内容。有了网址之后，就可以去这个网址上采集信息了，但网页上信息众多，软件不知道你想采哪些。在采内容部分，就要做规则了。告诉软件我想采什么。
　　1，采网址。
　　网页上的产品信息就是所想采的，即为目标。
　　在采集链接页面里，输入采集地址的列表页，这里要注意无用链接的过滤。

　　然后点击测试按钮测试所填信息的正确性：
　　测试正确以后，我们对地址进行扩展，现在我们只不过是采了一张列表页的文章地址，还有其它的列表要需要采集，其它的列表页就在它的分页上，我们观察这些分布的链接形式，找出规律，然后批量填入网址规则。

　　2，内容的采集
　　经过上面的处理，目标产品页的链接都已经能够采到，下面我们进入内容的采集。
　　明确好要采集的内容以后，我们开始编写采集规则,火车头采集内容是采集网页的源代码，因此我们要打开产品页的源代码，找到我们要采集信息所在的位置。比如，Description字段的采集：
　　找到Description的位置，找到之后，如何填写采集规则呢，很简单，只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取Description:作为开始字符串，为结束字符串。值得注意的是，开始字符串必须在本页面是唯一的，并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。
　　填完以后并不表示就能采集正确了，还需测试一下，排除一些无用数据，排除可在HTML标签排除和内容排除中进行。测试成功后，这样一个标签就制作好了。
　　这里我们使用通配符来实现这一要求。我们把不通用的地方用（*）通配符来表示任意。而要采集的地址我们用参数（变量）来表示。最后我们将这段内容变为：(*)Compare Prices(*)Product Details，填入模块，并测试是否成功。
　　如果测试没有成功，那说明你填入的内容还不符合唯一且通用的标准，还需要调试。测试成功以后，可以保存，进入标签的制作了。
　　这里的标签制作与上面的是一样的，找到要采集信息的所在地，填入开始结束字符串，并做好过滤，唯一的不同的在于所属页面选项里要选择刚才制作好的模块，这里就不赘述，直接显示结果了。
　　这样标签就制作完成了。点击更新以后，去掉发布选项，就可以进行任务的采集了。

火车头如何自动采集

说下我做采集的方式哈，我这边主要有两种方式，第一个，常规站点，内容很全，那就先找一个采集源，然后爬取整站数据，注意，这种方式，如果源站小说比较多的话，会非常耗时，按火车头十个进程来计算的话，一个进程可以开十个线程，也就是一个火车头最多可以跑100个线程，平均采集一章大概时间为1秒（加上列表采集所耗时间进行平均），10万本书的站，大概5000万加的章节，数据采集完毕大概需要一周时间，这是在你服务器配置比较好的情况下。然后就是发布，发布不能多线程，那么时间就得翻倍，也就是差不多两个多月时间吧。这也是为什么有人说火车采集小说比较慢的原因了。原始内容采集完了，然后每天就采集更新了，方式如第二点。
那么第二个，就是直接采集每日更新，以前的旧书就不采集了。这样的话，速度会比较快。当时就能用。火车头设置好定时任务，自动触发。
这是火车头采集小说网站的传统方式。
我研究火车头采集一个月，找到一个比较合适的快速采集方式，经多方位，多客户测试，采集10万本书，发布完毕，大概就是两天的时间。
具体时间跟服务器配置有一定的关系，比如，硬盘读写速度快慢、网络带宽(火车头放在服务器上的可以忽略)等，测试2H4G美国服务器，10万本大概两天加几个小时，采集需要花几个小时，发布大概接近两天时间。然后每日定时更新即可。
可百度搜索“九七阅读”查看站点，有书库频道，时间一看就知道了。

火车头采集怎么设置采集网址规则啊？

“我采集一个网页的地址，起始找的是一个层,终止也找了一个层这样不行啊...如果没有数字的网址怎么采集呢！如某个网址是list_50.html ...上图才... ”
----------------------------

有些网站的列表页翻页参数中，第一个参数是无效的，利用数值变化就无法访问列表页的第一页。

我不知道在火车头里面怎样解决这个问题的。在熊猫采集里面是可以忽略这个问题的，只需要鼠标选择列表页中指向下一页的链接，就能翻页访问。因为熊猫使用的是机器训练的采集设置方式。不需要用户手工设置这些。

少数没有下一页的列表页中，遇到这种情况，可以使用参数列表方式解决。你可以在火车采集器里面找找是否有“参数列表”的翻页方式。

有些采集软件中，可以直接同时输入多个列表页地址。这样也就不必去设置翻页参数，也很简单。熊猫中不支持这种方式，不知道火车采集器是否支持。如果支持，你可以直接输入多个列表页地址，换行区分即可。

火车头采集器怎么用？

软件程序的获取：大家可以从百度中搜索“火车头采集器”，并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序：请点击输入图片描述请点击输入图片描述2安装并运行“火车头采集器”程序，在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。请点击输入图片描述3在程序主界面中，点击“新建”下拉箭头，从中选择“任务”项。请点击输入图片描述4在弹出的窗口中，输入“任务名”，同时点击“起始网址”栏目右侧的“添加”按钮。请点击输入图片描述5接下来就极为重要的一步，就是对要进行采集的网站进行分板，对所采取的网站中各片文章的URL进行综合分析并找出规律，最后按如图进行填写。请点击输入图片描述6然后切换至“第二步：采集内容规则”选项卡中，我们需要对网页内容进行分板。在此以“搜狗浏览器”为例，右击要进行分析的网页，从弹出的菜单中选择“审查元素”项。请点击输入图片描述7在“开发式模式”界面中，点击“选择页面中的一个元素去透视”按钮，接着点击“标题”内容，此时就可以在“开发者”窗口中显示标题所对应的标签，此例为“h2"。请点击输入图片描述8接下来在”采集内容规则“界面中，点击“添加”按钮来添加“标题”项，或者直接双击“标题”项进行修改。在弹出的界面中，勾选”前后截取“，将设置前后辍分别为"“、”".请点击输入图片描述9利用同样的方法添加其它采集内容的规则。切换至“第三步：发布内容设置”选项卡，勾选“启用方式二”，并进行如图设置。请点击输入图片描述10最后从任务列表中，勾选要采集的内容，点击“开始”按钮就可以按规则采集网站中的网页内容啦。请点击输入图片描述如果还有啥问题，请留言或者私信，如果回答的还算可以，请列为最佳答案

上一篇：火车头采集器

下一篇：小天鹅电磁炉