0551-62864156-606
一、火车采集器介绍
火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程序。
与同类软件相比优势有如下:
1. 通用性强,无论新闻论坛视频黄页图片以及下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,几乎都能采集到你所需要的内容。
2. 稳定高效,七年磨一剑,软件不断更新进步,同步于互联网的发展,永不落后,采集速度快,性能稳定,扩展性强,适用范围广。自定义web发布,自定义主流数据库的保存和发布,自定义
本地php及.net外部编程接口数据处理,让数据都能为你所用。
二、火车采集器术语
为了让大家更快更容易的上手火车采集器,先把关于采集器的几个重要也是必须要知道术语介绍下。
采集规则: 所谓采集规则就是我们要采集一个网站时,在软件里面进行的设置。这个设置可以从软件里面导出并保存成一个文件后缀名为.ljobx ,并且这个规则可以再导入任意一个火车采集器
里面使用。换句话说,就是用火车采集器能理解的方式告诉火车采集器我们要采集哪个网站,要采集网站里面的哪些信息的一系列设置。
发布模块:所谓发布模块就是在需要将已经采集到的数据发布到目的地(比如:发布到指定的网站上面或者发布到指定的数据库里面)时在火车采集器里面进行的设置。这个设置可以从采集器里
面导出成一个文件,并且可以把这个文件再次导入任意的火车采集器里面,多次使用。发布到指定网站的设置称为WEB在线发布模块后缀名是.wpm。其工作原理是:将采集的数据以POST方式
发送到网站页面程序中,并由网站程序对数据进行处理然后入到网站的数据库里面。发布到指定数据库的设置称为数据库发布模块,后缀名是.dbm。其工作原理是:连接数据库,将采集的数据
采集任务:采集规则告诉采集我要采集什么,发布模块告诉采集器采集到的数据放到那里,这两者合在一起,就是一个包含数据采集和数据发布的采集任务。
发布接口:发布接口就是一个小的页面程序通常和WEB在线发布模块配合使用。来满足用户的特定需求。简单的说就是采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照
用户特定需求处理数据,用户可以更加灵活自由的处理采集器采发送的数据。
插件:插件可以让用户通过自己写的PHP者.NET程序放到采集器中对采集的数据进行处理。
页面源代码:在使用采集器的过程中我们经常会说到查看源代码,那么如何查看什么是页面源代码呢?
右击页面空白处:
我用的是ie有的浏览器叫做“源文件”都是一样的。选择后我们打开了这样页面的源文件如下图:
上图看到我们在页面看到的内容是同样存在于页面源代码里面,而且采集器采集信息的时候也是通过页面源代码,换句话说你看信息是通过页面,采集器看信息是通过源代码。以后规则设置
都是通过页面源代码的。
三、采集器工作原理
什么是数据采集?我们可以这样理解,我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上。我们的这个过程,就可以称作一
个采集,将别人网站上对自己有用的信息转到自己网站上。
采集器正是这样做这样的工作,不过整个过程是由软件完成的。我们可以这样理解,我们复制文章的标题和内容,是我们可以知道什么地方是内容,什么地方是标题,但是软件是不知道的,所以
我们要告诉软件,要怎么采,这就是写规则的过程。我们复制完了,打开我们网站,比如论坛发帖的地方,然后粘帖发表,对软件来说,就是模仿我们发表帖子的过程,去发表文章,怎么发布,
这就是数据发布了。
正如上面所述,采集器就是模拟人向所要采集的网站发出请求信息,对方网站把数据返回给采集器,采集器根据你设置的采集器规则,从返回网页的页面源代码里采集网站上的数据。不同的是,
我们人看的是页面上的信息,而采集器看的是页面源代码里的信息。如下图示意图: