首页 | 小言视角 | 文摘 | 我的收藏 | 我爱我家 | 技术中心 | 学无止境留言本 |
当前位置:首页>>学无止境>>软件应用>>正文
LocoySpider帮助文档(火车头采集器)

文章来源: 文章作者: 发布时间:2006-04-15   字体: [ ]

1 程序介绍

LocoySpider是中国菜鸟网推出的一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的数据发布或导入到任何一款程序支持的系统中,目前支持的系统有: phpwind3.x/4.x discuz2.5 /3.x/4.x全系列 Dvbbs phparticle Dedecms xydw。
2 使用环境和安装说明

2.1 使用环境

LocoySpider采用Visual C#编写,可独立在Windows2003下运行,如您在Windows2000、Xp等环境下使用请先到微软官方下载一个.net framework1.1或更高环境组件:
附:.net framework 1.1下载地址:http://www.microsoft.com/downloads/details.aspx?FamilyID= 262D25E3-F589-4842-8157-034D1E7CF3A3&displaylang=zh-cn
.net framework 2.0下载地址:http://www.microsoft.com/downloads/details.aspx?familyid= 7ABD8C8F-287E-4C7E-9A4A-A4ECFF40FC8E&displaylang=zh-cn
2.2 安装说明

当您系统配置好程序运行环境后,请在我们官方网站下载最新版本的LocoySpider,程序使用winrar压缩打包,下载后请使用winrar.340以上解压,然后进入程序目录双击LocoySpider.exe即可运行。

3 界面说明

3.1 采集网址列表

3.2 采集器配置

3.3 采集规则修改与配置以及规则测试

3.4 采集器登录系统对象

3.5 采集器导入数据(待完善)

4 操作流程说明

4.1 确认采集目标网站,在此我们以采集163教程为例;

4.2 打开LocoySpider,输入我们要采集的地址“http: //news.163.com/special/g/0001124K/gnywmore.html”,并输入采集规则:在连接地址必须包含中输入 “/05/”,页面内区域选定采集网址中输入:从“国内新闻”到“专家推荐”,当年,对于你要采集的站点,你就需要具体情况具体分析了,不过基本大同小异;

4.3 点击采集连接,我们会看到采集到的相应连接,保存名称为“news-163”。

4.31对于某些站点,如sunvv的爱情笑话,我们采集其网址的时候,可以使用网址添加方式2的手动数字递增相似网址的功能,在相似网址里面填入http://www.sunvv.com/list/6_(*).html,然后通配符范围填1-3,当然对于你的采集就需要具体情况具体分析了,对于某些站点可能还需要选择那个补零选项,具体问题具体分析了,然后点击生成网址,等需要的网址生成后,在按照上一步的操作,连接地址必须包括填入/joke/(注:此处限定同样支持正则,你限定的条件越准确越能抓取到你需要的地址),然后点击右下脚的采集多页二级连接,当全部采集完成后,命名,love,然后点击保存二级网址;

4.4然后我们进入下一步全局配置,单击新建规则

4.5现在我们在浏览器中打开刚才我们采集到的网址列表中的任一条连接,察看其源代码,浏览器的上面菜单栏查看-源文件。

4.6查找标题,并在采集器中写入规则,就是找出标题两边的网页原码是什么,然后填入到相关框框里面;

4.7查找内容,查找你需要采集内容的两端限定网页代码,注意,限定代码必须唯一,然后填入采集器相关框框;

4.8在排除内容中输入需要排除的内容,就是去掉那些讨厌的广告阿,还有那些影响破坏采集后网页布局的代码,支持正则排除。(注:如遇到每页都有可能不太一样的内容,可以用(.*)来替代,以这个规则为例

“<img src="/newimg/arc_i.gif" alt="锁锁" width="12" height="11" border="0" class="icon" />
</div>
<!-- page -->
</div>”

为要排除内容,但alt="锁锁",不是每页都一样的,我们用alt=“(.*)"来替换它,正确的排除为

“<img src="/newimg/arc_i.gif" alt="(.*)" width="12" height="11" border="0" class="icon" />
</div>"
<!-- page -->
</div>”

4.9在页面测试中输入刚才的网址,并点击开始进行测试下刚刚配置的规则,看是否能争取采集到您所需要的标题,内容等信息,成功,则命名规则,然后点击保存;

4.10好了,下载我们返回全局配置,刷新两边的列表,找到刚刚采集的网址列表和刚刚建立的与之相匹配的网页规则,把前面的小框框钩上,进入下一步登陆发表

4.11选择你需要发布的系统,即确保系统代码类型列表中针对你所选用的那款系统前的小圆圈中有个黑点:),然后输入登陆地址及登陆名称、密码等,点击登陆,会看到登陆成功

4.12对于dedecms的登录,我们需要点击登录后,再点击刷新列表可能提示无法获得cookies,这个时候我们就需要手动来伪造一个 cookies,使用的工具有,WinSock Expert、oprar等,下面介绍怎么使用opera浏览器来获得并伪造cookies,用opera打开你的dedecms登录页,然后登录,登录成功后,进入opera菜单的首选项;

然后进入到高级菜单,点选里面的Cookies;

找到你刚刚登录的网址,比如我本地测试的就是下面这个,点击,就会看到下图样的;

双击图里面面的那个PHPSESSID:.........那个就可以看到下面这个菜单,当然,你也能够看到类似的界面的;

拷贝上面的PHPSESSID和下面的ae34c0a.......940到采集器的伪造cookies那个框框里面去,然后在PHPSESSID 和ae34c0a.....940直接用=连接,即PHPSESSID=ae34c0a.....940的形式,当然每个人的ae....后面这串是不同的,OK,成功,然后再点刷新列表,看到什么了,:)自己试,这个不截图了,其他需要伪造cookies的系统类同操作。

4.12嘿嘿。话接上面成功登录的PW系统,先刷新下列表,选择要发布到的id(注:有时可能刷新不出来,我们也可以自己手动添加id),点击发表,我们会看到已经开始采集了
ps:表激动啊!~~

4.13我们来看看采集的结果吧
ps:哈哈,成功了~~

最后,要是还不会,建议买两片豆腐回家,撞死。

本教程Made By King.Liu&小李飞刀&火车MM

如您还有任何问题,欢迎加QQ:375856862 QQ群:16326410 或者登录我们的官方网站参与讨论。



↑返回顶部   打印本页   关闭窗口↓  
 
相关信息

·Windows Server 2003认得U
·利用CSS使网页居中对齐
·用Dreamweaver做搜索表单
·像素字体使用技巧
·windows.open()参数列表(
·像素字体 pixel font 入门
·日本网站网页素材
·在DOS下安装Windows XP前

热点文章

·推荐一个好东西:免费电话
·上传软件LeapFtp的使用方
·Flashfxp使用指南(网站文
·如何关闭FlashFXP的被动模
·十大常遇流氓软件完全卸载
·IE最新高危漏洞非官方补丁
·LZK主讲网页制作入门(图
·corelDRAW12教程:女性内衣

推荐文章

 

首页>>学无止境>>软件应用>>
语深深版权所有 2005-2008