记忆盒子

把记忆装进灰色的盒子,封装起来,那年那月,重新拾起。

首页搜索目录
search
当前主题: 互联网络

Larbin爬虫惊现Feedsky

作者:Kaka    时间:2010-5-29 21:10:15    浏览:    评论:6

      今天早上进入Feedsky管理后台,从实时统计里,惊讶的发现有个“Larbin爬虫”!

 

      从地区显示来看,这个少见的爬虫来自中国Shunyi(顺义)。

      我从来没看到过有Larbin爬虫的记录,今天还是第一次遇到。为了解除疑问,我查了下有关Larbin爬虫的资料。

      Larbin的简介

      Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret 独立开发。Larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

      Larbin只是一个爬虫,也就是说Larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 Larbin也不提供。

      Larbin的作用

      1. Larbin获取单个、确定网站的所有联结,甚至可以镜像一个网站。
      2. Larbin建立url 列表群,例如针对所有的网页进行url retrive后,进行xml的联结的获取 。
      3. Larbin定制后可以作为搜索引擎的信息的来源(例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面)。

      后记

      终于大致了解了Larbin爬虫,原来Larbin爬虫是网站管理员安装的,并不是某个搜索引擎放出来的蜘蛛。Larbin爬虫爬到的网页可以放在一个特定的文件夹中,这个文件夹里还可以创建子文件夹,每个子文件夹存放N个网页,并且文件夹里边有index索引文件,记录了爬过的url序列。这样一来,确实是可以作为搜索引擎的信息来源,是一个非常实用的SEO武器。

      Larbin爬虫目前没有支持windows版本,只能在Linux下使用,但它是一个用C++编写的开源的工具。有兴趣的人可以研究下,根据自身情况制定自己的Larbin爬虫。

      Larbin官方地址:http://larbin.sourceforge.net/index-eng.html

x

标签: Internet  

※ 网站速度慢?试试网站自动优化工具 ※

上一篇: google adsense估算收入并不是实际收入
下一篇: Google Analytics不支持IE6?

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

订阅博客                   QQ交流群(312716741)

  • 通过Google订阅本站 通过鲜果订阅本站 通过抓虾订阅本站
  • 通过QQ邮箱订阅本站 通过Yahoo订阅本站 通过有道订阅本站

Search

最新评论及回复

最近留言

网站分类

Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

Copyright @2009-2024 All Rights Reserved. 粤ICP备14028160号-1

Powered By Z-Blog 1.8 Walle Build 91204
Copyright @2009-2024 All Rights Reserved.