• 首 页

网站建设|北京网站建设|北京网站制作|北京网站建设首选品牌【企通互联】

http://www.qitongnet.com 网站建设咨询热线:010-65587978/77/76/75

相关文章

企通互联分析SEO服务质量好坏方法
北京网站建设站点META标签常用写法介绍
北京网站设计百度对收录新站的问题
北京网页设计肖楠谈SEO-SEO经验与实践
网站建设优化思路:搜索引擎算法之复制网页
网站建设简洁解析:网站优化的真正含义
网站制作动网论坛针对搜索引擎的优化
网站制作本地分类信息网站线下推广招数
北京网页设计执行seo项目时容易出现的八大错误
北京网站制作思考:地方性网站如何运营?


品牌理念

北京网站建设最佳合作伙伴
北京网站建设专家企通互联
竭诚为您提供网站建设服务!


友好连接

    • 网站建设
    • 网页设计
    • 网站设计
    • 网站制作
    • 网站优化
    • 百度优化
    • google优化
    • seo
    • 网站推广
    • 网络营销
    • 北京网站建设
    • 北京网站制作
    • 北京网页设计
    • 北京网站设计

文章搜索

你的位置:首页 >> 网站优化 >> 网站制作企通互联搜索引擎中网络爬虫的设计分析

网站制作企通互联搜索引擎中网络爬虫的设计分析


作者: 北京网站建设   日期:2008-03-27 06:01:49  来源: http://www.qitongnet.com

资深北京网站建设公司企通互联,专业致力于北京网站建设,北京网站制作,北京网站设计,北京网页设计领域,千余网站建设案例,公司拥有国内一流的网站建设、网站制作、网页设计团队,如果您已经有网站的,看看我们精美的网站建设案例也无妨.北京网站建设网址:http://www.qitongnet.com =======================================================================================www.qitongnet.com
字体:【大】【中】【小】

上一篇:北京网站制作传统的网站结构面临新的挑战?

下一篇:北京网站建设怎样增加网站内页权重

这是一个与众不同的品牌,企通互联只专注于网站建设领域!中小型企业网站建设最佳合作伙伴!网站建设咨询热线:010-65587978/77/76/75!

Copyright © 2008 网站建设|北京网站建设|北京网站制作|北京网站建设首选品牌【企通互联】. Designed by www.qitongnet.com Free Website Templates

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里? 北京网站制作
北京网站制作
  1)网络爬虫高度可配置性。 北京网站设计
网页设计
  2)网络爬虫可以解析抓到的网页里的链接 网站建设
北京网站设计 北京网页设计
  3)网络爬虫有简单的存储配置 企通互联
网站设计
  4)网络爬虫拥有智能的根据网页更新分析功能 北京网站制作
www.qitongnet.com
  5)网络爬虫的效率相当的高 网站建设
网站设计北京网站建设
  那么依据特征,其实也就是要求了,如何设计爬虫呢?要注重哪些步骤呢? 北京网页设计
网页设计
  1)url 的遍历和纪录 网站设计
企通互联
  这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如: 北京网页设计
北京网站制作
  cat [what you got]  tr \" \\   gawk '{print $2}'   pcregrep ^http:// www.qitongnet.com网站设计
网站建设
  就可以得到一个所由的 url 列表 网页设计
网站制作
  2)多进程 VS 多线程 www.qitongnet.com
北京网页设计
  各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。 网站设计
北京网站设计
  3)时间更新控制 网站设计
网页设计
网页设计  最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。 www.qitongnet.com
企通互联
  通常在下一次爬的的数据要跟上一次进行比较,假如连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。 北京网站建设
北京网站建设
  假如一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 网站制作 网站建设
企通互联
  注重,效率是取胜的要害之一。 网站建设
网站设计
  4)爬的深度是多少呢? 北京网站设计
网站制作
  看情况了。假如你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。 网站建设
网站设计
  假如你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道: 北京网站设计
北京网页设计
   网页深度:网页个数:网页重要程度 北京网站建设
企通互联
北京网站建设  0 : 1 : : 10 北京网站制作网站制作
网站设计
  1 :20 : :8 网页设计
北京网站制作
  2: :600: :5 北京网页设计
北京网站制作
  3: :2000: :2 www.qitongnet.com
网站制作
  4 above: 6000: 一般无法计算 网站制作
www.qitongnet.com
   好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。 北京网站建设
北京网站建设
  5)爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。 网站制作
网页设计
  apache webserver里面纪录的 304 一般就是被cache的了。 www.qitongnet.com
网页设计
   6)请有空的时候照看一下robots.txt www.qitongnet.com
网站制作
   7)存储结构。 网站设计
北京网站建设
  这个人人见智,google 用 gfs 系统,假如你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便。 北京网页设计
北京网站建设
   给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的: 北京网站设计
网站设计
   NAME=`echo $URL  perl -p -e 's/([^\w\-\.\@])/$1 eq "\ " ? "\ ":sprintf("%%%2.2x",ord($1))/eg'`mkdir -p $AUTHOR 网页设计
北京网页设计
  newscrawl.pl$URL--user-agent="news.booso.com ( http://booso.com)"-outfile=$AUTHOR/$NAME 网页设计

非凡是注重以下几句: 北京网站制作
北京网站设计
  1.通常在下一次爬的的数据要跟上一次进行比较,假如连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,假如一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 北京网站建设
企通互联北京网页设计
   网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。 网站制作
企通互联
  2.好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。 企通互联
北京网页设计
  尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想Google有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化。(责任编辑:admin02)

网站设计
(阅读次数:)