HI,欢迎您光临本站,秉承服务宗旨,销售只是起点,服务永无止境!
    • 短视频文案
      • 励志哲理
      • 名言美句
      • 情感语录
      • 回复热评
      • 解说文案
    • 短视频素材
      • 情感励志
      • 美食小吃
      • 体育运动
      • 生活人文
      • 妙招好物
      • 风景风光
      • 影音娱乐
      • 颜值时尚
      • 游戏动漫
      • 自然景观
    • 短视频课程
      • 同城课程
      • 带货课程
      • 投放课程
      • 玩法课程
    • 中视频素材
    • 短视频工具
    • 副业项目
资源分享吧
  • 首页
  • CMS模板host
    • DEDECMS模板965
    • 易优CMS318
    • WordPress模板146
    • Discuz模板101
    • 帝国CMS102
    • 苹果cms78
    • Pbootcms24
    • zblog模板2
  • 整站源码
    • 教育/交友/直播76
    • 商城/淘宝/网店26
    • 门户/论坛/信息27
    • 小说/新闻/博客76
    • 电影/视频/音乐22
    • 图片/素材/下载49
    • 支付/金融/货币356
    • 导航/目录/友链25
    • 会员/推广/任务57
    • 公众号/小程序/游戏133
  • 一元夺宝new
    E启学在线网校网站在线教育校园教学平台程序系统V1.0源码
    E启学在线网校网站在线教育校园教学平台程序系统V1.0源码
    Laravel开发MeEdu在线点播网站源码 知识付费应用系统源码
    Laravel开发MeEdu在线点播网站源码 知识付费应用系统源码
    一比一精仿电影挖片网苹果cmsv10模板
    一比一精仿电影挖片网苹果cmsv10模板
    织梦高仿dede58织梦模板下载站完整无错整站版源码 1.69GB打包
    织梦高仿dede58织梦模板下载站完整无错整站版源码 1.69GB打包
    蓝色清晰织梦资源网下载站源码
    蓝色清晰织梦资源网下载站源码
    全景通旗舰版最新源码 内核到krpano1.19pr8 支持任何高清图
    全景通旗舰版最新源码 内核到krpano1.19pr8 支持任何高清图
    thinkPHP音视频素材资源下载站整站源码 带会员系统+支付接口
    thinkPHP音视频素材资源下载站整站源码 带会员系统+支付接口
    仿集图网模板图片素材类模板织梦下载站源码带整站数据
    仿集图网模板图片素材类模板织梦下载站源码带整站数据
    织梦蓝色图纸展示类企业网站源码
    织梦蓝色图纸展示类企业网站源码
    Thinkphp5.0响应式进销存仓库管理系统源码
    Thinkphp5.0响应式进销存仓库管理系统源码
    prev
    next
  • 网页素材
    • 网页游戏148
    • 网页模板4723
    • 特效代码5467
  • 办公素材
    • PPT模板377
    • 简历模板0
  • 站长学院
    • DEDE教程352
    • wordpress教程416
    • SEO教程124
    • 其它文档教程13
  • 更多
    • 办公教程4
    • 群辉教程12
    • 电脑基础7124
    • GPS导航
    • 安卓系统15
      • Android资讯2
      • ROM0
      • 教程工具0
    • Win系统169
      • Windows XP3
      • Windows 77
      • Windows 80
      • Windows 1012
      • 服务器系统1129
      • Win主题12
      • Win教程26
      • Win资讯0
      • Win软件98
    • 站点标签
    • 更新日志
    • 其他10
登录/注册
  • 精品会员专享
  • 会员折扣下载
  • 每日海量更新
立即开通 开通会员抄底价
当前位置:资源分享吧 > 什么是搜索引擎蜘蛛(网络爬虫)
也想出现在这里? 联系我们吧

什么是搜索引擎蜘蛛(网络爬虫)

作者 : 小编 本文共1822个字,预计阅读时间需要5分钟 发布时间: 2017-07-3 共1.81K人阅读
也想出现在这里? 联系我们吧

  搜索引擎蜘蛛简称网络爬虫(webcrawler),网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

  搜索引擎蜘蛛产生的背景

  随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:

  (1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

  (2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

  (3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

  (4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

  为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurposewebcrawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

  聚焦爬虫工作原理以及关键技术

  网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

  相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

  (1)对抓取目标的描述或定义;

  (2)对网页或数据的分析与过滤;

  (3)对URL的搜索策略。

  搜索引擎蜘蛛面临的问题

  截止到2007年底,Internet上网页数量超出160亿个,研究表明接近30%的页面是重复的;动态页面的存在:客户端、服务器端脚本语言的应用使得指向相同Web信息的URL数量呈指数级增长。上述特征使得网络爬虫面临一定的困难,主要体现在Web信息的巨大容量使得爬虫在给定时间内只能下载少量网页。Lawrence和Giles的研究表明没有哪个搜索引擎能够索引超出16%的Internet上Web页面,即使能够提取全部页面,也没有足够的空间来存储。

  为提高爬行效率,爬虫需要在单位时间内尽可能多的获取高质量页面,是它面临的难题之一。当前有五种表示页面质量高低的方式:Similarity(页面与爬行主题之间的相似度)、Backlink(页面在Web图中的入度大小)、PageRank(指向它的所有页面平均权值之和)、Forwardlink(页面在Web图中的出度大小)、Location(页面的信息位置);Parallel(并行性问题)[3]。为了提高爬行速度,网络通常会采取并行爬行的工作方式,随之引入了新的问题:重复性(并行运行的爬虫或爬行线程同时运行时增加了重复页面)、质量问题(并行运行时,每个爬虫或爬行线程只能获取部分页面,导致页面质量下降)、通信带宽代价(并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通信)。并行运行时,网络爬虫通常采用三种方式:独立方式(各个爬虫独立爬行页面,互不通信)、动态分配方式(由一个中央协调器动态协调分配URL给各个爬虫)、静态分配方式(URL事先划分给各个爬虫)。

    SEO入门教程 SEO基础知识 SEO实战 自学SEO
    1. 本站所提供的源码模板(主题/插件)等资源仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担,有部分资源为网上收集或仿制而来,若模板侵犯了您的合法权益,请来信通知我们(Email: rayer@88.com),我们会及时删除,给您带来的不便,我们深表歉意!
    2. 分享目的仅供大家学习和交流,请不要用于商业用途!
    3. 如果你也有好源码或者教程,可以到用户中心发布投稿,分享有金币奖励和额外收入!
    4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务 请大家谅解!
    5. 如有链接无法下载、失效或广告,请联系站长,可领回失去的金币,并额外有奖!
    6. 如遇到加密压缩包,默认解压密码为"www.zyfx8.cn",如遇到无法解压的请联系管理员!
    本站部分文章、资源来自互联网,版权归原作者及网站所有,如果侵犯了您的权利,请及时联系我站删除。免责声明
    资源分享吧 » 什么是搜索引擎蜘蛛(网络爬虫)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    织梦模板使用说明
    你下载的织梦模板并不包括DedeCMS使用授权,根据DedeCMS授权协议,除个人非盈利站点外,均需购买DedeCMS商业使用授权。购买地址: http://www.desdev.cn/service-dedecms.html
    小编

    小编 VIP

    分享到:
    上一篇
    网站数据分析:IP、PV、UV之间的区别和联系
    下一篇
    什么是搜索引擎沙盒效应

    发表评论 取消回复

    要发表评论,您必须先登录。

    最新文章
    餐饮火锅加盟网站pbootcms模板源码
    餐饮火锅加盟网站pbootcms模板源码
    源码下载新闻资讯博客网站pbootcms模板
    源码下载新闻资讯博客网站pbootcms模板
    绿色人造草坪地坪施工网站源码pbootcms模板
    绿色人造草坪地坪施工网站源码pbootcms模板
    红色火锅加盟网站pbootcms模板源码
    红色火锅加盟网站pbootcms模板源码
    蓝色源码钢结构工程基建网站pbootcms模板
    蓝色源码钢结构工程基建网站pbootcms模板
    标签云
    DEDECMS (483) dedecms教程 (326) eyoucms (270) html (364) html5 (1717) html模板 (733) Linux (1245) linux教程 (1245) wordpress教程 (380) 下载 (277) 代码 (816) 企业网站模板 (874) 企业网站模板下载 (874) 免费企业网站模板 (874) 入侵防御 (270) 公司网站模板 (874) 切换 (502) 动画 (594) 国内网站模板 (324) 图片 (582) 技术网络漏洞 (347) 插件 (447) 效果 (765) 源码 (381) 漏洞 (371) 漏洞分析 (347) 特效 (789) 电脑使用 (4064) 电脑操作 (4064) 短视频素材 (606) 笔记本电脑价格 (4037) 笔记本电脑品牌排行 (4037) 笔记本电脑知识 (4037) 笔记本电脑评测 (4037) 素材 (483) 织梦 (407) 织梦教程 (342) 网站模板 (436) 网站源码 (417) 网站漏洞检测 (347) 网络安全WEB漏洞 (347) 菜单 (299) 视频 (376) 这是 (345) 鼠标 (417)

    限时优惠

    【阿里云】云产品采购季,助力行业复工。新用户专享1折起,云服务器低至0.75折,更多产品可叠加专属代金券下单
    立即查看

    相关推荐

    如何计算访问时长 访问时长的意义是什么?
    小编小编

    如何计算访问时长 访问时长的意义是什么?

    访问时长,是做 网站SEO优化 过程必须重视的一项数据,它指的是访客每次在网站上访问所停留的时长,即从进入第一个页面到离开最后一个页面的时长。现在很多网站添加了一些统计工具,如cnzz,百度统计等,都可以很好的了解访问时长数据。 访问时长算法进行优
    • 2.2K
    • 免费
    • 下载
    作为网站站长,您走火入魔了吗?
    小编小编

    作为网站站长,您走火入魔了吗?

    作为一个网站站长,请问您一天用几次站长工具?一天查多少次友情链接,一天点击本人的网站多少次? 我尽管做 SEO技术 的时光不长,然而我的第一份任务就是SEO,如今为了让本人的症结词上去,站长工具天天不晓得查问了多少次,只要有闲暇时光,就不忘查一下,有
    • 1.87K
    • 免费
    • 下载
    seo网站优化不应该停滞的原因
    小编小编

    seo网站优化不应该停滞的原因

    看起来 seo网站 优化进入了非常成熟的阶段,故事就这样结束了吗?不是的,只要网站分析和优化投入带来的订单、重复访客和销售要比成本多得多的话,就不应该停止,如果不持续优化的话,网站的衰退会来得很快,为什么呢? 1.产品在持续更新换代 首先要弄清楚的是
    • 994
    • 免费
    • 下载
    如何做站群SEO优化?带你揭秘黑帽SEO操作技巧
    小编小编

    如何做站群SEO优化?带你揭秘黑帽SEO操作技巧

    最近有人联系博主,问我是否愿意接菠菜网站的单,并且愿意赞助我做站群 SEO ,后来了解到原来他自己身在国外,我思索一番果断拒绝了,个人坚决不与这类灰色行业合作,自己跑到国外让我来给你做站群,如果出了什么事那个锅我还拿的掉吗?再说良心也过不去,这
    • 1.63K
    • 免费
    • 下载
    • 3071本站运营(天)
    • 62850用户总数
    • 26548资源数(个)
    • 2近7天更新(个)
    • 82301资源大小(GB)
    加入VIP获取全站资源

    「资源分享吧」 ZYFX8.CN

    国内极具人气的网络源码资源交流学习平台
    下载源码文章,学软件教程,找灵感素材,尽在「资源分享吧」

    按Ctrl+D收藏本站

    找资源就上「 资源分享吧 」

    WWW.ZYFX8.CN

    资源分享吧

    资源分享吧(www.zyfx8.cn)是一家专门做精品素材的网站,网站以网站源码、网站模板、网页特效为主要内容,以“共享创造价值”为理念,以“尊重原创”为准则。

    本站导航
    • 热门标签
    • 网站专题
    • 站点地图
    更多导航
    • 申请友链
    • 用户协议
    • 免责声明
    快速搜索
      友情链接 自助申请友链
    • RiTheme主题
    • wordpress主题
    • 在线PS修图
    • 源码下载
    • 网站模板
    • 资源分享吧
    Copyright 2015-2020 版权所有 资源分享吧 Rights Reserved. 蜀ICP备14022927号-1
    资源分享吧(www.zyfx8.cn)是一家专门做精品素材的网站,以“共享创造价值”为理念,以“尊重原创”为准则。
    • 会员特惠
    • 签到
    • 客服

      在线客服

      点我联系

      直接说出您的需求!
      切记!带上资源链接与问题!

      工作时间: 9:30-21:30

    • 更新
      日历
    • 全屏
    • 首页

    • 签到

    • 切换

    • 客服

    资源分享吧
    • 登录
    • 注册
    or
    or
    忘记密码?
    资源分享吧
    • 首页
    • CMS模板host ►
      • DEDECMS模板965
      • 易优CMS318
      • WordPress模板146
      • Discuz模板101
      • 帝国CMS102
      • 苹果cms78
      • Pbootcms24
      • zblog模板2
    • 整站源码 ►
      • 教育/交友/直播76
      • 商城/淘宝/网店26
      • 门户/论坛/信息27
      • 小说/新闻/博客76
      • 电影/视频/音乐22
      • 图片/素材/下载49
      • 支付/金融/货币356
      • 导航/目录/友链25
      • 会员/推广/任务57
      • 公众号/小程序/游戏133
    • 一元夺宝new
      E启学在线网校网站在线教育校园教学平台程序系统V1.0源码
      E启学在线网校网站在线教育校园教学平台程序系统V1.0源码
      Laravel开发MeEdu在线点播网站源码 知识付费应用系统源码
      Laravel开发MeEdu在线点播网站源码 知识付费应用系统源码
      一比一精仿电影挖片网苹果cmsv10模板
      一比一精仿电影挖片网苹果cmsv10模板
      织梦高仿dede58织梦模板下载站完整无错整站版源码 1.69GB打包
      织梦高仿dede58织梦模板下载站完整无错整站版源码 1.69GB打包
      蓝色清晰织梦资源网下载站源码
      蓝色清晰织梦资源网下载站源码
      全景通旗舰版最新源码 内核到krpano1.19pr8 支持任何高清图
      全景通旗舰版最新源码 内核到krpano1.19pr8 支持任何高清图
      thinkPHP音视频素材资源下载站整站源码 带会员系统+支付接口
      thinkPHP音视频素材资源下载站整站源码 带会员系统+支付接口
      仿集图网模板图片素材类模板织梦下载站源码带整站数据
      仿集图网模板图片素材类模板织梦下载站源码带整站数据
      织梦蓝色图纸展示类企业网站源码
      织梦蓝色图纸展示类企业网站源码
      Thinkphp5.0响应式进销存仓库管理系统源码
      Thinkphp5.0响应式进销存仓库管理系统源码
      prev
      next
    • 网页素材 ►
      • 网页游戏148
      • 网页模板4723
      • 特效代码5467
    • 办公素材 ►
      • PPT模板377
      • 简历模板0
    • 站长学院 ►
      • DEDE教程352
      • wordpress教程416
      • SEO教程124
      • 其它文档教程13
    • 更多 ►
      • 办公教程4
      • 群辉教程12
      • 电脑基础7124
      • GPS导航
      • 安卓系统15 ►
        • Android资讯2
        • ROM0
        • 教程工具0
      • Win系统169 ►
        • Windows XP3
        • Windows 77
        • Windows 80
        • Windows 1012
        • 服务器系统1129
        • Win主题12
        • Win教程26
        • Win资讯0
        • Win软件98
      • 站点标签
      • 更新日志
      • 其他10
    文章展示
    交易所源码搭建教程java多语言部署
    交易所源码搭建教程java多语言部署
    餐饮火锅加盟网站pbootcms模板源码
    餐饮火锅加盟网站pbootcms模板源码
    源码下载新闻资讯博客网站pbootcms模板
    源码下载新闻资讯博客网站pbootcms模板
    绿色人造草坪地坪施工网站源码pbootcms模板
    绿色人造草坪地坪施工网站源码pbootcms模板
    红色火锅加盟网站pbootcms模板源码
    红色火锅加盟网站pbootcms模板源码
    蓝色源码钢结构工程基建网站pbootcms模板
    蓝色源码钢结构工程基建网站pbootcms模板
    开通VIP 享更多特权,建议使用QQ登录
    账号登录/注册
    QQ登录
    微博登录
    ×

      回馈用户限时特惠

      「 资源分享吧 」国内极具人气的网络资源交流学习平台,海量资源每天更新,优质资源畅快下载

      终身SVIP原价 590元,国庆限时活动价仅需 “ 59元 ”,终身免费~~机不可失~~


      立即开通永久会员>>

      ld** 刚刚下载了 Ripro子主题