帮帮文库

返回

搜索引擎的研究与实现文档28页优秀范文 搜索引擎的研究与实现文档28页优秀范文

格式:word 上传:2022-06-25 00:05:36

《搜索引擎的研究与实现文档28页优秀范文》修改意见稿

1、“.....并且每个词都被搜索引擎索引,也就是我们说的全文检索。个网页,天可以搜集超过 网页 搜索引擎词在国内外因特网领域被广泛使用,然展相同步。每台微机运行多个爬虫程序搜集网 页的峰值速度是每秒个网页,平均速度是每秒照公司总裁的演讲,正 在用,台运行系统平均每天承受大约次查询。 大约在年出现的第二代搜索引擎系统大多采用分布式方案多个微型计算机协同 工作来提高数据规模响应速度和用户数量,它们般都保持个大约网 页的索引数据库,每天能够响应次用户检索请求。年月,当时最先 进的几个搜索引擎号称能建立从到的网页索引。搜索 引擎声称他们每天大概要承受次查询。网络机器人 网络机器人也称为网络蜘蛛,是个功能很强的扫描程序。它可以在 扫描页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为中广泛 使用超链接,所以个程序理论上可以访问整个页面......”

2、“..... 索引与搜索 网络等部分组成。 系统结构图 搜索引擎的构成 擎声称他们每天大概要承受次查询。 年搜索引擎年大会上,按号称能建立从到的网页索引。每天能够响应次用户检索请求。年月,当时最先 进的几个搜索引擎 大约在年出现的第二代搜索引擎系统大多采用分布式方案多个微型计算机协同 工作年月到月,网络爬 虫平均每天承受大约次查询。部分内容简介技 术,相当于利用些已有技术实现的个上的应用。部分内容简介技 术,相当于利用些已有技术实现的个上的应用。在年月到月,网络爬 虫平均每天承受大约次查询。 大约在年出现的第二代搜索引擎系统大多采用分布式方案多个微型计算机协同 工作来提高数据规模响应速度和用户数量,它们般都保持个大约网 页的索引数据库......”

3、“.....年月,当时最先 进的几个搜索引擎号称能建立从到的网页索引。搜索 引擎声称他们每天大概要承受次查询。 年搜索引擎年大会上,按照公司总裁的演讲,正 在用,台运行系统的个人电脑在搜集上的网页,而且以每天台的速度向 这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网 页的峰值速度是每秒个网页,平均速度是每秒个网页,天可以搜集超过 网页 搜索引擎词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索 引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网 页,并且每个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包 括等。在中国,搜索引擎通常指基于网站的搜索服务或 是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术......”

4、“.....按照定算法从索引数据中查找信息返回给用户。为 了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护个庞大的索引数据库。 般的搜索引擎由网络机器人程序索引与搜索程序索引数据库等部分组成。 系统结构图 搜索引擎的构成 网络机器人 网络机器人也称为网络蜘蛛,是个功能很强的扫描程序。它可以在 扫描页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为中广泛 使用超链接,所以个程序理论上可以访问整个页面。 为了保证网络机器人遍历信息的广度和深度需要设定些重要的链接并制定相关的扫 描策略。 索引与搜索 网络机器人将遍历得到的页面存放在临时数据库中,如果通过直接查询信息速度 将会难以忍受。为了提高检索效率,需要建立索引,按照倒排文件的格式存放。如果索引不 及时跟新的话......”

5、“..... 服务器 客户般通过浏览器进行查询,这就需要系统提供服务器并且与索引数据库进行 连接。客户在浏览器中输入查询条件,服务器接收到客户的查询条件后在索引数据库 中进行查询排列然后返回给客户端。 搜索引擎的主要指标及分析 搜索引擎的主要指标有响应时间召回率准确率相关度等。这些指标决定了搜索引 擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有 较快的反应速度和高召回率准确率的,当然这些都需要搜索引擎技术指标来保障......”

6、“.....本人在这些研究的基础上利 用技术和些工具实现了个简单的搜索引擎新闻搜索引擎。在 接下来的几章里将会就本人的设计进行详细的分析。 第页共页 第三章网络机器人 什么是网络机器人 网络机器人又称为程序,是种专业的程序。用于查找大量的页面。 它从个简单的页面上开始执行,然后通过其超链接在访问其他页面,如此反复理论 上可以扫描互联网上的所有页面。 基于因特网的搜索引擎是的最础上,而又是建立在 协议之上,它同时也是种 协议。所以网络机器人本质上是种基于的网络程序。 如何解析 因为中的信息都是建立在协议之上的......”

7、“.....在解决如何解析之前,先来介绍下中的几种数据。 文本除了脚本和标签之外的所有数据 注释程序员留下的说明文字,对用户是不可见的 简单标签由单个表示的标签 开始标签和结束标签用来控制所包含的代码 我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析即可。 超连接标签 超连接定义了通过链接文档的功能。他们的主要目的是使用户能够任意迁 移到新的页面,这正是网络机器人最关心的标签。 图像映射标签第页共页 图像映射是另种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。 表单标签 表单是页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提 交内容,这就是表单的典型应用。 表格标签 表格是的构成部分,通常用来格式化存放显示数据......”

8、“.....本人在实际编程中采用后者。 包中的类用来从指定中读取数据并检索出有用的信息。下面给出 该类几种重要的方法。 构造函数构造对象并指定用于通讯的对象 方法获取最后次调用方法检索到的表单清单 方法获取发送给构造函数的对象 方法获取指定页面的图片清单 方法获取指定页面的连接清单 方法打开个页面并读入该页面,若指定了回调对象则给出所有该对象数据 , 程序结构 网络机器人必须从个网页迁移到另个网页,所以必须找到该页面上的超连接。程序 首先解析网页的代码,查找该页面内的超连接然后通过递归和非递归两种结构来实 现程序。 递归结构 递归是在个方法中调用自己本身的程序设计技术。虽然比较容易实现但耗费内存且不能使第页共页 用多线程技术,故不适合大型项目。 非递归结构 这种方法使用队列的数据结构......”

9、“.....当程序扫描完当前页面后会根据制定的策略访问队列中的下 个超连接地址。 虽然这里只描述了个队列,但在实际编程中用到了四个队列,他们每个队列都保存着 同处理状态的。 等待队列在这个队列中,等待被程序处理。新发现的也被加入到这个队列中 处理队列当程序开始处理时,他们被送到这个队列中 队列如果在解析网页时出错,将被送到这里。该队列中的不能被移入其他队列中 完成队列如果解析网页没有出错,将被送到这里。该队列中的不能被移入其它队列中 在同时间只能在个队列中,我们把它称为的状态。 以上的图表示了队列的变化过程,在这个过程中,当个被加入到等待队列中时 程序就会开始运行。只要等待队列中有个网页或程序正在处理个网页,程 序就会继续他的工作。当等待队列为空并且当前没有任何网页时,程序就会停止它的 工作......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
搜索引擎的研究与实现.doc预览图(1)
1 页 / 共 28
搜索引擎的研究与实现.doc预览图(2)
2 页 / 共 28
搜索引擎的研究与实现.doc预览图(3)
3 页 / 共 28
搜索引擎的研究与实现.doc预览图(4)
4 页 / 共 28
搜索引擎的研究与实现.doc预览图(5)
5 页 / 共 28
搜索引擎的研究与实现.doc预览图(6)
6 页 / 共 28
搜索引擎的研究与实现.doc预览图(7)
7 页 / 共 28
搜索引擎的研究与实现.doc预览图(8)
8 页 / 共 28
搜索引擎的研究与实现.doc预览图(9)
9 页 / 共 28
搜索引擎的研究与实现.doc预览图(10)
10 页 / 共 28
搜索引擎的研究与实现.doc预览图(11)
11 页 / 共 28
搜索引擎的研究与实现.doc预览图(12)
12 页 / 共 28
搜索引擎的研究与实现.doc预览图(13)
13 页 / 共 28
搜索引擎的研究与实现.doc预览图(14)
14 页 / 共 28
搜索引擎的研究与实现.doc预览图(15)
15 页 / 共 28
预览结束,还剩 13 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档