《基于JAVA的搜索引擎的设计与实现》修改意见稿
1、“.....先在盘新建个文件夹,再在下面新建个子文件夹,这步是必需要的,因为这个文件夹是用来保存搜索到的结果。否则当搜索所要的网页之后,从而导致无法得到结果。先进入的安装目录下你所使用的文件夹,运行文件夹里的,这样就启动了自带的服务器。现在你用打开这个工程运行,运行结果就会显示搜索到多少条新闻。如果不运行服务器是搜索不到新闻的。网络蜘蛛是种能自动到网上查找信息的种程序,该程序具有高度的自动性,只要告诉他个网站,他就可以从这个网站开始依次通过该网站的链接自动抓取链接内容以及网址,然后就顺着这些链接直抓下去。代码分析如下把每条新闻加入索引中新闻的新闻的标题优化并且清理资源然后构造个解析类,把通过程序收集的新闻内容进行索引。如何解析因为中的信息都是建立在协议之上的,所以网络机器人在检索网页时的第个问题就是如何解析。在解决如何解析之前,先来介绍下中的几种数据......”。
2、“.....注释程序员留下的说明文字,对用户是不可见的。简单标签由单个表示的标签。开始标签和结束标签用来控制所包含的代码。我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析即可。超连接标签超连接定义了通过链接文档的功能。他们的主要目的是使用户能够任意迁移到新的页面,这正是网络机器人最关心的标签。图像映射标签图像映射是另种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。表单标签表单是页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提交内容,这就是表单的典型应用。表格标签表格是的构成部分,通常用来格式化存放显示数据。我们在具体解析这些标签有两种方法通过中的类来解析或者通过包中的类来解析,本人在实际编程中采用后者。包中的类用来从指定中读取数据并检索出有用的信息。下面给出该类几种重要的方法......”。
3、“.....若指定了回调对象则给出所有该对象数据,代码分析如下页评级在考虑个网页被另个网页的引用时候,不是单纯的将被引用网页的加,而是将引用网页的连接数作为权,同时将该引用网页的重要性也考虑进来看看上面提到的例子引用的网页显然比个人网站引用的网页重要,因为,本身很重要,就可以得到扩展后的网页评分。最早提出网页评分的计算方法是。它们提出了个随机冲浪模型来描述网络用户对网页的访问行为。模型假设如下用户随机的选择个网页作为上网的起始网页看完这个网页后,从该网页内所含的超链内随机的选择个页面继续进行浏览沿着超链前进了定数目的网页后,用户对这个主题感到厌倦,重新随机选择个网页进行浏览,并重复和......”。
4、“.....每个网页可能被访问到的次数就是该网页的链接权值。如何计算这个权值呢采用以下公式进行计算其中代表第个网页的权值只取值,代表从网页到网页是否存在链接代表网页有多少个链向其它网页的链接代表随机冲浪中沿着链接访问网页的平均次数。选择合适的数值,递归的使用以上公式,即可得到理想的网页链接权值。该方法能够大幅度的提高简单检索返回结果的质量,同时能够有效的防止网页编写者对搜索引擎的欺骗。因此可以将其广泛的应用在检索器提供给用户的网页排序上,对于网页评分越高的网页,就排的越前。权威网页和中心网页权威网页顾名思义,是给定主题底下的系列重要的权威的网页。其重要性和权威性主要体现在以下两点从单个网页来看,它的网页内容本身对于这个给定主题来说是重要的从这个网页在整个互联网重的地位来看,这个网页是被其他网页承认为权威的......”。
5、“.....由此可见,权威网页对于主题搜索引擎的实现有很重大的意义。主题搜索引擎个很关键的任务就是从互联网上无数的网页之中最快最准的找出这些可数的权威网页,并为他们建立索引。这也是有效区别主题搜索引擎和前三代传统通用搜索引擎的重要特征。中心网页是包含很多指向权威网页的超链接的网页。最典型中心网页的个例子是它的目录结构指向了很多主题的权威网页,使得它兼任了很多主题的中心网页。由中心网页出发,轻而易举的就会到达大量的权威网页。因此,它对于主题搜索引擎的实现也起了很大的意义。权威网页和中心网页之间是种互相促进的关系个好的中心网页必然要有超链接指向多个权威网页个好的权威网页反过来也必然被多个中心网页所链接。结论以上对基于因特网的搜索引擎结构和性能指标进行了分析,本人实现了个简单的搜索引擎新闻搜索引擎。首先介绍了网络机器人的基本概念,然后具体分析了程序的结构和功能......”。
6、“.....在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的。速度将是极大的瓶颈。所以提出了使用全文搜索引擎进行索引搜索。还结合了具体代码说明了如何把全文搜索引擎和程序互相集合来实现新闻搜索的功能。介绍了如何构架基于的服务器,使得用户通过浏览器进行新闻的搜索,最后还对如何部署进行了说明。最后介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配度等性能......”。
7、“.....埃克尔著美,陈昊鹏译编程思想北京机械工业出版社致谢在此论文完成之际,我的大学生活即将结束。在这三四年的学习生活中,我不但在学业上受益匪浅,而且养成了严谨的治学态度。首先,要感谢我的导师曾怡老师。本论文从立意选题观点的舍取到文章思路的梳理直至观点的形成,曾老师都严格把关,精心推敲,不断从内容和形式上丰富和完善了我的研究成果。文章初稿完成之后,曾老师又认真审阅修改,对此我表示深深的敬意和由衷的感谢。其次,还要感谢在大学期间所有给我上过课的老师,是他们引领我在专业领域探索前行,广博地汲取专业知识和信息。同时,还要感谢所有对页面进行解析后建立索引......”。
8、“.....基于的服务器服务器是在网络中为实现信息发布资料查询数据处理等诸多应用搭建基本平台的服务器。服务器如何工作在页面处理中大致可分为三个步骤,第步,浏览器向个特定的服务器发出页面请求第二步,服务器接收到页面请求后,寻找所请求的页面,并将所请求的页面传送给浏览器第三步,服务器接收到所请求的页面,并将它显示出来。是个开放源代码运行和应用软件的基于的应用软件容器。由子项目支持并由来自开放性源代码社区的志愿者进行维护。是根据和规范进行执行的,因此我们就可以说也实行了规范且比绝大多数商业应用软件服务器要好。在上部署项目中的应用程序是个文件。是提出的种应用程序格式,与类似,也是许多文件的个压缩包。这个包中的文件按定目录结构来组织通常其根目录下包含有和文件或者包含这两种文件的目录,另外还会有个目录,这个目录很重要......”。
9、“.....是这个应用的配置文件,而目录下则包含编译好的类和或所依赖的其它类如。通常这些所依赖的类也可以打包成放到下的目录下,当然也可以放到系统的中。在中,应用程序的部署很简单,你只需将你的程序放到的目录下,会自动检测到这个文件,并将其解压。你在浏览器中访问这个应用的时,通常第次会很慢,因为要将转化为文件,然后编译。编译以后,访问将会很快。搜索引擎策略简介随着信息多元化的增长,千篇律的给所有用户同个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要个分类细致精确数据全面深入更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎......”。
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 28 页
第 2 页 / 共 28 页
第 3 页 / 共 28 页
第 4 页 / 共 28 页
第 5 页 / 共 28 页
第 6 页 / 共 28 页
第 7 页 / 共 28 页
第 8 页 / 共 28 页
第 9 页 / 共 28 页
第 10 页 / 共 28 页
第 11 页 / 共 28 页
第 12 页 / 共 28 页
第 13 页 / 共 28 页
第 14 页 / 共 28 页
第 15 页 / 共 28 页
预览结束,还剩
13 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。