1、“.....也能在搜素引擎道路上打出片天地。随着公司规模的不断扩大,必然有各种各样的网页文本出现。目前个比较好的方法就是按需分类,即分类手工检索。但是现实生活中,并不是每个文档都能被正确分类,即使正确分类了,旦文档数量过多,检索起来必然相当困难,耗费很多时间,也不定找得到找的齐全。如果有了单站点或者若干个站点的全文搜索引擎,那么就会在几秒甚至几毫秒内找到你所需要的内容,也可以很好的传达你想通过别人帮忙你找到的内容。比如我想找篇关于软件生产计划的文章,当你把这个想法告诉别人,让别人帮你来查找这个文章的时候,别人也许就无法理解你到底需要找本年生产计划还是软件生产计划样本。使用本系统,你可以通过调整关键字,快速检索你需要的任何内容。由于目前搜索引擎发展迅猛,很多公司都希望拓展搜索引擎的业务,也都开始定制自身的搜索引擎......”。
2、“.....使用它们能够很好的定制符合自身需要的搜索引擎功能,也可以通过定制来提高搜索引擎效率。这时本系统就提供了个很好的样例。小结本章节介绍了该系统所覆盖的范围,需要实现哪些功能,以及可行性分析与决策。让读者了解本系统将要做什么,采用什么样的方案来做,以及这个系统将带来什么样的好处。为了更好的介绍该系统,对系统所使用的框架也必须有所了解,以便更好的理解本系统内部实现。江汉大学本科毕业论文设计全文搜索引擎系统设计与实现系统设计的任务是在系统分析提出的逻辑模型的基础上,考虑实际条件,科学合理地进行物理模型的设计,确定系统的实施方案,解决的是怎样做的问题。系统功能图本系统仍然是按照传统的搜索引擎,将系统划分为三个模块,分别为爬虫模块,与处理模块,检索模块,如果图所示图系统功能图图系统功能图江汉大学本科毕业论文设计系统实体设计实体根据返回的报文......”。
3、“.....将实体划分为相应头实体相应结果实体,条目实体,文档实体四个实体。图查询返回报文格式实体的属性表相应头实体属性名类型备注检索状态本次查询所需要的毫秒数用户输入的关键字表相应结果实体属性名类型备注本次查找到的记录数查询开始条目的位置的集合表条目实体属性名类型备注文档摘要江汉大学本科毕业论文设计网页内容网页标题数据段文档摘要值网页,般和相同连接地址连接下的锚点集合文档版本号表相应头实体属性名类型备注响应头实体相应内容实体实体间的联系这些实体类型之间的联系为组合关系系统实现系统需要的环境硬件需求以上主机以上内存以上硬盘空间软件环境操作系统开发工具框架库江汉大学本科毕业论文设计系统开发所用的工具是,是这样种开发工具,它是基于平台的面向对象的,它采用了面向对象的分析和设计的方法,在开发的过程中能够很好地用到了面向对象所具有的特点,使编程量有所减少......”。
4、“.....使系统实现了整体性,以提高系统开发的效率。系统中的配置在使用之前需要先下载并配置以下以操作系统为例,介绍下的安装和配置。在安装前,首先确保本机器上安装有,等环境。这些环境的安装在此不做介绍。的下载地址安装命令列表从网络上获取将下载的解压进入目录,重新编译源代码使用自动构建工具编译完成以后,会多出个文件夹,进入运行本地模式表安装命令江汉大学本科毕业论文设计图检测环境到了这步,如果出现如图命令帮助信息,说明已经安装完成。对整个网络进行抓取整个网络的抓取被设计成用来处理那些可能需要耗费几个星期来完成,在许多台机器上运行的非常大的抓取。这也允许在抓取的过程中进行更多的控制,还有增量抓取。最重要的是要记住整个网络的抓取并不定意味着要抓取整个万维网。可以限制整个网络的抓取只是抓取列出的想要抓取的......”。
5、“.....数据是由这些组成的抓取数据库,或者说是。它包含了关于每个已知的的信息,包括它是否已经被获取,甚至是何时被获取的。链接数据库,或者说是。它包含了每个已知的链接,包括源的以及链接的锚文本。系列的分段,或者说是。每个都是组被作为个单元来获取的。是它本身这个目录以及它下面的子目录个确定了将要被获取的组个包含了获取的每个的状态个包含了从每个获取回来的原始的内容个包含了每个解析以后的文本个包含来自每个被解析后内容中的外链和元数据个包含了外链的,用来更新。江汉大学本科毕业论文设计用组列表确定选择从数据库自举。由添加到里。可以从开放式分类目录添加。首先必须下载并且解压缩这个所有网页的列表这是个多的文件,所以这会消耗几分钟。接下来选择这些网页当中随机的些子集。包含了大约三百万个。从每个中选择出个......”。
6、“.....因为它必须要分析整个文件。最后,用这些选出的来初始化。现在有了个大约有个未被获取的的网络数据库。选择从初始列表里自举。这选项不为人们所了解的地方在于创建初始列表并覆盖在目录里。由于中包含大量的,抓取对硬件和时间上都有要求,下面将演示使用自定义的出事列表自举。假设当前的工作目录总是首先创建个文件夹,在下创建文件。从网络上预先准备了国内排名前的门户网站,作为初始子集。表预抓取的江汉大学本科毕业论文设计表建立初始集合命令将以上拷贝到中保存退出。打算将抓取后的所有数据放到目录中。表将中的集注入到中下面该做的就是从网络上抓取这些数据了。打算将抓取深度定义为那么就将进行三轮抓取。第轮抓取第轮抓取是抓取初始集合,这里将抓取个页面回来。抓取完成后,将新抓取的页面中的提出,更新......”。
7、“.....第二轮抓取在第轮基础之上,抓取依据是更新后的。江汉大学本科毕业论文设计表第二轮抓取命令第三轮抓取第三轮抓取和第二轮抓取原理样,将第二轮抓取的页面提取,将更新。表第三轮抓取命令经过三轮抓取以后,数据库中大已经获取了几千张网页,下面要做的就是索引他江汉大学本科毕业论文设计,,下面准备看看查询效果。比如这里想看看能否查询到凤凰网上的条信息在查询之前,必须保证已经抓取了凤凰网上的数据,并提交了索引。打开凤凰首页,找到篇刘云山会见金正恩特使崔龙海的文章。江汉大学本科毕业论文设计在应用的基本查询页面输入关键字金正恩特使。由于我之前索引了多个门户网站,可以看到查询关键字金正恩特使,在第二条,找到了需要目标。高级查询高级查询服务也是有个来处理的。江汉大学本科毕业论文设计高级服务界面高级服务只是会经过关键词等,组合查询条件......”。
8、“.....包括返回的报文,与报文对应的实体类型,系统需要的硬件和软件环境,系统运行状态。每个步骤都以截图或者以表格的样式给予说明,让读者更容易理解。由于对技术框架的介绍在上章中已经详细阐述了,所以这章只是围绕我们的具体系统来讲解他们的使用方法。江汉大学本科毕业论文设计全文搜索引擎系统评价系统特色系统功能系统提供了基础查询和高级查询,数据采集,索引到用户接口,都能得到较好的实现。页面清晰在页面设计方面,借鉴了百度的简单风格。基础查询界面只有个输入框和个按钮,看起来大方,操作方便。在结果显示页面上,有良好的分页效果。操作方便在操作方面,系统界面设计依据主流搜索引擎界面,只要使用过主流搜索引擎的用户,使用本系统没有困难。系统性能系统经过多次测试后,除了抓取数据和硬件配置关系较大以外,查询效果稳定。查询速度在可以接受的范围内......”。
9、“.....查询条记录,响应时间。由于采用的都是比较成熟的框架,所以在能够满足系统需求的情况下,尽可能的使用了框架本身提供的配置参数。系统存在的不足和解决方案系统存在的不足由于时间和技术水平有限,有些功能实现并没有考虑的像主流搜索引擎那么完善。词库匹配,近义词匹配,关键词屏蔽等都还没有实现。系统查询的文档并没有缓存起来,每次翻页都相当于次新的查询,对于性能影响较大。目前的系统只支持普通文本网页的索引,不包括,图片等数据的索引。由于实验过程中,硬件环境有限,测试只用了有限的测试数据,数据也是单机本地存放。江汉大学本科毕业论文设计系统所有数据的抓取,更新维护都需要有人操作,并没有做到自动化或者半自动化。改进措施对于为实现的功能,后续还会跟进,使之更加完善。随着抓取的数据量越来越大,是否考虑测试下数据的分布式存储......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。