基于Lucene的全文信息检索系统的设计与实现㊣精品文档值得下载

《基于Lucene的全文信息检索系统的设计与实现》修改意见稿

1、以下这些语句存在若干问题，包括语法错误、标点使用不当、语句不通畅及信息不完整——“.....包括词条的数量间隔等,词条的频率信息位置信息，词条的各种信息的索引，各个词条或文档的分值情况等信息。搜索界面模块的设计本模块采用异步通信技术提交请求，在不刷新页面的情况下，每当用户输入个字符，即从数据库中查找相匹配的关键字信息，以下拉框的形式显示在输入框下方，提示用户输入关键词，方便了用户查找所需信息。关键词默认连接逻辑为或，查找范围为文本内容。采用了与建立索引时相对应的四种分词方式对关键词进行搜索，并对首次返回结果集重新排序，最后显示在用户界面上，整个搜索过程如图所示图搜索流程图分析器将用户输入的查询条件按选定的分析方法进行分析，切分，过滤处理，然后访问索引表，查找匹配关键词，将匹配的结果对应的文档按照相关度算法评分，排序，最终返回给用户。系统优化和算法改进索引预处理关键词的检索可以分为两大部分文档的相关度计算以及关键词，检索结果返回的是结果文档的排序得分计算。的检索方法是基于向量空间模型之上的。文档和查询词都表示成向量......”。

2、以下这些语句存在多处问题，具体涉及到语法误用、标点符号运用不当、句子表达不流畅以及信息表述不全面——“.....同样会被认为是相关文档而被检索，有效地避免了这种情况的发生，它只会把含有关键词的文档检索出来。同时，由于文档相关度排序模块对文档的预处理，如果文档中仅含有关键词而关键词与文档的主题没有联系，则也不会被检索出来。因此,有效地提高了系统检索的精度。图对个关键词检索性能的比较四种分词方法的分析比较在搜索引擎的工作过程中最主要的两个过程为建立索引和进行搜索，在这两个步骤中都需要使用分析器将大段文本内容分割为个个的关键词，所谓的索引也就是个关键词集，每个关键词对应其所在文档。对于汉语言的切分远远不如西文如英语德语等来的容易。这是因为西文有天然的语言分割符空格，将其单词个个地分开，而中文的词与词之间却是紧紧相连的。这对于如何分割它们造成了个问题。而对文档切分的正确性势必会影响到建立在关键词匹配基础上搜索引擎的召回率和准确率，因此如何对汉语进行正确切分，是搜索引擎研究中的重中之重。元切分法以空格为切分单位将单词进行分割，并将每个单用户可以根据文摘内容......”。

3、以下这些语句在语言表达上出现了多方面的问题，包括语法错误、标点符号使用不规范、句子结构不够流畅，以及内容阐述不够详尽和全面——“.....除了用户接口之外，都可以进行分布搜索器可以在多台机器上相互合作相互分工进行信息发现，以提高信息发现和更新速度索引器可以将索引分布在不同的机器上，以减小索引对机器的要求检索器可以在不同的机器上进行文档的并行检索，以提高检索的速度和性能。第四，重视交叉语言检索的研究和开发。交叉语言信息检索是指用户用母语提交查询，搜索引擎在多种语言的数据库中进行信息检索，返回能够回答用户问题的所有语言的文档。如果再加上机器翻译，返回结果可以用母语显示。该技术目前还处于初步研究阶段，主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化互联网跨越国界的今天，无疑具有很重要的意义。总之，随着人工智能数据挖掘等技术的发展，搜索引擎必将会朝着更加智能化的方向发展。致谢时光如梭，转眼已到了毕业时分，大学生活中的点点滴滴现在依然如此鲜明，上课，听讲座，去图书馆查资料，老师在课堂上的谆谆教导都成了幕幕美好的回忆。路走来，有许多的感动，有许多需要感谢的人......”。

4、以下这些语句该文档存在较明显的语言表达瑕疵，包括语法错误、标点符号使用不规范，句子结构不够顺畅，以及信息传达不充分，需要综合性的修订与完善——“.....对文档进行预处理后，文档便由个特征词向量来表示，过滤掉了文档中与文档意义无关的字和词，在大批量文档建立索引的时候，能够有效地控制索引中词条的数量，从而达到了优化索引，提高搜索精度的目的。根据实验经验，对于普通的网页文档，至个特征词能够有效地用来表示篇文档的特征，在保证了精度的基础上，可以通过选择更多的词性以及增加特征词的数量来提高响应的结果的召回率。关键词提示的操作优化本系统在原有界面的基础上，使用异步通信技术在搜索主页中做了些改进，即对关键词的操作进行了优化，加强了搜索主页的交互性和用户友好性。页面效果如图所示图页面效果图系统流程图如所示图关键词提示流程具体操作优化的实现过程为用户在文本框中输入查询条件，当按键松开时，文本框控件会响应个名为的事件。在此事件中调用函数创建对象向服务器端发送文本框中的内容参数，进行交互。服务器端接收到请求后，将文本框中的内容参数作为查询条件来访问数据库，找到相匹配的关键词。得到查询结果后......”。

5、以下这些语句存在多种问题，包括语法错误、不规范的标点符号使用、句子结构不够清晰流畅，以及信息传达不够完整详尽——“.....分析用户模型使用相关度反馈机制，使用户告诉搜索引擎哪些文档和自己的需求相关及相关的程度，哪些不相关，通过多次交互逐步求精。二是用正文分类技术将结果分类，使用可视化技术显示分类结构，用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚，减少信息的总量。其次，基于智能代理的信息过滤和个性化服务。信息智能代理是另外种利用互联网信息的机制。它使用自动获得的领域模型如知识信息处理与用户兴趣相关的信息资源领域组织结构用户模型如用户背景兴趣行为风格知识进行信息搜集索引过滤包括兴趣过滤和不良信息过滤，并自动地将用户感兴趣的对用户有用的信息提交给用户。智能代理具有不断学习适应信息和用户兴趣动态变化的能力，从而提供个性化的服务。智能代理可以在用户端进行，也可以在服务器端运行。第三，采用分布式体系结构提高系统规模和性能。搜索引擎的实现可以采用集中式体系结构和分布式体系结构，两种方法各有千秋。但当系统规模到达定程度如网页数达到亿级时，必然要采用种分布式方法，以提高系统性能......”。

6、以下这些语句存在多方面的问题亟需改进，具体而言：标点符号运用不当，句子结构条理性不足导致流畅度欠佳，存在语法误用情况，且在内容表述上缺乏完整性。——“.....客户端接收到返回的数据后，便在文本框的下方构造个关键词列表，来显示这些匹配查询条件的可选值。用户可以根据需要选择关键词，或者继续手动输入查询条件。客户端程序的工作流程如图所示图客户端工作流程图传统系统的业务处理基本在服务器端进行，这样造成了服务器巨大的工作负担，技术采用胖客户端的方式，将些操作交给客户端用脚本语言进行操作，减轻了服务器端的负担。服务器端的工作流程如图所示服务器端工作流程图关键词表结构如图所示图关键词表结构图引入停止分词算法在中可以通过手动调整停止词来过滤掉没有意义的或是不需要的词和词组，甚至能够精确到字母。汉语中存在着许多切分标志，比如标点符号等，词不能跨越这些标点而存在。同时，数字也不能存在于汉语的词汇中。消除这些没有意义的标志，在分词过程中减少比较次数次，其中为待处理文本中停止词符号的个数，为比较步长......”。

7、以下这些语句存在标点错误、句法不清、语法失误和内容缺失等问题，需改进——“.....并且返回切分的词汇数目，累加后得到该文本所含的词汇数，该字串切分完毕后赋予待分字串空值停止词表中没有字符把字符追加到待处理字串中实现停止词功能在定意义上可以说是对字符串进行的预处理。应用与结果分析三种索引的分析比较使用三种不同的方法来建立索引使用内部的标准分析器来建立索引只添加中文分词模块来建立索引添加文档相关度排序模块和中文分词模块来建立索引这三种索引均使用保存文档正文的方式。关闭多余进程和网络连接以减少对搜索的影响。选取个不同主题的关键词分别对三种索引进行搜索。由于汉语中常用词中是由两个汉字组成的，遂采用双字的关键词，且保证和的词条中存在这些关键词。对个关键词依次测试，把每个关键词记录在中搜索出的结果的数量。在图中为给定的关键词，为基于文章主题的人为划定的文档集合，用作为测定三类索引检索精度的标准，从图中可以看出的曲线与想吻合，中搜索出很多不相关的内容，由于索引中冗余词条以及单字的干扰，其精度不够理想。例如，在篇文章中......”。

8、以下文段存在较多缺陷，具体而言：语法误用情况较多，标点符号使用不规范，影响文本断句理解；句子结构与表达缺乏流畅性，阅读体验受影响——“.....我的后续研究方向之就是为用户提供个性化的排序。用户平时的检索行为决定了用户的爱好和兴趣，当用户再次检索的时候，搜索引擎把适合其兴趣爱好的检索出来，并按和爱好相似程度排序。其二是研究，完善我搭建的搜索引擎。展望毋容置疑，搜索引擎已经成为个新的研究开发领域。因为它要用到信息检索人工智能计算机网络分布式处理数据库数据挖掘数字图书馆自然语言处理等多领域的理论和技术，所以具有综合性和挑战性。又由于搜索引擎有大量的用户，有很好的经济价值，所以引起了世界各国计算机科学界和信息产业界的高度关注，目前的研究开发十分活跃，并出现了很多值得注意的动向。首先，十分注意提高信息查询结果的精度，提高检索的有效性。用户在搜索引擎上查询信息时，并不十分关注返回结果的多少，而是看结果是否和自己的需求吻合。对于个查询，传统的搜索引擎动辄返回几十万几百万篇文档，用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法是通过各种方法获得用户没有在查询语句中表达出来的真正用途......”。

9、以下这些语句存在多方面瑕疵，具体表现在：语法结构错误频现，标点符号运用失当，句子表达欠流畅，以及信息阐述不够周全，影响了整体的可读性和准确性——“.....公式其中,是词条在文档中出现的频率，是文档的总数，是包含词条的文档数目。有套计算得分的公式，如下公式其中，表示词条的频率，表示反转词频，表示在建立索引时对文档设置的种激励因子，表示对文档设置的个长度因子。个有个字所组成的查询串通过分词后，被切分成个词条，其中,通过分析公式和公式，在分别针对分词索引和单词索引搜索的时候，因为词条的个数小于字数，对于文档相关度和排序得分的计算时间相对单字索引有所坚守，所以分词索引比字索引效率更高。添加索引预处理模块是为了提高检索结果的精度。索引预处理的算法描述如下对文档进行分词后，标注词性提取文档中动词名词和形容词统计选取的词的词频若索引的文档大于篇则跳转到步骤，索引文档小于篇则进行下步对词频排名前至的词进行选取作为文档的特征词，根据系统精度的具体要求来确定选取的词的个数计算没个词的值，根据值对这些词进行降序排列......”。