帮帮文库

返回

搜索引擎研究 搜索引擎研究

格式:word 上传:2022-06-25 15:15:24

《搜索引擎研究》修改意见稿

1、“.....佚名搜索引擎优化之我见百度百科完全致的个数,然后除以两个文档的总数个数减去致的个数,数学表示为,这个数值称为系数消重消重主要考虑得问题是留下哪个网页,现在搜索引擎主要采用的方法是保留爬虫首先抓取的网页,丢弃其他相同的,这种方法实现简单,且很大程度上保证了优先保留原创的原则。中文分词在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有个明显的差别英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成个个的词的序列,这就是中文分词。目前,中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不同......”

2、“.....这种方法的优点是分词的速度快,准确度有定的保证,但对未登录词的处理效果较差。中文自动分词的难点在于分词歧义的处理和未登录词的识别,如何处理这两个问题直是该领域研究的热点。歧义处理歧义主要包括交叉歧义如化妆和服装,可分解为化妆和服装或者化妆和服装组合歧义在句子将军任命了名中将中,中将是个词,但在句子产量三年中将增长两倍中,中将就不再是词。和真歧义例如乒乓球拍卖完了,可以切分成乒乓球拍卖完了也可切分成乒乓球拍卖完了。这些交与计算机识别都是有难度的,现在对歧义现象的处理方法般采用类似于动态规划的算法将歧义问题的求解转化为个优化问题的求解。在求解过程中,般使用词频或概率等辅助信息求得个最大可能的分词结果,这个结果在种意义下是最佳的。未登录词处理未登录词就是分词词典中没有的词,也称为新词。最典型的是人名地名专业术语等......”

3、“.....还有机构名地名产品名商标名简称省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前,对未登录词的处理般采用统计的方法,首先从语料中统计出出现频率较高的字组,然后按照种规则把它们作为新词添加到辅助词典中。目前,中文自动分词技术在搜索引擎中已经得到广泛应用,分词准确度已经达到以上,网络上的中文信息越来越多,对网络上的中文信息的处理必将成为个巨大的产业和广阔的市场,存在无限的商机。但是,中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品,还要在基础研究方面和系统的集成方面做许多工作。网页级别,是用于用来标识网页的等级重要性的种方法,是用来衡量个网站的好坏的唯标准。模型的分析过程也被称为链接分析,的排名就是对网页重要性的排名。简单的理解基本想法是网页链接到网页,则表示网页的编写者对网页的认可......”

4、“.....网页往往也越重要。影响值的个方面反向链接的数目与质量爬虫在你网页抓取的页面数网站被世界大知名站点和收录索引器索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种元数据索引项与文档的语意内容无关,如作者名更新时间编码长度链接流行度等等内容索引项是用来反映文档内容的,如关键词及其权重短语单字等等。在搜索引擎发展得初期,能够索引的网页数量,代表了整个行业的技术发展水平。索引器的输出是索引表,它般使用倒排形式,即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现实时索引,否则就无法跟上信息量急剧增加的速度......”

5、“.....个搜索引擎的有效性在很大程度上取决于索引的质量。全文检索全文检索是计算机程序通过扫描文章中的每个词,对每个词建立个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索技术的出现是信息检索领域的场革命,它细化了信息检索的粒度,提供了时间多角度,多侧面且全新的信息检索体验,因此全文检索已经成为现代搜索引擎的主流检索方法。文本信息索引技术顺排文档检索顺序文档检索是有日本人菊池敏典提出的,其主要思想是将文档中的每条记录依次去匹配用户的检索提问集合,文档处理完毕后,将各提问的命中结果归并分发给有关用户。顺序文档检索的关键技术是采用列表处理方法将提问逻辑式变换成等价的提问展开式,按提问展开表的内容对顺排文档的每篇文献进行检索......”

6、“.....并且对所存储轻便的任何可检的项目都能够进行详谈的处理。目前常用的顺排文档检索方法主要由表展开法逻辑树法等。倒排文档检索倒排文档是种面向单词的索引机制,相对顺排文档而言,是将顺排文档中可检索字段的作者名关键词分类号等取出,按定规则排序,归并相同词汇,并把在顺序文档中相关记录的记录号集合赋予气候,以保证通过特征词能够快速方便的获取相关记录。由于倒排文档的组成特点,使得许多数学检索模型能够方便的用于信息检索中,它把两个检索词的逻辑运算转换成两个检索词之间的记录号集合的运算。目前最常见的倒排文档检索为逆波兰展开法。逆波兰表达式又叫做后缀表达式,是种没有括号,并严格遵循从左到右运算的后缀式表达方法。正常表达式逆波兰表达式,图正常表达式与逆波兰表达式对照表逆波兰表达式的优势在于只有入栈和出栈就可以完成普通表达式的运算若当前字符是变量或者数字......”

7、“.....则弹出栈顶个元素作相关运算,结果再入栈,完成后,栈中即是结果。信息库信息库用来存放所获取的网页。在的信息库中需要包含每个网页的文档。其中每个页面都通过算法进行压缩。在选择采用具体压缩算法的时候,要综合考虑速度和压缩率的关系,般采用折中选择。信息库中的文档按照下表的存放格式图信息库数据结构表中,是文档的唯标识,表示的是文档被存放时所采取的编码方式,表示该文档来源的长度,表示该文档的长度,是存放该文档来源的,表示存放该文档的内容。检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型代数模型概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。信息检索模型经典模型布尔模型基于集合理论和布尔代数的种检索模型......”

8、“.....布尔模型是部引导用户访问不同的页面的。许多蜘蛛程序都会追踪你写的内容和通过网页的链接地址来寻找网页,抽取超链接地址。许多专家都建议网站提供网站地图,在网站上的每个页面之间最好都有个到两个的深入链接。网站要做的第步是确保导航中包含目录页面,也要确保每个子页面都有链接回到主页面和其它的重要页面。外部链接,的技术就是建立的外部链接的基础上的,可见外部链接的重要性。外部链接的关键在于数量和质量,而质量大于数量。若味追求大量外部链接而导致大量垃圾链接会被搜索引擎视为作弊而被屏蔽。获得好的外部链接的前提则是更高的网页质量。竞价排名竞价排名,是个经常与关键字联系在起的术语,是搜索引擎提供的种通过付费来提高在搜索引擎中的曝光率的服务。的主要目的是为网站带来访问量,但理想情况下,想要从中得到的并不仅仅是访问量,最重要的还是实现为网站而设定的些目标转换......”

9、“.....可能需要尝试不同的技术和不同的关键字,甚至是不同的服务。相对与传统的搜索引擎优化,竞价排名具有以下两个优势不需要对网站修改,要做的只是为目标关键字出价并付费竞价排名的实施非常简单快速,可立即为网站获得流量竞价排名分类关键字竞价排名关键字竞价排名是最常见的竞价排名,出价的高低决定了网站在搜索引擎结果中的位置。在关键字竞价排名中,所使用的关键字可以是任何适用于网站的单词或短语。往往最常见的单词也是竞争最激烈的。主流搜索引擎引擎提供的竞价排名服务般都是关键字竞价排名。商品竞价排名可以将商品竞价排名视为在线比较购物搜索引擎,或是价格比较搜索引擎。使用商品竞价排名的要求与使用关键字竞价排名的要求有些差别。在商品竞价排名中,必须向搜索引擎提供个源也就是个定期更新的商品价格表。用户搜索该商品时,您的链接会首先被推荐给用户,根据出价不同闻之不同......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
搜索引擎研究.doc预览图(1)
1 页 / 共 51
搜索引擎研究.doc预览图(2)
2 页 / 共 51
搜索引擎研究.doc预览图(3)
3 页 / 共 51
搜索引擎研究.doc预览图(4)
4 页 / 共 51
搜索引擎研究.doc预览图(5)
5 页 / 共 51
搜索引擎研究.doc预览图(6)
6 页 / 共 51
搜索引擎研究.doc预览图(7)
7 页 / 共 51
搜索引擎研究.doc预览图(8)
8 页 / 共 51
搜索引擎研究.doc预览图(9)
9 页 / 共 51
搜索引擎研究.doc预览图(10)
10 页 / 共 51
搜索引擎研究.doc预览图(11)
11 页 / 共 51
搜索引擎研究.doc预览图(12)
12 页 / 共 51
搜索引擎研究.doc预览图(13)
13 页 / 共 51
搜索引擎研究.doc预览图(14)
14 页 / 共 51
搜索引擎研究.doc预览图(15)
15 页 / 共 51
预览结束,还剩 36 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档