专家检索研究综述

格式：word 上传：2022-06-24 20:56:40

《专家检索研究综述》修改意见稿

1、“.....等和等分别利用专家访问互联网的日志和专家访问本地文件的日志，结合被访问网页和文档的主题，来实现类似于专家检索的功能。等通过对公司内部网络中的文档和专家建立联系，提取专家专长的表示，从而实现专家检索。等提出了种利用资源描述框架描述专长的形式，并利用了高等院校中常见的专长资源专家主页学术文献科技报告来检索专家。目前，在专家检索领域仍没有种通用的方法，通过分析近几年来专家检索任务中采用方式如专家证据来源文档或者网页的链接般只考虑入链，地址长度等。内容上主要是考虑候选专家姓名或者邮件地址与查询主题词之间的距离。对这方面研究具代表的是专长的种描述，从而实现自动化的专家检索系统。等通过电子邮件交互提取出个专家网络，并通过该网络寻找具有相同兴趣或专长的专家。等利用讨论组中专家设立专家检索任务之前......”。

2、“.....但并未在检索学界得到较多的关注。早在年，等就通过潜语义标引对研究团体的研究成果文献建立索引作为团体多语种信息，获得了多语种的专家证据。等利用搜索引擎搜索专家或者专家的相关信息，并将搜索引擎的返回结果作为专家证据的外部数据集。专家检索方法早在年会议索出候选专家的出版物来补充专家档案中候选专家的专长信息等将整个互联网作为专家证据的来源。等创建了数据集，该数据集是从荷兰蒂尔堡大学网站抓取的家证据。把这些从企业内部网之外所获得的专家证据来源称之为外部数据源。如些学术数据库，专利网站或者新闻网站等，都是专家证据的很好来源。等利用检定的声誉。以来，研究者们尝试扩展数据集的来源，即从企业内部网扩展到互联网......”。

3、“.....真正的专家不应该只是在企业或者组织内部有名望，其在可查询到的网络空间如新闻，博客，学术图书馆中也可能具有的个模板如,所以参与者需在数据集中识别出专家的特征信息如姓名与邮件地址。外部数据源的文档是和格式的，剩下的文档则是多媒体和等格式的。没有给参与者提供候选专家列表，而只是提供了员工邮件地址集共，包括了个文档，含个超链接，其中的网页至少包含个外链接，且这些外链接包含锚文本。等指出，中大约的文档是网页，和的数据集,是于年月从的公开网站上抓取的。该数据 , 此外，在这两次的专家检索任务中，给参与者提供了包含个候选专家的列表，在候选专家列表中包括了专家的全名和邮件地址。语料库 , , , , ,上抓取的，其数据集的详细信息如表所示表数据集类型范围大小文档数平均文档长度和语料库......”。

4、“..... 语料库和使用的专家检索数据集是在年月从的公开网站从企业的内部公开网站上获得的企业内部网页企业内部邮件企业内部文档简历个人主页等可以作为专家专长信息的来源。如为专家检索子任务提供了两种数据集，即语料库其次，专家的专长信息是不断更新的，而数据却不易更新，故数据库的信息往往是陈旧的再者，利用这些数据库进行专家检索时对查询格式有固定的格式化要求，缺乏灵活性。企业内部网其次，专家的专长信息是不断更新的，而数据却不易更新，故数据库的信息往往是陈旧的再者，利用这些数据库进行专家检索时对查询格式有固定的格式化要求，缺乏灵活性。企业内部网从企业的内部公开网站上获得的企业内部网页企业内部邮件企业内部文档简历个人主页等可以作为专家专长信息的来源。如为专家检索子任务提供了两种数据集，即语料库和语料库，它们都来自于企业内部网站......”。

5、“.....其数据集的详细信息如表所示表数据集类型范围大小文档数平均文档长度 , , , , , , 此外，在这两次的专家检索任务中，给参与者提供了包含个候选专家的列表，在候选专家列表中包括了专家的全名和邮件地址。语料库和的数据集,是于年月从的公开网站上抓取的。该数据集共，包括了个文档，含个超链接，其中的网页至少包含个外链接，且这些外链接包含锚文本。等指出，中大约的文档是网页，的文档是和格式的，剩下的文档则是多媒体和等格式的。没有给参与者提供候选专家列表，而只是提供了员工邮件地址的个模板如,所以参与者需在数据集中识别出专家的特征信息如姓名与邮件地址。外部数据源语料库和语料库中的数据集都是企业内部网站上抓取的但基于这样的个假设......”。

6、“.....其在可查询到的网络空间如新闻，博客，学术图书馆中也可能具有定的声誉。以来，研究者们尝试扩展数据集的来源，即从企业内部网扩展到互联网。也就是说在建立专家档案时不但要考虑企业内部网上的专家证据也要考虑外部网站上的专家证据。把这些从企业内部网之外所获得的专家证据来源称之为外部数据源。如些学术数据库，专利网站或者新闻网站等，都是专家证据的很好来源。等利用检索出候选专家的出版物来补充专家档案中候选专家的专长信息等将整个互联网作为专家证据的来源。等创建了数据集，该数据集是从荷兰蒂尔堡大学网站抓取的多语种信息，获得了多语种的专家证据。等利用搜索引擎搜索专家或者专家的相关信息，并将搜索引擎的返回结果作为专家证据的外部数据集。专家检索方法早在年会议设立专家检索任务之前，其它领域的学者们已对专家检索方法进行了探讨，但并未在检索学界得到较多的关注。早在年......”。

7、“.....从而实现自动化的专家检索系统。等通过电子邮件交互提取出个专家网络，并通过该网络寻找具有相同兴趣或专长的专家。等利用讨论组中专家的交流提出了种具备专家推荐能力的智能中介来向讨论组中的询问者推荐可解答问题的专家。等和等分别利用专家访问互联网的日志和专家访问本地文件的日志，结合被访问网页和文档的主题，来实现类似于专家检索的功能。等通过对公司内部网络中的文档和专家建立联系，提取专家专长的表示，从而实现专家检索。等提出了种利用资源描述框架描述专长的形式，并利用了高等院校中常见的专长资源专家主页学术文献科技报告来检索专家。目前，在专家检索领域仍没有种通用的方法，通过分析近几年来专家检索任务中采用方式如专家证据来源文档或者网页的链接般只考虑入链，地址长度等......”。

8、“.....对这方面研究具代表的是，他在中，利用投票模型来识别高质量的专家证据，并提出链接越多的文档专家证据的质量越高越短的网页越有可能是候选专家的个人主页，个人主页上般都注明了候选专家的个人兴趣爱好，故能提供高质量的专家证据查询主题与专家姓名共现次数越多的文档，提供的专家证据质量越高，并利用投票模型来计算候选专家姓名和查询主题之间的距离。查询扩展基于专家档案的方法实质上是将专家与查询主题之间的关系转换为文档与查询主题之间的关系。为了提高专家检索的准确度，些研究者已将用于文档检索中的查询扩展运用到了专家检索中。即在检索时，将排名靠前的专家档案作为伪相关集，进而利用伪相关集来扩展最初的查询并为查询主题词重新设置权值。和通过给相关性很大的文档中的主题词加权来选择扩展词......”。

9、“.....如果将这个文档作为查询扩展，则其它不相关的专长领域会影响到查询扩展的效果，从而使得最后扩展的查询主题失去了原有意思即跑题。在文中提出，将与查询主题相关性很大的文档作为查询扩展集，可以有效避免查询扩展中的跑题。等将检索结果相关性排名前的文档中的出现频次前的检索主题词作为查询扩展词。跑题是将查询扩展运用到专家检索不可避免的现象，目前有些衡量专家档案中跑题发生的次数的方法，但还未提出些衡量跑题是何时与如何发生的方法。总之，查询扩展的在专家检索中的成功运用有助于发现相似专家，也有助于在组织中自动创建专长路线图......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。