计算机网络与分布式系统设计

格式：word 上传：2022-06-25 20:19:13

《计算机网络与分布式系统设计》修改意见稿

1、“.....点击的用户标识联合主键，点击的职位标识点击日期点击次数网页文本分类模块网络文本分类模块使用了中科院计算所分类算法的源码，并且，然后在此基础上进行了调试修改，并进行了训练。这个分类器同时包含和两种分类器，经过测试发现分类器的分类效果明显的好与分类器，因此在接下来的工作中我们采用分类器。分类器源代码并不能直接编译通过，首先找到它所需要的库的头文件和文件，使得分类器的源代码能够在下顺利编译通过。然后进行的修改工作主要是加入数据库访问的功能，使平台的分类器能够对平台的数据库进行访问，能够查询出待分类的记录的信息，进行文本分类，然后修改记录类别。训练的过程我们人工建立了关于职位分类的训练集......”。

2、“.....等网站，每类找了多个典型网页个不等，提取其中关于职位描述的文本，这样就得到了训练集。然后利用训练集对采用的分类器进行训练。最后，找了包含每类中的职位信息文本作为测试集，对分类器和训练结果进行测试，分类效果还是不错的测试中分错类的很少。我们建立的分类类别主要是职位类型，包括以下类别硬件开发软件开发，的含义见上。中元素均具有系列相同的属性，设这些属性组成的集合为。,,在计算最终得分时，这些属性对应的权重为,对于中任意元素，对应于每个属性都将有个取值，该值对应着中该元素在这个属性上的得分。即,其中为属性的标号，而为第个属性在取值为这条记录中的值的时候的得分。于是，对于中任意元素，有......”。

3、“.....最后，根据中各元素的值排序，并返回排序后的记录集。浏览全部工作信息模块考虑到有可能匹配到的工作信息比较少，用户有可能会有更进步的需求，这时就可以利用浏览全部工作信息这模块查看数据库中所爬取到的近个月内的所有工作。这功能模块实现比较简单，就是将数据库中所有工作信息取出，按时间排序，返回给页面显示出来即可。按类别浏览工作信息模块添加了分类模块之后，使得领域内的用户可以浏览本领域的所有工作信息。这功能是在浏览全部工作信息功能的基础上附加个条件而实现，类似于浏览全部工作信息模块......”。

4、“.....都是离线进行的。用户注册模块这模块功能比较简单，仅仅包含两三个页面，由用户输入相关个人信息，注册成为的会员，从而可以使用提供的功能服务。但是这模块却具有相当大的重要性。因为，后面的工作信息搜索就是在用户注册时所填写的个人信息基础上进行。根据实际在上搜索查看工作信息的经验，用户必须填写如下个人信息，才能正常使用所提供的功能用户名真实姓名密码性别生日即年龄领域职位所在地语言专业教育水平工作经验工资水平地址邮政编码电话以及工作类型。搜索工作信息模块本模块为前端核心模块。主要功能是根据用户注册时所填写的个人信息，从数据库工作信息中查找出符合用户条件的工作信息......”。

5、“.....并根据这个对结果进行排序显示。这模块的工作流程如下用户登陆成功之后，页面会将用户的等信息传给的实例，根据用户的性别职位语言信息发布时间所在地教育水平工作经验等数据粗略地选择出符合用户需求的工作信息记录。之后，对每条被选出的记录，根据其工资情况发布日期长短教育水平要求工作经验要求，计算每条记录与用户个人情况的符合度。根据这些记录的符合度进行排序，将排序后的结果返回给页面，并在页面中显示出来......”。

6、“.....集合是个以若干规则作为元素的集合。,于通过程序自动翻页却无法解决，因为般情况下，这些翻页是用些实现，而有的函数是动态生成的，有些是函数内又调用了些端不可见的函数，因此通过几乎无法实现翻页。而且，我们在这篇年的论文的中也看到了可以看出这可能是个比较难的问题。目前我们先绕过这个问题，通过其他途径进行数据抓取。第二种方法实现起来比较方便，首先我们分析几个目标网站的动态网页参数的分布范围，比如就代表个有效的网页，通过分析，发现参数的分布规律不是连续分布，然后对循环抓取。这当然会有效率低的问题，因为会有些无效网页或空网页被抓下来了，我们计划在后续加入个自动判断是是空网页的方法，其实也比较简单，在抓取的过程中......”。

7、“.....如果抓取到定数量后，发现个长度的网页出现很多次，我们就能判定该长度的网页是空网页，有点学习的味道，之后就只需要丢弃抓到的该长度的网页，这样做的原因是使程序可以适用于多个网站而不用修改程序。信息提取模块由于数据抓取模块抓到的网页所包含的职位信息是非结构化或者半结构化的，因此需要个模块将这些信息转化为结构化信息。而个通用的信息提取系统可以在非结构化文本中提取我们所关心的信息，包括提取单个实体提取实体二元关系提取事件模板多元语义关系结构等阶段，涉及到比较深入的自然语言处理技术，是个值得深入研究的问题。由于本身是个很有技术难度，而且是当前个研究的热点。作为课程实习，我们将问题的范围做了限制......”。

8、“.....因此我们关注于些半结构化系统设计使用了三个数据库表这些表的详细设计如下表存储了注册用户的信息字段名类型长度含义备注，唯标识不能为空，自增长，主键用户名用户姓名密码性别出生日期领域职位职务城市语言专业教育北京学历工作经历薪水要求地址邮编电子邮件电话职位类型主页表存储了网上的职位信息字段名类型长度含义备注，唯标识不能为空，自增长，主键公司名称,比如微软中国总公司公司介绍是段文本,由于比较长,可能是几百字,所以存成类型职位名称比如售前网络工程师职位发布日期比如职位介绍是段文本，可能是几百字,所以存成类型职位需求是段文本，可能是几百字,所以存成类型工作地点比如北京市招聘人数比如若干，性别要求比如男......”。

9、“.....应届毕业生等的信息的提取。在个公司主页发布的招聘信息虽然本身是半结构化的，但是由于各个公司所采用的格式不同，在个大的范围来看，这些信息的结构化程度降低了许多，处理起来比较麻烦，因此我们暂时不考虑这些公司主页上发布的招聘信息，这也是为什么我们在数据抓取模块没有从网页指向的公司主页上抓取信息的原因。具体而言，提取半结构化的信息可以用正则表达式或者为每个网站建立模板，采用字符串解析的方式提取，我们采用了第二种方法。目前我们针对比较大型的职位门户网站建了提取模板,，提取职位信息。如图所示，从数据抓取模块得到的信息交给模块，首先有个分配器，来决定需要用哪个子模块来提取信息......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。