帮帮文库

返回

网络爬虫(外文翻译) 网络爬虫(外文翻译)

格式:word 上传:2022-06-25 20:08:50

《网络爬虫(外文翻译)》修改意见稿

1、“.....中文译文要在网络上爬行非常简单基本的算法是取得个网页解析它提取所有的链接对于所有没有见过的重复执行。但是,网络的大小估计有超过亿的网页和他们变化的频率估计每周有的变化使这个计划由个微不足道的设计习题变成个非常严峻的算法和系统设计挑战。实际上,光是这两个要素就意味着如果要进行及时地,完全地爬行网络,步骤必须每秒钟执行大约次,因此,成员检测必须每秒钟执行超过次,并有非常大的数据储存到主内存中。这个要求有个分布式构造,使得成员检测更加复杂。个非常重要的方法加速这个检测就是用高速缓存......”

2、“.....这个论文最主要的成果就是仔细的研究了几种关于网络爬虫的缓存技术。我们考虑所有实际的算法随机置换,静态和,和理论极限透视和极大的。我们执行了大约次模拟,用不同的大小执行这些算法,用真实的日志数据,获取自个非常大的天的网络爬行,大约执行了超过亿次的请求。我们的主要的结论是是非常高效的在我们的机制里,个有大约个入口的可以完成的速率。有趣的是,这的大小下降到个临界点个足够的小点的更有效当个足够的大点的只能带来很小的额外好处。我们推测这个临界点是固有的并且冒昧的解释下这个现象......”

3、“.....估计在年中期,初略有超过半的美国人用网络搜索获取信息。因此,个强大的搜索引擎技术有巨大的实际利益,在这个论文中,我们集中于方面的搜索技术,也就是搜集网页的过程,最终组成个搜索引擎的文集。搜索引擎搜集网页通过很多途径,他们中,直接提交,回馈内含物,然后从非源文件中提取,但是大量的文集包含个进程叫或者,他们递归的探索互联网。基本的算法是,网络怕从般开始于些种子。有些时候网络爬虫开始于个正确连接的页面,或者个目录就像,但是因为这个原因相关的巨大的部分网络资源无法被访问到......”

4、“.....把超链接看作定向的移动在这些节点之间,那么网络爬虫就变成了个进程就像数学中的图的遍历样。不同的遍历策略决定着先不访问哪个节点,下个访问哪个节点。种标准的策略是深度优先算法和广度优先算法他们容易被实现所以在很多入门的算法课中都有教。但是,在网络上爬行并不是个微不足道的设计习题,而是个非常严峻的算法和系统设计挑战因为以下点原因网络非常的庞大。现在,需要索引超过亿的网页。很多研究都指出,在历史上,网络每个月都会增长倍。网络的页面改变很频繁。如果这个改变指的是任何改变......”

5、“.....如果我们认为页面改变三分之或者更多,那么有大约的页面每周会变。这个要素意味着,要获得及时的,完全的网页快照,个搜索引擎必须访问亿个网页每天。因此,步骤必须执行大约每秒次,成员检测的步骤必须每秒执行超过次,并有非常大的数据储存到主内存中。另外,网络爬虫般使用个分布式的构造来平行地爬行更多的网页,这使成员检测更为复杂这是可能的成员问题只能回答了个同行节点,而不是当地。个非常重要的方法加速这个检测就是用高速缓存,这个是把见过的存入主内存中的个动态子集中......”

6、“.....我们考虑所有实际的算法随机置换,静态和,和理论极限透视和极大的。我们执行了大约次模拟,用不同的大小执行这些算法,用真实的日志数据,获取自个非常大的天的网络爬行,大约执行了超过亿次的请求。这个论文像这样组织的第部分讨论在文学著作中几种不同的爬行解决方案和什么样的最适合他们。第部分介绍关于些的技术和介绍了关于几种理论和实际算法。第部分我们实现这些算法,在实验机制中。第部分描述和讨论模拟的结果。第部分是我们推荐的实际算法和数据结构关于。第部分是结论和指导关于促进研究。网络爬虫的出现几乎和网络同期......”

7、“.....在这个部分,我们呈现个摘要关于这些爬虫程序,并讨论问什么大多数的网络爬虫会受益于。网络爬虫用网络存档雇员多个爬行进程,每个次性完成个彻底的爬行对于个。爬虫进程储存非本地的到磁盘在爬行的最后,批工作将这些加入到下个爬虫的每个的种子中。最初的爬虫,实现不同的爬虫组件通过不同的进程。个单独的服务器进行维护需要下载的的集合爬虫程序获取的网页索引进程提取关键字和超链接解决进程将相对路径转换给绝对路径。这些不同的进程通过文件系统通信。这个论文的中实验我们使用的网络爬虫。使用了个独立的集合,通信网络爬虫进程......”

8、“.....没有责任通过传送这个给网络爬虫,有责任把这些绑在起减少开销。我们描述很多的细节在第部分。任何网络爬虫必须维护个集合,装那些需要被下载的。此外,不能重复地下载同个,必须要个方法避免加入到集合中超过次。般的,达到避免可以用维护个发现的集合。如果数据太多特殊原因我翻译外文文献的机会比较多,慢慢地就发现了外文文献翻译过程中的三大利器翻译频道金山词霸完整版本和翻译助手。具体操作过程如下先打开金山词霸自动取词功能,然后阅读文献遇到无法理解的长句时,可以交给处理......”

9、“.....不堪入目,可是经过大脑的再处理后句子的意思基本就明了了如果通过仍然无法理解,感觉就是不同,那肯定是对其中个常用单词理解有误,因为些单词看似很简单,但是在文献中有特殊的意思,这时就可以通过的翻译助手来查询相关单词的意思,由于的单词意思都是来源与大量的文献,所以它的吻合率很高。另外,在翻译过程中最好以段落或者长句作为翻译的基本单位,这样才不会造成只见树木,不见森林的误导。四大工具翻译,众所周知,谷歌里面的英文文献和资料还算是比较详实的。我利用它是这样的。方面可以用它查询英文论文,当然这方面的帖子很多......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
网络爬虫(外文翻译).docx预览图(1)
1 页 / 共 27
网络爬虫(外文翻译).docx预览图(2)
2 页 / 共 27
网络爬虫(外文翻译).docx预览图(3)
3 页 / 共 27
网络爬虫(外文翻译).docx预览图(4)
4 页 / 共 27
网络爬虫(外文翻译).docx预览图(5)
5 页 / 共 27
网络爬虫(外文翻译).docx预览图(6)
6 页 / 共 27
网络爬虫(外文翻译).docx预览图(7)
7 页 / 共 27
网络爬虫(外文翻译).docx预览图(8)
8 页 / 共 27
网络爬虫(外文翻译).docx预览图(9)
9 页 / 共 27
网络爬虫(外文翻译).docx预览图(10)
10 页 / 共 27
网络爬虫(外文翻译).docx预览图(11)
11 页 / 共 27
网络爬虫(外文翻译).docx预览图(12)
12 页 / 共 27
网络爬虫(外文翻译).docx预览图(13)
13 页 / 共 27
网络爬虫(外文翻译).docx预览图(14)
14 页 / 共 27
网络爬虫(外文翻译).docx预览图(15)
15 页 / 共 27
预览结束,还剩 12 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档