基于网络爬虫的有效URL缓存（外文翻译）㊣精品文档值得下载

基于网络爬虫的有效URL缓存（外文翻译）

是，网络的大小估计有超过亿的网页和他们变化的频率估计每周有的变化使这个计划由个微不足道的设计习题变成个非常严峻的算法和系统设计挑战。实际上，光是这两个要素就意味着如果要进行及时地，完全地爬行网络，步骤必须每秒钟执行大约次，因此，成员检测必须每秒钟执行超过次，并有非常大的数据储存到主内存中。这个要求有个分布式构造，使得成员检测更加复杂。个非常重要的方法加速这个检测就是用高速缓存，这个是把见过的存入主内存中的个动态子集中。这个论文最主要的成果就是仔细的研究了几种关于网络爬虫的缓存技术。我们考虑所有实际的算法随机置换，静态和，和理论极限透视和极大的。我们执行了大约次模拟，用不同的大小执行这些算法，用真实的日志数据，获取自个非常大的天的网络爬行，大约执行了超过亿次的请求。我们的主要的结论是是非常高效的在我们的机制里，个有大约个入口的可以完成的速率。有趣的是，这的大小下降到个临界点个足够的小点的更有效当个足够的大点的只能带来很小的额外好处。我们推测这个临界点是固有的并且冒昧的解释下这个现象。介绍皮尤基金会最新的研究指出搜索引擎已经成为互联网用户不可或缺的工具，估计在年中期，初略有超过半的美国人用网络搜索获取信息。因此，个强大的搜索引擎技术有巨大的实际利益，在这个论文中，我们集中于方面的搜索技术，也就是搜集网页的过程，最终组成个搜索引擎的文集。搜索引擎搜集网页通过很多途径，他们中，直接提交，回馈内含物，然后从非源文件中提取，但是大量的文集包含个进程叫或者外文资料原文，他们递归的探索互联网。基本的算法是，网络怕从般开始于些种子。有些时候网络爬虫开始于个正确连接的页面，或者个目录就像，但是因为这个原因相关的巨大的部分网络资源无法被访问到。估计有超过如果把网页看作图中的节点，把超链接看作定向的移动在这些节点之间，那么网络爬虫就变成了个进程就像数学中的图的遍历样。不同的遍历策略决定着先不访问哪个节点，下个访问哪个节点。种标准的策略是深度优先算法和广度优先算法他们容易被实现所以在很多入门的算法课中都有教。但是，在网络上爬行并不是个微不足道的设计习题，而是个非常严峻的算法和系统设计挑战因为以下点原因网络非常的庞大。现在，需要索引超过亿的网页。很多研究都指出，在历史上，网络每个月都会增长倍。网络的页面改变很频繁。如果这个改变指的是任何改变，那么有的网页每周会改变。如果我们认为页面改变三分之或者更多，那么有大约的页面每周会变。这个要素意味着，要获得及时的，完全的网页快照，个搜索引擎必须访问亿个网页每天。因此，步骤必须执行大约每秒次，成员检测的步骤必须每秒执行超过次，并有非常大的数据储存到主内存中。另外，网络爬虫般使用个分布式的构造来平行地爬行更多的网页，这使成员检测更为复杂这是可能的成员问题只能回答了个同行节点，而不是当地。个非常重要的方法加速这个检测就是用高速缓存，这个是把见过的存入主内存中的个动态子集中。这个论文最主要的成果就是仔细的研究了几种关于网络爬虫的缓存技术。我们考虑所有实际的算法随机置换，静态和，和理论极限透视和极大的。我们执行了大约次模拟，用不同的大小执行这些算法，用真实的日志数据，获取自个非常大的天的网络爬行，大约执行了超过亿次的请求。这个论文像这样组织的第部分讨论在文学著作中几种不同的爬行解决外文资料原文方案和什么样的最适合他们。第部分介绍关于些的技术和介绍了关于几种理论和实际算法。第部分我们实现这些算法，在实验机制中。第部分描述和讨论模拟的结果。第部分是我们推荐的实际算法和数据结构关于。第部分是结论和指导关于促进研究。网络爬虫的出现几乎和网络同期，而且有很多的文献描述了网络爬虫。在这个部分，我们呈现个摘要关于这些爬虫程序，并讨论问什么大多数的网络爬虫会受益于。网络爬虫用网络存档雇员多个爬行进程，每个次性完成个彻底的爬行对于个。爬虫进程储存非本地的到磁盘在爬行的最后，批工作将这些加入到下个爬虫的每个的种子中。最初的爬虫，实现不同的爬虫组件通过不同的进程。个单独的服务器进行维护需要下载的的集合爬虫程序获取的网页索引进程提取关键字和超链接解决进程将相对路径转换给绝对路径。这些不同的进程通过文件系统通信。这个论文的中实验我们使用的网络爬虫。使用了个独立的集合，通信网络爬虫进程。每个爬虫进程都是个有效的服务器子集的分配基于主机组件。没有责任通过传送这个给网络爬虫，有责任把这些绑在起减少开销。我们描述很多的细节在第部分。任何网络爬虫必须维护个集合，装那些需要被下载的。此外，不能重复地下载同个，必须要个方法避免加入到集合中超过次。般的，达到避免可以用维护个发现的集合。如果数据太多，可以存入磁盘，或者储存经常被访问的。在大多数的计算机系统里只有那些被送到其他机器的或者用个单独的。我们执行上面提到的每个算法，设定了个很宽范围的大小。外文资料原文我们完成了大概个这样的实验。我们先描述我们的算法实现，再展示我们的模拟结果。算法实现每个算法的实现都是直截了当的。我们用个来找出中的每个项目。我们同时也保留个项目的独立的数据结构，所以我们可以选择个来淘汰。对于，这个数据结构就是个对于，是个和个，这些项目同样包含标记。关于，是个堆，用最后的进入时间来组织。不需要格外的数据结构，因为它重来不淘汰项目。比较复杂，因为对于中的每个项目，需要知道它会不会是下个请求。所以我们更详细地描述下。作为请求的踪迹或者顺序，也就是，是那个在时间时被请求的项目。我们再用个序列包含中下个出现的时间。如果在时间之后没有进步的请求，∞，为了发现序列，我们逆向读了踪迹，从到，用个键和值。对每个项目，我们探明那个。如果没有发现，∞，然后储存，到里。如果被发现了，我们找，然后替换，成,。给定，执行就简单了我们同时读和，然后从此对于每个请求的项目，我们知道什么时候它将会被请求。我们用它将会被请求的时间标记每个项目，如果可能，淘汰那些下次氢气有很高值的项目，用个堆来识别它很快。结论我们只介绍个爬虫主机的结论。其