帮帮文库

返回

(定稿)闽东水电开发有限公司集控中心项目投资可研商业计划书 (定稿)闽东水电开发有限公司集控中心项目投资可研商业计划书

格式:word 上传:2023-10-02 00:45:47

《(定稿)闽东水电开发有限公司集控中心项目投资可研商业计划书》修改意见稿

1、“.....把对应的网页下载下来,然后将网页源码交给分析模块,分析模块对网页进行分解,分析模块维护着张字典或表,记录着所有已经访问的,然后分析模块将所有未访问过的链接提取出来插入到优先队列,再把提取出的网页的标题内容大小等信息存入数据库。整个虚线方框里的过程是不断循环往复的,直到优先队列为空要获取的对象是存在于网络上数以亿计的网页,这些网页以超链接形式互相联系在起,每网页对应个超链接,也称统资源定位符。我们可以把网络看成个图网络中的网页构成节点集,他们之间的链接构成边集,正是从节点开始,沿着边,遍历图,每访问到图中个节点,就进行定的处理。以下是本程序爬虫使用的框架,看起来更像是主题爬虫的框架。这是个单线程的框架,采用多线程技术是我们可看成是多个这个样的爬虫并发的的执行。数据库结构本项目的数据库结构很简单,总共两个表,个是未站点列表,个是网页存储表。图表示的表用于保存未访问的的信息表。图未访问的站点存储表图显示的是表的设计......”

2、“.....由和同事们共同研发,并在年正式推出。由四方面组成编程语言类文件格式虚拟机和应用程序接口。平台由虚拟机,简称和应用编程接口,简称构成。应用编程接口为应用提供了个独立于操作系统的标准接口,可分为基本部分和扩展部分。在硬件或操作系统平台上安装个平台之后,应用程序就可运行。平台已经嵌入了几乎所有的操作系统。这样程序可以只编译次,就可以在各种系统中运行。公司对编程语言的解释是编程语言是个简单面向对象分布式解释性健壮安全与系统无关可移植高性能多线程和动态的语言。平台是基于语言的平台。摘自百度百科基本介绍是个开放源代码的基于的可扩展开发平台。就其本身而言,它只是个框架和组服务,用于通过插件组件构建开发环境。幸运的是,附带了准的插件集,包括开发工具,。虽然大多数用户很乐于将当作集成开发环境来使用,但的目标却不仅限于此......”

3、“.....因为它允许他们构建与环境无缝集成的工具。由于中的每样东西都是插件,对于给提供插件,以及给用户提供致和统的集成开发环境而言,所有工具开发人员都具有同等的发挥场所。摘自百度百科网络爬虫模型的总体设计网络爬虫总体设计根据本网络爬虫的概要设计本网络爬虫是个自动提取网页的程序,根据设定的主题判断是否与主题相关,再根据已下载的网页上继续访问其它的网页,并将其下载直到满足用户的需求。设计基于多线程的网络爬虫。通过将待爬取列表对应的的网页代码提取出来。提取出所需要的信息并且通过算法判断网页是否和设定的主题相关。广度优先搜索,从网页中个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下层的访问,重复以上步骤。总的来说爬虫程序根据输入获得任务列表,即初始种子,把初始种子保存在临界区中,按照广度搜索运算法搜索抓取网页并提取返回到临届区中,通过判断主题相关度算法判断相关度......”

4、“.....处理抽取通过观察研究代码,我们可以知道。代码中,页面之间的跳转,关联是通过标签来实现的。我们需要获取代码中的,就可以通过寻找标签来达到目的。通过观察得知,般标签是以这样的形式出现的。但是不同的网站后面的内容有所不同。比如这样情况,我们就可以通过截取双引号之间的内容来获取如果是这种情况,我们就需要截取单引号之间的内容来获取或者有些是,我们需要以等号为开始标记,而这种情况通常结尾是空格或者符号。为了加快抽取速度,我们可以采用第三方类库,进行抽取。解析截取出来的字符串,可能为相对地址或者绝对地址。所以需要判断为绝对地址,还是相对地址。相对地址需要先转化为绝对地址,再进行过滤。因为解析出来的地址可能是些文件的地址,或者为设置连接超时生成对象并设置参数设置请求超时设置请求重试处理执行请求判断访问的状态码,处理响应内容读取为字节数组根据网页生成保存时的文件名根据响应类型生成文件路径根据生成的文件路径保存文件提取该类主要封装了分析网页并提取的方法......”

5、“.....将对应网页封装成个对象通过方法提取网页中的根据正则表达式,筛选出符合规则的有效类该类封装了网络爬虫的主要工作流程。主要代码如下。当问访问的队列为空,或访问的网站数量达到指定的数量退出线程。新的未访问的入队,数据库操作前面已经介绍了数据库表的设计,本节找介绍数据库操作的逻辑。对于数据库操作有套相对固定的流程,般如下首先注册和相关数据库的驱动比如数据库创建连接对应数据库的是数据库的然后创建发射源也就是通过发射源向数据库传递语句把查询的结果放在个记录集中如果获取相应记录的字段值记录集的指针指向第条上方获取第条必须下移比如说表中有个字段获取它的值是这样的其中的参数为要获取字段的字段名。最后不要忘了关闭连接对于本系统,为了提高系统效率并不是每条记录都存入数据库。只有当两个队列中的元素个数达到定数量时才进行数据库操作。默认的时当待访问的达到,已经访问的达到,或者待访问数量小于的时候才进行数据库操作......”

6、“.....设置工作线程数量为默认数为,最大访问量无限制,然后用爬虫程序去运行。程序的启动界面如图图程序起始界面开始时使用默认参数,运行工作线程数为,访问数量不限制。图程序运行截图是点击开始按钮程序开始运行,我们可以观察到程序刚开始运行时,待访问的队列只有个网址,所以除号线程意外都暂停的段时间。当程序运行段时间以后此种情况将大有改善。图是运行段时间过后的情况,我们可以看到,所有工作线程都已经开始工作图程序运行截图二通过截图我们可以观察到线程的运行顺序是不可预测的,这也增大了我们编程的难度。尤其是到对临界资源进行操作时,更应该小心。图程序运行截图三图为点击暂停按钮后,程序退出运行的情况,我们可以观察到所有工作线程都停止了工作,共访问了和下载了的网页数量是,等待访问的有个,用时为。系统分析通过测试运行当在定范围内增加爬虫的工作线程数,能够明显的调高爬虫的工作效率......”

7、“.....虽然提高线程数量使有效的,但是当我将爬虫的线程提高到个以上后系统效率提高并不明显,反而有下降的趋势。综合分析之所以出现此种情况可能有两点因素网络带宽。因为网络爬虫要从网络爬取网页到本地,所以网络带宽是有限的,当达到定限度,影响系统效率的主要因素就成了网络带宽,而非线程数量。线程数量过多,导致操作系统在进行线程切换时开销太大,从而影响了系统的效率。虽然线程间的切换的开销相对进程间的切换已经是很小,但是当数量过多也会成为影响系统效率。结论从课题着手到现在论文完成,经历了个月的时间。在这个个月里,我不断学习,探索,从对网络爬虫无所知,到能成功完成网络爬虫程序。对网络爬虫中比较主流的技术都有了更深的理解。网络爬虫是个自动搜集互联网信息的工具,实现了网络爬虫,就可以程,直到达到系统的条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行定的分析过滤,并建立索引,对于主题网络爬虫来说......”

8、“.....定义如果网页中包含超链接,则称为链接的父网页。定义如果超链接指向网页,则网页称为子网页,又称为目标网页。主题网络爬虫的基本思路就是按照事先给出的主题,分超链接和已经下载的网页内容,预测下个待抓取的及当前网页的主题相关度,保证尽可能多地爬行下载与主相关的网页,尽可能少地下载无关网页。摘自百度百科网络爬虫的分类网络爬虫种类繁多,如果按照部署在哪里分,可以分成服务器侧般是个多线程程序,同时下载多个目标,可以用般综合搜索引擎的爬虫这样做。但是,如果对方讨厌爬虫,很可能封掉服务器的,服务器又不容易改,另外耗用的带宽也是较贵。客户端很适合部署定题爬虫,或者叫聚焦爬虫。做个与,百度等竞争的综合搜索引擎成功的机会微乎其微,而垂直搜索或者比价服务或者推荐引擎,机会要多得多,这类爬虫不是什么页面都取的,而是只关心的页面,而且只取页面上关心的内容,例如提取黄页信息,商品价格信息,还有提取竞争对手广告信息的。这类爬虫可以部署很多,而且可以很有侵略性......”

9、“.....包括下载网页分解网页遍历网络存储网页等。网络蜘蛛的技术难度并不是很高,但是要开发个速度快稳定性高的网络蜘蛛还是要下番功夫的。下载网页网络蜘蛛最基本的功能是能够从给定的网址下载网页。这个过程看似简单,但却要考虑几个问题。首先,要解决网页的编码问题,联通世界各个角落,每个国家和地区的网站使用着不同的编码,即使同在个国家的网站其使用的网页编码规则也不尽相同。比如说在我国,有些网站使用编码,有些则使用。如果对网页的编码不加判断的话,很有可能出现乱码。其次,网络的访问速度相对与的运算速度来说是非常慢的,因此,如果被设计成单线程的阻塞模型的程序的话,其抓取速度必然不能让人满意。可以考虑采用多线程或采用其它的模型来提升蜘蛛的抓取速度。第三,网络蜘蛛只下载网站中的文本信息如页面等等,并不下载图片软件视音频文件等等。分解网页网络蜘蛛并不是单纯的把网页批量下载到本地硬盘的工具......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(1)
1 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(2)
2 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(3)
3 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(4)
4 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(5)
5 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(6)
6 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(7)
7 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(8)
8 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(9)
9 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(10)
10 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(11)
11 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(12)
12 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(13)
13 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(14)
14 页 / 共 23
闽东水电开发有限公司集控中心项目投资可研商业计划书.doc预览图(15)
15 页 / 共 23
预览结束,还剩 8 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档