网络爬虫需求说明书
本作品内容为网络爬虫需求说明书,格式为 doc ,大小 152064 KB ,页数为 14页
('网络爬虫软件需求说明书案卷号日期网络爬虫软件需求说明书作者:完成日期:签收人:签收日期:修改情况记录:版本号修改批准人修改人安装日期签收人网络爬虫软件需求说明书目录软件需求说明书..............................................................................................................................11引言..........................................................................................................................................31.1编写目的......................................................................................................................31.2范围..............................................................................................................................31.3定义..............................................................................................................................31.4参考资料......................................................................................................................32项目概述..................................................................................................................................32.1产品描述......................................................................................................................32.2产品功能......................................................................................................................42.3用户特点......................................................................................................................52.4一般约束......................................................................................................................52.5假设和依据..................................................................................................................63具体需求..................................................................................................................................63.1功能需求......................................................................................................................63.1.1用户登录...........................................................................................................63.1.2用户退出...........................................................................................................63.1.3网页遍历...........................................................................................................63.1.4配置..................................................................................................................93.1.5统计................................................................................................................103.1.6网页快照.........................................................................................................103.1.7服务启动.........................................................................................................113.1.8服务终止.........................................................................................................113.2外部接口需求.............................................................................................................113.2.1用户接口.........................................................................................................113.2.2硬件接口.........................................................................................................123.2.3软件接口.........................................................................................................123.2.4通信接口.........................................................................................................123.3性能需求....................................................................................................................123.4设计约束....................................................................................................................133.4.1其他标准的约束.............................................................................................133.4.2硬件的限制.....................................................................................................133.5属性............................................................................................................................133.5.1可用性............................................................................................................133.5.2安全性............................................................................................................133.5.3可维护性.........................................................................................................133.5.4可转移\\转换性..............................................................................................133.5.5警告................................................................................................................133.6其他需求....................................................................................................................133.6.1数据库............................................................................................................133.6.2操作................................................................................................................133.6.3场合适应性需求.............................................................................................134附录........................................................................................................................................13网络爬虫软件需求说明书1引言1.1编写目的软件需求说明书的编制是为了使用户和软件开发者双方对该软件的运行环境、功能和性能需求的初始规定有一个共同的理解,使之成为整个开发工作的基础,为概要设计提供需求说明。1.2范围软件系统的名称:《网络爬虫》《网络爬虫》是一个由C/C++开发,运行在Windows平台上的网络爬虫(蜘蛛)程序,它可以高效地从互联网上获取海量资源,这些资源包括网页文本信息,图片,其他类型的文件资源。1.3定义HTTP协议:中文名称超文本传送协议。英文名称:hypertexttransportprotocol;HTTP定义:一种详细规定了浏览器和万维网服务器之间互相通信的规则,通过因特网传送万维网文档的数据传送协议。URL:统一资源定位符(英语UniformResourceLocator的缩写)也被称为网页地址,是因特网上标准的资源的地址。1.4参考资料无网络爬虫软件需求说明书2项目概述2.1产品描述网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。2.2产品功能软件功能表模块功能说明用户管理用户登录用户名和密码保存在配置文件中用户登录(网络版)用户名和密码等数据保存在服务器的Oracle数据库中退出网页遍历开始遍历实时统计下载网页个数、失败网页个数、接收到的字节数、发送字节数、平均字节数网页数据保存历史记录保存下载的信息保存在服务器的Oracle数据库中。结束遍历配置修改配置本地保存路径、启动线程数量、单个文件下载时限统计全局统计信息累积的统计信息。统计项跟实时统计类似。网页快照搜索功能服务器服务启动服务终止软件层次结构图网络爬虫软件需求说明书2.3用户特点2.4一般约束使用的技术:《网络爬虫》软件体系结构使用C/S架构(客户机和服务器结构)。使用C++作为编程语言,利用面向对象的编程思想实现.。需要使用STL(C++的标准模板库)、WindowsAPI(多线程、网络编程等)、ADO和SQL等技术。开发环境:在WindowsXP环境下,使用MicrosoftVisualStudio2010开发工具,建模工具starUML、Oracle数据库等。网络爬虫软件需求说明书2.5假设和依据3具体需求3.1功能需求3.1.1用户登录引言:只有合法的用户才可以登录系统。登录系统很简单,只需要提供登录的用户名和密码即可登录系统。提供三次登录机会。《网络爬虫》这个项目中正常不需要登录功能,加这个功能主要考虑让学员能够使用面向对象的编程思想来实现,跟面向过程的编程思想做个对比。输入:1、用户名:字符串,最大长度10。2、密码:字符串,最大长度6。使用“”显示密码。处理:1、从指定的数据源中获得数据,判断用户名和密码是否正确。如果是单机版从配置文件中读取用户名和密码。如果是网络版,用户名和密码从服务器的数据库中获得。2、用户登录时最多有三次出错机会。输出:1、如果验证错误,给用户友好提示,并显示剩余的次数。2、用户名和密码验证正确后,进入主菜单界面。3.1.2用户退出引言:用户选择退出时,给用户友好提示,询问用户是否确认退出?用户确认后退出整个应用程序。3.1.3网页遍历引言:输入一个链接,作为第一个要下载的网页。此外,一个非常重要的参数是选择遍历的深度,这个参数确定您遍历某个域名能达到的最大深度,例如,每当遍历的深度增加1网络爬虫软件需求说明书层,遍历的Url个数可能会指数倍增长。从这个网页开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到满足深度的条件为止。输入:参考开始遍历功能。处理:输出:无。3.1.3.1开始遍历引言:该功能遍历玩家指定的URL功能,界面提供一个输入URL的输入框和深度的输入框,起始url深度为0,在这个初始网页中的所有链接深度是1,同样,在这些链接指向的页面中的链接深度为2,以此类推等等。例如:比如当前页面为A,爬虫从A这个页面有搜索到一个新的URL为B,然后以B作为新的搜索页面继续进行搜索,如果在B页面里面搜索到URL为C,这样A(0)->B(1)->C(2)的深度为2。用户单击开始遍历按钮后,应用程序根据下文提到的配置规则开始遍历指定的URL,直到遍历结束或用户单击下停止遍历按钮。输入:1、URL:网页地址。字符串,必填,最大长度100。2、深度:遍历某个URL能达到的最大深度。整数,范围0~3。0代表只下载当前一个网页。处理:1、验证URL是否合法。2、向网页地址所在的服务器发送get请求,接受服务器传过来的数据。3、解析数据,提取URL。4、使用多线程并发处理多个链接。输出:1、所有输入不按规则输入,均给出相应错误提示,提示要有针对性。输入错误的控件获得焦点,并且跟其他控件有明显的区别显示。2、单击开始后,进入实时统计界面。开始遍历保存网页保存URL数据结束遍历网络爬虫软件需求说明书3.1.3.2实时统计引言:针对此次遍历过程中的操作进行统计,主要从以下几个方面进行统计1、下载网页数一共成功下载了几个网页。2、失败网页数此次遍历过程中,下载失败的网页数量。3、发送的字节数此次遍历过程中,经过网络发送的总字节数,指的是get请求。4、接收的字节数此次遍历过程中,接收到的总字节数。5、平均传输速度此次遍历过程中,平均每秒接收的字节数,以KB/S作为单位。输入:无处理:1、每隔一秒,计算平均的传输速度。2、根据不同的情况累加各项数据。输出:1、在界面上显示以上5项数据。每一秒钟刷新一次。3.1.3.3网页数据保存引言:开始遍历后,在配置模块中指定的保存路径下创建一个该域名的文件夹,以后将下载到的网页文件均保存到该文件夹中。,然后输入:处理:1、向网页地址所在的服务器发送get请求。2、接收网页地址所在的服务器发送过来的网页数据。3、接收完毕后分析网页的数据,分别再下载跟这个网页有关的图片,js和css文件等相关网页资源。输出:1、把数据保存到指定的文件夹下。文件名可以使用3.1.3.4URL数据保存引言:每个网页数据保存后,要把相关的数据发送到服务器端应用程序并保存到数据库中。输入:输入的数据由之前的功能提供。1、URL:网页地址。网络爬虫软件需求说明书2、关键字:网页中的关键字。标签中,name属性值为“keywords”,content属性的内容,例如:
提供网络爬虫需求说明书会员下载,编号:1700774667,格式为 docx,文件大小为14页,请使用软件:wps,office word 进行编辑,PPT模板中文字,图片,动画效果均可修改,PPT模板下载后图片无水印,更多精品PPT素材下载尽在某某PPT网。所有作品均是用户自行上传分享并拥有版权或使用权,仅供网友学习交流,未经上传用户书面授权,请勿作他用。若您的权利被侵害,请联系963098962@qq.com进行删除处理。