Login
升级VIP 登录 注册 安全退出
当前位置: 首页 > word文档 > 合同模板 > robots协议,如何查看robots协议

robots协议,如何查看robots协议

收藏

本作品内容为robots协议,格式为 docx ,大小 23848 KB ,页数为 12页

robots协议


('编号:_______________本资料为word版本,可以直接编辑和打印,感谢您的下载甲方:___________________乙方:___________________日期:___________________robots协议说明:本合同资料适用于约定双方经过谈判、协商而共同承认、共同遵守的责任与义务,同时阐述确定的时间内达成约定的承诺结果。文档可直接下载或修改,使用时请详细阅读内容。robots协议篇一:robots协议的玩转经验winacm:谈谈robots协议的玩转经验20xx年2月8H北京市第一中级人民法院正式受理了百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案,索赔金额高达一亿元。这可以看做20xx年下半年“3b大战”的继续。在此次索赔案件中,百度称自己的robots文本中已设定不允许360爬虫进入(确实也是如此),而360的爬虫依然对“百度知道”、“百度百科”等内容进行抓取倩碧小黄油。其实早在20xx年11月初,针对双方摩擦加剧的情况,在中国互联网协会的牵头下,包括百度、新浪、奇虎360在内的12家互联网公司已共同签署了《互联网搜索引擎服务自律公约》,在公约第七条承诺“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。今天就找个机会聊聊妊娠纹霜一夜成名的robots协议。初识robots协议一、什么是robots要了解robots协议首先要了解robots,本文说的robots不是〈〈i,robot»里的威尔•史密斯,不是倩碧三部曲《机器人总动员》里的瓦力和伊娃,不是《终结者》系列中的施瓦辛格。什么这些经典电影你都不知道好吧,算我想多了。本文的robots特指搜索引擎领域的webrobots,这个名字可能很多人不熟悉,但是提到webwanderers,crawlers和spiders彳艮多人可能就恍然大悟了,在中文里我们统称为爬虫或者网络爬虫,也就是搜索引擎抓取互联网网页的程序。同学们都知道网页是通过超级链接互相关联起来的,从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去,最基本的流程可以简化如下:1.喂给爬虫一堆url,我们称之为种子(seeds)2.爬虫抓取seeds,解析html网页,抽取其中的超级链接3.爬虫接着抓取这些新发现的链接指向的网页2,3循环往复二、什么是robots协议了解了上面的流程就能看到对爬虫来说网站非常被动,只有老老实实被抓取的份。存在这样的需求:1.某些路径下是个人隐私或者网站管理使用,不想被搜索引擎抓取,比如说日本爱情动作片(玩笑话,呵呵)2.不喜欢某个搜索引擎,不愿意被他抓取,最有名的就是之前淘宝不希望被百度抓取3.小网站使用的是公用的虚拟主机,流虽有限或者需要付费,希望搜索引擎抓的温柔点4.某些网页是动态生成的,没有直接的链接指向,但是希望内容被搜索引擎抓取和索引网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应,robots协议就此诞生。Robots协议,学名叫:theRobotsexclusionprotocol,就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,把这些内容放到一个纯文本文件robots.txt里,然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt,据此“自觉地”抓取或者不抓取该网页内容,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。需要注意的是robots协议并非是规范,只是行业内一个约定俗成的协议。什么意思呢Robots协议不是什么技术壁垒,而只是一种互相尊重的协议,好比私家花园的门口挂着“闲人免进”,尊重者绕道而行,不尊重者依然可以推门而入,比如说360。因此不要错误的认为只要在网站下定义了robots.txt爬虫就不抓取,这个取决于该蜘蛛是否遵循robots协议。说了这么多,看几个有名的例子感觉一下先:例1:淘宝user-agent:baiduspiderdisallow:/user-agent:baiduspiderdisallow:/程序猿,你懂的。这不就是淘宝不想让百度抓取例2:京东user-agent:disallow:/disallow:/pop/.htmluser-agent:etaospiderdisallow:/这个也不复杂,京东有2个目录不希望所有搜索引擎来抓。同时,对etao完全屏蔽。三、基本玩法1、robots.txt的位置说简单也简单,robots.txt放到一个站点的根目录下即可。说复杂也有点小复杂,一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。什么意思呢看个例子最清楚:百度网页搜索百度知道这两个robots.txt的内容是不同的,也就是说百度网页搜索和百度知道的抓取策略可以由自己独立的robots.txt来控制,井水不犯河水。2、robots.txt的内容最简单的robots.txt只有两条规则:1.user-agent:指定对哪些爬虫生效2.disallow:指定要屏蔽的网址整个文件分为x节,一节由y个user-agent行和z个disallow行组成。一节就表示对user-agent行指定的y个爬虫屏蔽z个网址。这里x>=0,y>0,z>0。x=0时即表示空文件,空文件等同于没有robots.txt。下面详细介绍这两条规则:user-agent爬虫抓取时会声明自己的身份,这就是user-agent,没错,就是http协议里的user-agent。robots.txt利用user-agent来区分各个引擎的爬虫。举例说明:google网页搜索爬虫的user-agent为googlebot,下面这行就指定google的爬虫。user-agent:googlebot如果想指定所有的爬虫怎么办不可能穷举啊,可以用下面这一行:user-agent:可能有的同学要问了,我怎么知道爬虫的user-agent是什么这里提供了一个简单的列表:爬虫列表当然,你还可以查相关搜索引擎的资料得到官方的数据,比如说google爬虫列表,百度爬虫列表disallowdisallow行列出的是要拦截的网页,以正斜线(/)开头,可以列出特定的网址或模式。要屏蔽整个网站,使用正斜线即可:disallow:/要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线:disallow:/无用目录名/要屏蔽某个具体的网页,就指出这个网页。disallow:/网页.htmldisallow还可以使用前缀和通配符。要屏蔽目录a1-a100,可以使用上面的方式写100行,或者disallow:/a但是需要注意,这样会把任何以a开头的目录和文件也屏蔽,慎用。如果需要屏蔽a1-a100,但是不屏蔽a50,怎么办同学们可以思考一下,这个问题我们留到下一节。要阻止特定类型的文件(如.gif),请使用以下内容:disallow:/.gif$匹配任意个字符,$匹配url结束,具体就不解释了吧,不了解的同学去自学一下通配符。提示一下,disallow的内容区分大小写。例如,disallow:/junkfile.asp会屏蔽junkfile.asp,去口会允许junk_file.asp。篇二:网站Robots协议的写法及使用说明网站Robots协议的写法及使用说明Robots.txt是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。使用方法:Robots.txt文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。例如:如果您的网站地址是/那么,该文件必须能够通过/robots.txt打开并看到里面的内容。格式:user-agent:用于描述搜索引擎蜘蛛的名字,在"Robots.txt"文件中,如果有多条user-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条user-agent记录。如果该项的值设为,则该协议对任何搜索引擎蜘蛛均有效,在"Robots.txt"文件中,"user-agent:"这样的记录只能有一条。disallow:用于描述不希望被访问到的一个uRl,这个uRl可以是一条完整的路径,也可以是部分的,任何以disallow开头的uRl均不会被Robot访问到。举例:例一:"disallow:/help”是指/help.html和/help/index.html都不允许搜索引擎蜘蛛抓取。例二:"disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。例三:disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。#:Robots.txt协议中的注释符。综合例子:例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取”/bin/cgi/”目录,以及"/tmp/"目录和/foo.html文件,设置方法如下:user-agent:disallow:/bin/cgi/disallow:/tmp/disallow:/foo.html例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取"/cgi/"目录下的内容,设置方法如下:user-agent:disallow:/cgi/user-agent:slurpdisallow:例三:禁止任何搜索引擎抓取我的网站,设置方法如下:user-agent:disallow:/例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:user-agent:slurpdisallow:/篇三:robots协议对网站、搜索引擎的重要性robots协议对网站、搜索引擎的重要性很多站长最头疼的一个问题就是,搜索引擎蜘蛛为什么不光顾自己的网站,或者光顾频率比较低。这样对网站收录的影响是比较大的,直接影响到网站的排名。先谈一下搜索引擎蜘蛛的工作原理吧,蜘蛛乂称网络爬虫、网页蜘蛛、网络机器人,更生动的叫网页追逐者。一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫你知道万维网中有多少蜘蛛吗下面介绍一下全球知名的蜘蛛,no1:谷歌蜘蛛:google谷歌蜘蛛最新名称为“compatible;googlebot/2.1;”“googlebot-mobile”,看名字是抓取wap内容的:,全球最大的搜索引擎公司。no2:百度蜘蛛:baiduspider常见百度旗下同类型蜘蛛还有下面这些baiduspider-mobile(wap引擎)、baiduspider-image(搜图弓I擎)、baiduspider-video(视频引擎)baiduspider-news(新闻引擎),中文搜索引擎最强的公司。no3:360蜘蛛:360spider。no4:soso蜘蛛,no4:sosospider雅虎蜘蛛,no:5“yahoo!slurpchina”或者yahoo!no6:有道蜘蛛:youdaobot,yodaobot,no7:搜狗蜘蛛:sogounewsspider,这些是全球最出名的蜘蛛,其实还有好多我就不一一列举了。蜘蛛特点就是通过结网来捕获猎物,所以我们的网站就跟猎物一样等蜘蛛来捕获,如果网站内容新颖独特,更新内容频率局蜘蛛就会经常光顾你的网站。但是也不能让蜘蛛随便抓取,比如后台地址,所以就有了robots这个协议,这个很重要如果robots.txt协议写的好可以事半功倍。下面介绍一下robots.txt协议怎么写可以迎合蜘蛛的口味:user-agent:开头字母必须是大写的,后面加英文形式下的冒号,然后后面是空格。表示通配符号。这里指通配所有的搜索引擎。disallow:/表示禁止搜索引擎爬取所有页面,/表示目录。disallow:表示不禁止disallow:/admin/禁止爬取admin后台目录。disallow:/admin禁止抓取包含admin的路径后面不带/表示只要路径中包含admin蜘蛛就不会抓取。allow:表示允许allow:/admin/s3.html允许抓取admin目录下的s3.html这个文件。disallow:/.css$表示以.css结尾的文件都不允许抓取,带上$表示特定的文件。3.robots.txt协议写法注意点汪息:所有的语法必须空格/开头,所有正规的搜索引擎在抓取网站uRl的时候会第一时间抓取robots.txt,如果没有robots.txt文件,蜘蛛会默认网站允许抓取所有信息。网站地图放在robots.txt文件里。所以把网站地图放在robots.txt文件夹里可以让蜘蛛更快速的抓取网站路径。把做好的xml地图写在robots.txt文件里上传根目录就好。总结:robots协议对伪静态的网站很重要,如果没有robots协议搜索引擎就会重复收录对网站权重排名有影响。robots协议最后必须加入网站地图,这样才会更好的引导蜘蛛抓取你的网站。',)


  • 编号:1700673304
  • 分类:合同模板
  • 软件: wps,office word
  • 大小:12页
  • 格式:docx
  • 风格:商务
  • PPT页数:23848 KB
  • 标签:

广告位推荐

相关合同模板更多>