Login
升级VIP 登录 注册 安全退出
当前位置: 首页 > word文档 > 合同模板 > 搜索引擎的Robots规则以及robots协议写法规则

搜索引擎的Robots规则以及robots协议写法规则

收藏

本作品内容为搜索引擎的Robots规则以及robots协议写法规则,格式为 docx ,大小 25743 KB ,页数为 4页

搜索引擎的Robots规则以及robots协议写法规则


('搜索引擎的Robots规则以及robots协议写法规则robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。搜索引擎的Robots规则robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,Google依然有可能会对其进行索引。按照Google的说法,要想彻底阻止网页的内容在Google网页索引中(即使有其他网站链接到该网页)出现,需要使用noindex元标记或x-robots-tag。例如将下面的一行加入到网页的header部分。如果Google看到某一页上有noindex的元标记,就会将此页从Google的搜索结果中完全丢弃,而不管是否还有其他页链接到此页。对于百度来说,情况和Google类似,如果有其他网站链接目标网页,也有可能会被百度收录,从百度的说明页面上看,百度并不支持像Google那样通过noindex完全将网页从索引上删除,只支持使用noarchive元标记来禁止百度显示网页快照。具体的语句如下。搜索引擎Robots协议写法规则搜索引擎Robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义:首先要创建一个robots.txt文本文件,放置网站的根目录下,下面就开始编辑设置Robots协议文件:一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问,设置代码如下:User-agent:Disallow:或者User-agent:Allow:/二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下:User-agent:MsnbotDisallow:/例如想禁止MSN的蜘蛛抓取就设为,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下:百度的蜘蛛:baiduspiderGoogle的蜘蛛:Googlebot腾讯Soso:SosospiderYahoo的蜘蛛:YahooSlurpMsn的蜘蛛:MsnbotAltavista的蜘蛛:ScooterLycos的蜘蛛:Lycos_Spider_(T-Rex)三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:User-agent:Disallow:/目录名字1/Disallow:/目录名字2/Disallow:/目录名字3/把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取,目录名字未写表示可以被搜索引擎抓取。四、禁止某个目录被某个搜索引擎蜘蛛抓取,设置代码如下:User-agent:搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow:/目录名字/说明(这里设定禁止蜘蛛抓取的目录名称)例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:User-agent:MsnbotDisallow:/admin/五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:User-agent:Disallow:/.htm说明(其中“。htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下:User-agent:Allow:.htm$说明(其中“。htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)七、只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:User-agent:搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow:(本文由青岛白癜风http://www.ttt120.com/整理而来)',)


  • 编号:1700682134
  • 分类:合同模板
  • 软件: wps,office word
  • 大小:4页
  • 格式:docx
  • 风格:商务
  • PPT页数:25743 KB
  • 标签:

广告位推荐

相关合同模板更多>