版权所有:本站内容未经本站站长许可,任何企业、个人不得制作镜像和复制使用,如发现侵权盗用,将严重追究当事人法律责任!

关键词排名优化-SEO网站推广-网站建设-SEO营销顾问-广州卧虎SEO

卧虎专业SEO,让搜索引擎的潜在客户更容易发现你!

全网络seo服务公司中仅有1%支持按首页付费卧虎也是其中之一,优化关键词排名先上首页后付费绝对靠谱
当前您在: 主页> SEO教程

robots.txt协议要怎么写,他的使用意义在于哪里?

当前分类:SEO教程 浏览热度:
Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的.搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息.而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许.搜索引擎则会按照Robots协议给予的权限进行抓取.
 
Robots协议代表了一种契约精神,互联网企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯.违背Robots协议将带来巨大安全隐忧——此前,曾经发生过这样一个真实的案例:国内某公司员工郭某给别人发了封求职的电子邮件,该Email存储在某邮件服务公司的服务器上.因为该网站没有设置robots协议,导致该Email被搜索引擎抓取并被网民搜索到,为郭某的工作生活带来极大困扰.
 
如今,在中国国内互联网行业,正规的大型企业也都将Robots协议当做一项行业标准,国内使用Robots协议最典型的案例,就是淘宝网拒绝百度搜索、京东拒绝一淘搜索.不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议.
 
北京市汉卓律师事务所首席律师赵虎表示,Robots协议是维护互联网世界隐私安全的重要规则.如果这种规则被破坏,对整个行业就是灭顶之灾.
 
robots怎么写
 
一、Robots.txt协议
 
Robots协议,也称为爬虫协议、机器人协议等,其全称为"网络爬虫排除标准(Robots Exclusion Protocol)".网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓);一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓).
 
当一个搜索机器人(蜘蛛)访问一个站点时,它会首先检查网站根目录下是否存在robots.txt,如果存在,就会按照文件中的内容确定访问范围,如果不存在,则沿着链接抓取.
 
协议的历史
 
Robots Exclusion Protocol协议是由 Martijn Koster 在1994年2月,于Nexor工作期间在 www-talk 邮件列表中提出的.该协议提出后,Koster的服务器甚至遭到了反对者的拒绝服务攻击.而该协议迅速成为事实上的标准,为大多数的人所接受.
 
文件的写法:
 
User-agent:*
 
*是一个通配符,表示所有的搜索引擎种类
 
Disallow:/admin/
 
这表示禁止搜索引擎爬寻admin目录下的内容
 
Disallow:*?*
 
这表示禁止搜索引擎爬寻包含?的网页
 
Sitemap:sitemap.xml
 
这里通过Sitemap指定固定的网站地图页面.目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN.而中文搜索引擎公司,显然不在这个圈子内.这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页.
 
京东的Robots.txt.(时间:2015-11-25)
百度robots.txt
 
二、Robots.txt以外的内容
 
除了Robots.txt以外,还可以使用Robots Meta来向搜索引擎传递信息,先看示例如下:
 
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
 
content部分有四个选项:index、noindex、follow、nofollow,指令间用","分隔.
 
共有四种组合:
 
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
 
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
 
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
 
其中:
 
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">
 
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令"archive",可以限制GOOGLE是否保留网页快照.例如:
 
<META NAME="googlebot" CONTENT="index,follow,noarchive">
 
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照.
 
三、Robots.txt使用上应注意的一些问题
 
1、每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件).每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt.
 
2、如果后台和前台在一个域名下,不希望爬虫抓取后台程序的,可以在Robots.txt明确不让爬虫抓取的目录.但这会不会被某些恶意分子一下子就能够知道后台目录呢?
 
3、国内常见搜索机器人的名字
 
SEO排名优化中心专注企业网站优化SEO外包找卧虎SEO

【免责声明】网站内容部分来自网络.若有侵权行为请告知网站管理员【qq2969202196】.本声明未涉及的问题参见国家有关法律法规.本网站之声明以及其修改权、更新权及最终解释权均属本站所有.