SEO咨询

让你受益匪浅robots.txt

标签: 成都SEO | 作者:成都seo | 时间:2019-01-03 21:49:39 | 点击: | 来源:博瑞网络
03
Jan
2019

  各位亲爱的朋友,大家和成都seo一样做了seo这么久了,想必应该知道robots.txt重要性,到底有多重要呢,简单说:如果你需要屏蔽蛛蛛,需要robots.txt,如果你不屏蔽蛛蛛或者是都不知道干嘛还要屏蔽蛛蛛你至少要放一个空的robots.txt。总之robots.txt一定要有。没有的站长可得好好看一下了,因为这里就是你的能力盲区,这篇文章绝对不会讲什么大道理,讲的都是实际的例子和情况,大家可以打开沐汐的robots.txt对比学习:http://www.cdseo.org/robots.txt。

  当然在这之前,可能还是有很多朋友不明白天天等蛛蛛,我们去屏蔽他干什么?

  理由:

  1.系统后台页面不需要被收录,需要屏蔽。

  2.特殊页面有隐私等不需要被收录。

  3.基于伪静态网站有动态和静态文章重复收录现象,长期收录会造成网站被k,需要屏蔽蛛蛛收录动态页面。特别是基于WordPress建站的朋友要注意了,因为这个问题明显存在,如果你是基于WordPress创建的博客,同时做了固定链接而且没有写robots.txt,你一定要看看成都seo这篇全新力作了【关于权重】屏蔽百度收录wp博客重复页面。

  搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎蜘蛛只收录特定的部分。这里提醒一下,请注意:当你网站不希望搜索引擎全部收录时才用到robots.txt文件(比如你网站后台页面)如果你希望搜索引擎全部收录你的网站,请建立一个空的robots.txt文件。

robots的写法

  1.首先告诉大家robots.txt文件要放在你网站的根目录里面。当你修改了你的robots.txt一般会在48小时内生效(对于搜索引擎来说)。然后是这个txt的名字一定是全部是小写的robots.txt。

  2.我们来看一下如何写robots.txt,他的格式是什么样的。

  该文本是以 User-agent: 作为文本记录开头的。这个值有什么样呢?它是来描述搜索引擎robots的名字。

  比如说你要专指百度搜索引擎你就可以写为 User-agent: baiduspider

  同样的谷歌就是 User-agent:googlespider 比如你要描述SOSO图片蜘蛛你可以写 User-agent:Sosoimagespider 这样都可以 如果你要针对所有搜索引擎呢 User-agent: *就是所有搜索引擎全部概括了。

  robots.txt 除了第一项 User-agent: 还有其他两项 Disallow: Allow: 但是User-agent: 是唯一项 他后面可以加若干Disallow和Allow行 也就是这种格式

  User-agent: *

  Disallow:

  Disallow:

  Disallow:

  Allow:

  Allow:

  Allow:

  后面加多少个Disallow和Allow行都可以 是根据你需要来加的。好了我接着说Disallow,该项就是告诉搜索引擎我不希望我网站的那些网页收录的。你就可以用Disallow的描述来限制搜索引擎 我们来举个例子,比如我要限制所有搜索引擎不收录我的后台目录admin那么我们什么做呢?来看一下

  User-agent: *

  Disallow:/admin/

  如果是要显示百度不要收录我的这个目录其实搜索引擎可以什么做呢 前面我们说到了

  User-agent: baiduspider

  Disallow:/admin/

  你问如果是要禁止所有搜索引擎访问全站应该什么办呢?我们来看一下

  User-agent: *

  Disallow:/

  如果要禁止访问多个文件夹呢 比如我要禁止访问 Admin image data 3个文件夹

  User-agent: *

  Disallow:/Admin/

  Disallow:/image/

  Disallow:/data/

  我们来解释一下Allow行是做什么的?其实这个Allow和Disallow是相反的。Allow他的意思就是希望搜索引擎访问我网站的一下路径,Allow通常与Disallow搭配使用。下面我们举个例子:

  我要允许访问特定目录中的部分url 比如我不要他访问我Admin目录 但是我希望他访问我Admin目录里面的hdd.html 什么办呢?这时候我们就可以用到Allow了 来看例子

  User-agent: *

  Allow:/admin/hdd

  Disallow:/Admin/

  顺便说一下 在robots.txt里面可以使用"*"和"$":baiduspider支持使用通配符"*"和"$"来模糊匹配url。

  "$" 匹配行结束符。

  "*" 匹配0或多个任意字符。

  举个例子: 使用"*"限制访问url 。禁止访问/iea/目录下的所有以".htm"为后缀的

  URL(包含子目录)。

  User-agent: *

  Disallow:/iea/*.htm

  再来举个例子 关于使用"$"限制访问url , 仅允许访问以".htm"为后缀的URL。

  User-agent: *

  Allow: .htm$

  Disallow: /
        本文地址:http://www.cdseo.org/SEO/416.html

下一篇:没有了
优化方案 | 新闻资讯 | 建站知识 | 优化知识 | 网络营销知识