龙喵专栏 /运营 /内容

网站优化详解:robots文件及robots写法

版权声明:龙喵网!!!网站网址:http://ailongmiao.com

robots.txt文件是一个放置在网站根目录的协议,它的主要作用是用来正确引导搜索引擎蜘蛛抓取和收录页面,告诉搜索引擎哪些页面可以收录而哪些不可以,关于robots.txt文件的写法,不同的网站程序有不同的写法,下面龙喵网SEO教程就来说说网站的robots.txt文件写法。

什么是robots文件

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

robots.txt文件的格式

robots文件由记录组成,记录之间以空行分开。记录格式如下:
<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加,可以简单记为:
<域>:<域值>

robots.txt文件最简单样式为:

User-agent: *
Disallow: /

不过此robots.txt文件不建议使用,因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为:

User-agent: *
Disallow:

robots.txt文件的写法

1)User-agent

指定下面的规则适用于哪个蜘蛛,通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎:User-agent: *

只适用于百度:User-agent: Baiduspider

只适用于Google蜘蛛: User-agent: Googlebot

2)Disallow

告诉蜘蛛不要去抓取某些文件或目录。

写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

如禁止抓取temp和a目录,禁止抓取w目录下的33.html和11.html。

Disallow: /temp/
Disallow: /a/
Disallow: /w/33.html
Disallow: /w/11.html

切勿写为Disallow: /temp/ /a/

3)Allow

告诉蜘蛛应该抓取某些文件或目录。由于不指定则是允许抓取,故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件,在允许抓取b目录下的文件,而b目录在目录a下。

Disallow: /a/
Allow: /a/b/

4)通配符 $

通配符$,匹配URL结果的字符。

如禁止抓取.jpg格式的图片:Disallow: .jpg$

如允许抓取所有.htm文件: Allow: .htm$

5)通配符 *

通配符*,匹配任意字符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

6)Sitemap

告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录(如龙喵网的sitemap位置,https://ailongmiao.com/sitemap.xml)。

Sitemap: https://ailongmiao.com/sitemap.xml

robots是禁止抓取的,还有一种方式为禁止索引,noindex meta robots标签。

6、禁止索引

noindex meta robots标签是页面<head></head>中间的meta标签的一种,用于告诉搜索引擎禁止索引本页内容,因而也就不会出现在搜索引擎的结果页面中了。

格式如下:

<meta name=”robots” content=”noindex”,nofollow>

意思为禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

百度仅支持nofollow和noarchive。Google、必应都支持下面标签。

noindex:不要索引本页面。
nofollow:不要跟踪本页面上的链接。
nosnippet:不要在搜索结果中显示摘要文字。
noarchive:告诉搜索引擎不要显示快照。
noodp:不要使用开放目录中的标题和描述。

最后一个要介绍的就是<a>标签上的rel=”nofollow”,最初这个标签的创造是为了告诉搜索引擎,这个链接非站长自主编辑,不要传递权重。后来,慢慢就变成了控制网站权重流动的一种方式。

robots.txt文件用法举例

robots.txt文件用法举例

网站哪些地方需要使用robots协议

1. 无用页面,很多网站都有“联系我们”、“关于我们”等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取。

2. 动态页面,屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。

3. 网站后台页面,网站后台也可以归类为无用页面,禁止收录有百益而无一害。

防止向黑客泄露后台地址和隐私目录的写法

推荐采用通配符(*)替换敏感文件或文件夹

比如某个重要文件夹为admin,可以这样写robots:Disallow:/a*/

这个设置,禁止所有的搜索引擎索引根目录下a开头的目录。当然如果你后台的目录是admin,还是有可以被人猜到,但如果你再把admin改为admmm呢?还有会谁能知道?总结下,为了不让搜索引擎索引网站的后台目录或其它隐私目录,我们将这些路径在robots.txt文件中禁用了。又为了让robots.txt中的内容不泄露网站的后台和隐私,我们使用星号(*)来修改设置项。最后为了不让黑客猜到真实的路径,我们可以把这些敏感的目录进行非常规的重命名。

robots.txt参考:

百度站长平台robots.txt介绍

Robots.txt 使用指南

百度Robots工具检测

robots.txt 生成器

Google robots.txt 的完整语法

版权声明:龙喵网!!!网站网址:http://ailongmiao.com

1.部分文章来自网络,如有侵犯权益,请联络博主,资源失效与内容勘误留言说明.

2.如若转载,请注明出处:http://ailongmiao.com/read/325.html

[ SEO运营导航 ]:http://ailongmiao.com/seo/

评论

继续阅读

快照回档是怎么回事

SEO运营 2019-03-27 8

网站快照回档是指百度的快照被退回到之前日期的快照。很多站长常常遇到这种情况,一段时间网站快照更新正常,但是,过一段时间网站快照

网站被K了怎么办!

SEO运营 2019-03-22 10

我们经常会遇到很多SEO人员的网站被搜索引擎K了,被K的意思就是网站被搜索引擎惩罚了,到处找所谓的SEO大神求助,最后还是无用功,作为优

  选择打赏方式

打赏

打赏