用wordpress建站robots.txt的写法

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。via 维基百科

也许有朋友说,我巴不得搜索引擎多爬些呢,还禁用?事实上,善用robots.txt,可以简单但非常有效的对博客进行优化,我曾搜索了一些关于wordpress 博客 robots.txt写法的文章,但是众说纷纭,有的文章中说一套,可是自己的robot.txt却是另外的写法,实在让人难以信服。无奈之下,只有自己慢慢尝试,下面就望月的robots.txt的写法说一说自己的体会。

robots.txt

我的robots.txt的写法如下:

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-

Disallow: /feed/

Disallow: /comments/feed

Disallow: /trackback

Disallow: /comments

Sitemap: http://www.52chuangyi.net/sitemap.xml

简单说明一下,这个robots.txt文件允许博客被所有搜索引擎收录,但是不允许蜘蛛访问cgi-bin文件夹以及wp开头的文件,这主要是为了博客的安全。

此外,不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。事实上,在禁用了feed文件之后,我的博客来自百度的流量由之前的几乎为0增长到现在的每天300-500IP。

禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。

robots.txt协议并不是一个规范,而只是约定俗成的,所以,每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google网站管理员工具或者Robots.txt Checker检测一下robots.txt是否符合规范。

原文链接:https://blog.csdn.net/chenmoo0821/article/details/16820867?ops_request_misc=&request_id=0fd38a7e8dee4bc6a9f90083ead3a72e&biz_id=&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~koosearch~default-12-16820867-null-null.268%5Ev1%5Econtrol&utm_term=docker%E3%80%81wordpress%E3%80%81wordpress%E5%BB%BA%E7%AB%99%E3%80%81wordpress%E4%B8%BB%E9%A2%98%E3%80%81%E5%AE%B9%E5%99%A8%E9%95%9C%E5%83%8F%E3%80%81

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享