不知道为什么,这几次安装了新的wp之后,根目录没有生成robots.txt文件,于是我自己新建了个文件扔进去,robots.txt的作用就是当搜索引擎进入到你的网站时候,会第一时候检索robots.txt文件,如果你的站点内没有robots.txt文件,搜索引擎会很失望。当搜索蜘蛛未发现robots.txt文件,会随机产生一个404错误日志在服务器上,从而增加服务器的负担,因此robots.txt文件重要程度大家一定不能忽视。那接下来的问题是,它为什么要检索robots.txt文件,robots.txt里面是放了什么内容呢。下面听大挖慢慢全方位的讲解。
默认在浏览器中输入:https://你的域名/robots.txt,会显示如下内容:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
这里面告诉了搜索引擎,不要抓取那些文件或者目录。 但这是远远不够的,这里分享一段比较完整的站点robots.txt,内容如下,大家可以直接覆盖到文件里自用:
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /*/comment-page-*
- Disallow: /*?replytocom=*
- Disallow: /category/*/page/
- Disallow: /tag/*/page/
- Disallow: /*/trackback
- Disallow: /feed
- Disallow: /*/feed
- Disallow: /comments/feed
- Disallow: /?s=*
- Disallow: /*/?s=*\
- Disallow: /attachment/
下面分别解释一下各项代码的作用用作理解:
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。
4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。
6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
7、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
其实我一直在找这个,哈哈