如何给Hexo博客添加robots协议文件

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。 如果站长想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。需要注意的是,robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。下面我们来看Hexo博客如何添加robots.txt文件。

插件安装:

首先我们需要再Hexo运行容器中运行如下代码,用来添加robots.txt的插件:hexo-robotstxt-multisitemaps,代码格式如下

1
npm install hexo-robotstxt-multisitemaps --save

如果代码报错,就需要使用下面的代码

1
npm install hexo-robotstxt-multisitemaps

插件配置:

插件安装之后,就需要在博客根目录下面的_config.yml文件中添加如下配置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# robots文件配置 
robotstxt:
useragent: "*"
disallow:
- /vendors/
- /js/
- /css/
- /fonts/
- /fancybox/
allow:
- /
- /archives/
- /categories/
- /tags/
- /about/
# - 其他你想添加的页面
sitemap:
- /sitemap.xml
- /baidusitemap.xml

这样我们的博客部署之后,就能够自动生成robots.txt文件了,然后说一下官方哥给出的配置文件:

1
2
3
4
5
6
7
8
9
10
11
12
13
robotstxt:
useragent: "*"
disallow:
- /one_file_to_disallow.html
- /2nd_file_to_disallow.html
- /3rd_file_to_disallow.html
allow:
- /one_file_to_allow.html
- /2nd_file_to_allow.html
- /3rd_file_to_allow.html
sitemap:
- /sitemap.xml
- /baidu_sitemap.xml

从互联网找到的一份比较具有代表性的代码,该配置可以管理我们想要搜索引擎爬取的内容,Allow表示允许被访问的,Disallow是不允许的意思。注意后面两个Sitemap就是网站地图了。而网站地图前面说了是给爬虫用的。这里配置在robots中。可参考如下配置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 允许所有用户代理的浏览器爬虫进行访问(爬起数据)
User-agent: *

# 允许访问的内容
Allow: /
Allow: /2019/
Allow: /archives/
Allow: /categories/
Allow: /page/
Allow: /photos/
Allow: /tags/

# 不允许访问的内容
Disallow: /assets/
Disallow: /fonts/
Disallow: /img/
Disallow: /js/
Disallow: /music/
Disallow: /css/

Disallow: /*.js
Disallow: /*.css

# 网站地图Sitemap
Sitemap: https://www.laoliublog.com/sitemap.xml
Sitemap: https://www.laoliublog.com/baidusitemap.xml

网站常规允许和不允许的链接算是做了一个简单的汇总,大家仿照着上面的文件内容修改Hexo博客的robots.txt内容,最后,

开源地址:https://github.com/anthonyweidai/hexo-robotstxt-multisitemaps