如何给Hexo博客添加robots协议文件

老刘博客2024-10-052024-12-29

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。如果站长想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据。需要注意的是，robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。下面我们来看Hexo博客如何添加robots.txt文件。

插件安装：

首先我们需要再Hexo运行容器中运行如下代码，用来添加robots.txt的插件：hexo-robotstxt-multisitemaps，代码格式如下

1	npm install hexo-robotstxt-multisitemaps --save

如果代码报错，就需要使用下面的代码

1	npm install hexo-robotstxt-multisitemaps

插件配置：

插件安装之后，就需要在博客根目录下面的_config.yml文件中添加如下配置：

# robots文件配置 
robotstxt: 
   useragent: "*"
   disallow: 
     - /vendors/ 
     - /js/ 
     - /css/ 
     - /fonts/ 
     - /fancybox/ 
   allow: 
     - / 
     - /archives/ 
     - /categories/ 
     - /tags/ 
     - /about/ 
 #  - 其他你想添加的页面 
   sitemap: 
     - /sitemap.xml 
     - /baidusitemap.xml

这样我们的博客部署之后，就能够自动生成robots.txt文件了，然后说一下官方哥给出的配置文件：

robotstxt:
  useragent: "*"
  disallow:
    - /one_file_to_disallow.html
    - /2nd_file_to_disallow.html
    - /3rd_file_to_disallow.html
  allow:
    - /one_file_to_allow.html
    - /2nd_file_to_allow.html
    - /3rd_file_to_allow.html
  sitemap: 
    - /sitemap.xml
    - /baidu_sitemap.xml

从互联网找到的一份比较具有代表性的代码，该配置可以管理我们想要搜索引擎爬取的内容，Allow表示允许被访问的，Disallow是不允许的意思。注意后面两个Sitemap就是网站地图了。而网站地图前面说了是给爬虫用的。这里配置在robots中。可参考如下配置：

# 允许所有用户代理的浏览器爬虫进行访问（爬起数据）
User-agent: *

# 允许访问的内容
Allow: /
Allow: /2019/
Allow: /archives/
Allow: /categories/
Allow: /page/
Allow: /photos/
Allow: /tags/

# 不允许访问的内容
Disallow: /assets/
Disallow: /fonts/
Disallow: /img/
Disallow: /js/
Disallow: /music/
Disallow: /css/

Disallow: /*.js
Disallow: /*.css

# 网站地图Sitemap
Sitemap: https://www.laoliublog.com/sitemap.xml
Sitemap: https://www.laoliublog.com/baidusitemap.xml