如何给Hexo博客添加robots协议文件

如何给Hexo博客添加robots协议文件
老刘博客robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。 如果站长想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。需要注意的是,robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。下面我们来看Hexo博客如何添加robots.txt文件。
插件安装:
首先我们需要再Hexo运行容器中运行如下代码,用来添加robots.txt的插件:hexo-robotstxt-multisitemaps
,代码格式如下
1 | npm install hexo-robotstxt-multisitemaps --save |
如果代码报错,就需要使用下面的代码
1 | npm install hexo-robotstxt-multisitemaps |
插件配置:
插件安装之后,就需要在博客根目录下面的_config.yml
文件中添加如下配置:
1 | # robots文件配置 |
这样我们的博客部署之后,就能够自动生成robots.txt文件了,然后说一下官方哥给出的配置文件:
1 | robotstxt: |
从互联网找到的一份比较具有代表性的代码,该配置可以管理我们想要搜索引擎爬取的内容,Allow表示允许被访问的,Disallow是不允许的意思。注意后面两个Sitemap就是网站地图了。而网站地图前面说了是给爬虫用的。这里配置在robots中。可参考如下配置:
1 | # 允许所有用户代理的浏览器爬虫进行访问(爬起数据) |
网站常规允许和不允许的链接算是做了一个简单的汇总,大家仿照着上面的文件内容修改Hexo博客的robots.txt内容,最后,
开源地址:https://github.com/anthonyweidai/hexo-robotstxt-multisitemaps
评论
匿名评论隐私政策
✅ 你无需删除空行,直接评论以获取最佳展示效果