robots.txt 是存放在站点根目录下的一个纯文本文件。
什么是robots.txt文件?
搜索引擎机器人通过链接抵达互联网上的每个网页,并抓取网页信息。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。当我们的网站有一些内容不想被搜索引擎收录,我们可以通过设置robots.txt文件告知搜索引擎机器人。
如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空。
从SEO的角度,robots.txt文件是一定要设置的,原因:
网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。
网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
一些没有关键词的页面,比如本站的这个页面,屏蔽掉更好。
一般情况下,站内的搜索结果页面屏蔽掉更好。
虽然它的设置很简单,但是作用却很强大,它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
我们要了解一下都是代表什么:
eed.php : RSS Feed 入口文件
index.php : 前端页面入口文件
search.php : 搜索入口文件
zb_install 文件夹:zblog 初始化安装文件夹,安装完毕会自动删除,或手动删除
zb_system 文件夹:为 zblog 框架的主要文件,需要屏蔽搜索蜘蛛去它以及它所包含的内容抓取
zb_users 文件夹:为 zblog 为用户文件夹,里面包含了主题文件夹,插件文件夹,以及附件存放文件夹。
avatar :用户头像文件夹
cache :缓存文件夹
data :数据文件夹(屏蔽蜘蛛)
emotion :表情文件夹
language :语言包文件夹(屏蔽蜘蛛)
logs :目志文件夹,里面文件是记录错误的(屏蔽蜘蛛)
plugin :插件文件夹
theme :主题文件夹
upload :附件文件夹(图片或其它类型文件)
下面一段简单正确Z-Blog博客robots.txt文件范本,复制保存txt上传到网站根目录下就可以了。
User-agent: * Disallow: /zb_system/ Disallow: /zb_users/data/ Disallow: /zb_users/language/ Disallow: /zb_users/logs/ Sitemap: https://www.zairun.com/sitemap.xml
WordPress程序文件范本
User-Agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: https://www.zairun.com/sitemap.xml
Sitemap: https://www.zairun.com/sitemap.html