首页
时间轴
统计
壁纸
留言
友邻
关于
推荐
每日新闻
网易云音乐
VIP影院
小米步数
网站seo优化
精美壁纸
取QQSkey
取百度key
取微博key
Search
1
教你如何把Waves效果器完整的卸载干净
3,116 阅读
2
123云盘直链带密码解析源码
1,336 阅读
3
2023新版QQ工具箱全开源
1,088 阅读
4
2023新版API接口管理系统v1.3全开源
899 阅读
5
个人新拟态主页UI5.0全开源
716 阅读
技术文章
程序代码
实用软件
声卡效果
登录
/
注册
Search
标签搜索
咔咔云
PHP
技术文章
PHP代码
API
QQ技术
网站程序
绿色软件
易语言源码
网络攻防
图床源码
授权程序
网站优化
声卡效果
SEO优化
计算机常识
Windows
GitHub
typecho
网站美化
咔咔云
技术交流群
累计撰写
54
篇文章
累计收到
0
条评论
首页
栏目
技术文章
程序代码
实用软件
声卡效果
页面
时间轴
统计
壁纸
留言
友邻
关于
推荐
每日新闻
网易云音乐
VIP影院
小米步数
网站seo优化
精美壁纸
取QQSkey
取百度key
取微博key
用户登录
登录
注册
搜索到
1
篇与
的结果
2022-05-28
Typecho博客程序正确配置robots.txt
Robots协议Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider沟通的重要渠道,站点通过robots告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守robots.txt实现原理1.搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。2.当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。3.百度也会严格遵守robots的相关协议,要注意区分你不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和你不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。robots.txt基本语法{callout color="#f0ad4e"}注意:robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写{/callout}{card-describe title="基本语法"}User-agent:描述搜索引擎robot的名字即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部Disallow: 描述不希望被访问的一组URL即:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型Allow: 描述希望被访问的一组URL即:设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。Sitemap:指示蜘蛛去爬取网站的sitemap文件通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符{/card-describe}检测网站是否配置robots.txt第一种方法:访问网址 http(s):你的域名/robots.txt即可第二种方法:通过 [百度站长工具] 来检测正确编写一个保护网站隐私的robots.txt注意事项{card-describe title="注意事项"}1.要求所有搜索引擎遵循我的这个协议2.禁止蜘蛛抓取我的后台地址和Typecho的安装路径3.指引蜘蛛去抓取我的Sitemap{/card-describe}所以可以这样写,在网站根目录下新建一个robots.txt文件,内容如下:User-agent: * Allow: /*.html$ Allow: /usr Allow: /*.png$ Allow: /*.jpg$ Allow: /*.jepg$ Allow: /*.gif$ Allow: /*.bmp$ Disallow: /admin/ Disallow: /install/ Disallow: /var/ Disallow: /config.inc.php Disallow: /install.php Sitemap:https://www.kkjsz.cn/sitemap.xml {callout color="#f0ad4e"}注意:typecho默认是没有robots.txt文件的(╯﹏╰),需要我们自行创建,且文件名要小写哦!Sitemap要替换为你的网站的Sitemap所在路径(默认一般在根目录下){/callout}{message type="success" content="这样既可以起到保护我们网站隐私的作用,也可以正确的指导搜索引擎去爬取我们网站的信息,快速提高网站收录的概率!"/}
2022年05月28日
265 阅读
0 评论
2 点赞
首页
复制
搜索
前进
后退
重载网页
SEO优化
关于站长