往东行

西方有真经,我往东行…

robots基础知识与注意问题

robots 是放在网站根目录下的一个 txt 纯文本文件(robots.txt),robots.txt 是一种文本协议,可以保护网站和用户的隐私,它规定搜索引擎蜘蛛哪些内容是可以检索的,哪些是不被允许的。更多详细的基础教程参见:

百度对 robots 的介绍
Google 对 robots 的介绍

绝大部分 spider 能够识别的是以下几种:

noindex - 页面会被抓取,但在被 google 的后台系统分析完以后会被丢弃,不会进入 google 的索引排序,对用户而言也就不会出现在搜索结果中。
nofollow - 禁止 googlebot 追踪页面上的一切链接。(与 meta 级别的 nofollow 不同的是, link 级别里的nofollow 只会阻止 robot 追踪单条链接)
noarchive - 禁止在搜索结果中显示该页面的快照
nosnippet - 禁止在搜索结果的网页链接下显示内容摘要,同时阻止搜索引擎产生该页面的快照
noodp - 在搜索结果的页面摘要部分屏蔽 open directory project 对该页面的描述
none - 等同于同时使用 noindex 和 nofollow 两个参数

Read more »

.htaccess实现URl标准化的方法

URL标准化在SEO中是一个比较重要的环节,同时存在不同的网址版本,不但可能造成复制,还不能正确的集中权重。目前大多数网站,绑定域名都有带WWW和不带两个版本,甚至很多网站同时绑定多个域名。经过处理(跳转、CNAME……),对于访问者来说可能没有任何影响,看到的都是同样的内容;但对于搜索引擎,就无法确定哪一个网址是真正的主页。

可控因素,网站内容链接应该保持同一个版本,比如整站中,返回首页的地址为固定的一个版本。但还有一个不可控的因素,就是别人链到你的网站,所使用的网址。很多自发链接或交换链接时,别人可能会省略掉WWW,或采用绑定的另一域名。外界因素不可控,我们可以从网站内部来控制。利用 Apache 的 .htaccess,使用301重定向,规范网址。

新建一个空文件,文件名 .htaccess(如果网站根目录有就不用了),填入重定向规则后,上传到网站根目录。用301将不带 WWW 的域名重定向。

Read more »