Google 和百度对我的 blog 收录的观察

最近在新的blog系统上花了些心思,并在搜索引擎收录的方面有了一点心得,记录如下。

1 百度懂得找新页面

我过去用WordPress的时候,单篇文章的URL用的是/年/月/slug/的格式。而现在用的Movable Type所产生的静态页面的URL却是/年/月/slug.html格式的。这样一来在搜索引擎里的单篇文章地址就有许多过去留下的错误链接,这些链接都无法访问。在Google里面,挺奇怪的是我过去的那些文章都排在了前面。大约前3页以内没有.html结尾的页面。我不知道是不是那些地址资历“老”的原因。而在百度里,我新发布的页面都排在前面,刚才又查了一下,似乎旧格式的页面都不在搜索结果里面了。

我不清除是什么原因。有可能是Google的索引策略所致,也有可能是我在Google Webmaster Tool里面提交过的sitemap里priority设定不当(我用在线工具生成超过200个链接的sitemap.xml文件,还没有着手研究)所致。

2 百度不懂robots.txt

这是我从过去就发现了的事情。今年一月左右我又有了时间写blog后发现Google里搜索我的blog只有两个结果,而且它们都是WordPress后台登录之类的链接。而同时百度里的结果就一切正常。当时我百思不得其解。后来发现我的模板里有noindex的设定。我想起这是我过去看过的一篇SEO文章里说的方法之一(现在怀疑有这样的SEO方法吗?)当我从模板里删除了这一条后Google就开始正常索引我的页面了。

为了让Google去掉那些旧的地址,我想了一个粗暴的方法:在robots.txt中禁止搜索引擎的爬虫来访问我的页面,等Google索引的地址一个都不剩后,再允许爬虫来索引。Google Webmaster Tool里面有申请删除页面索引的地方,我还不是很急,因此就先让搜索引擎自己来做吧。

今天早上看了一下,Google的搜索结果里面已经没有新文章了,而百度的结果里新文章仍然在

《Google 和百度对我的 blog 收录的观察》有1条评论

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据