向国内外各大搜索引擎提交 sitemap

Sitemap是一个xml格式的文件,提供url方便搜索引擎抓取网站的网页,是SEO(搜索引擎优化)的基础工作。最近在优化公司的英文网站,这里收集整理了一些搜索引擎的sitemap提交地址。

1、腾讯搜搜http://open.soso.com/datacoop/sitemap/

搜搜开放平台提供了提交sitemap的功能。已无法提交。

2、百度http://sitemap.baidu.com/

百度站长平台,期待很久了,可惜一直在内测中。暂时无法提交。

3、雅虎中国http://sitemap.cn.yahoo.com/

雅虎中国的站长工具很早就提供了提交sitemap的功能,还支持rss。无法访问

4、Googlehttps://www.google.com/webmasters/tools/

可谓最强大的网站管理员工具,提交sitemap当然是最基本的。

5、Yandexhttp://webmaster.yandex.com/

Yandex是俄罗斯最大的搜索引擎,相对于俄罗斯的百度。管理员工具提供了类似Google Webmaster的功能,非常强大。 继续阅读

搜索引擎蜘蛛爬虫 User Agent 一览

搜索引擎蜘蛛今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent。顺便整理出一些搜索引擎爬虫的 User Agent,在这里分享一下,也欢迎补充。

微软

“msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”
msnbot,大多数已经被bingbot替代了,现在偶尔还可以看到。

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
bing,必应

搜搜

“Sosospider+(+http://help.soso.com/webspider.htm)”
腾讯搜搜

“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”
搜搜图片

雅虎

“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
雅虎英文

“Yahoo! Slurp China”
“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎中国

搜狗

“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗图片

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗,搜狗的蜘蛛程序做的很不好,总是进入死循环,已经分别在 robots.txt 和 设置中屏蔽掉

继续阅读

robots.txt 和 robots meta 标签应用详解

搜索引擎都有自己的“机器人”(robots、bot),通常也叫做“蜘蛛”和“爬虫”(spider),并通过这些 robots 在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被 robots 抓取而公开。为了解决这个问题,robots 开发界提供了两个方法:一个是 robots.txt,另一个是 robots meta 标签。下面将对这两种方法进行详细的介绍。

一、robots.txt

1、什么是robots.txt?

robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。

如 www.i0554.com,根目录下的 robots 就是 http://www.i0554.com/robots.txt 继续阅读