百度异常UA(User-Agent)

UA

这几个月来做网站统计, 发现了一些来自百度的奇葩ua(User-Agent), 不仅限于这些

  • Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; HUAWEI C8650+ Build/V100R001C92B861; Baidu Transcoder) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
  • Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)
  • Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; HUAWEI C8650+ Build/V100R001C92B861; baiduspider-ecom) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
  • Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:17.0; Baiduspider-ads) Gecko/17.0 Firefox/17.0
  • spider-ads
  • spider-ads spider-ads
  • Baiduspider BaiduWISE Googlebot

来源IP如下但不仅限于这些

  • 61.135.165.0/24
  • 61.135.169.0/24
  • 61.135.190.0/24
  • 111.206.36.0/24
  • 112.80.254.0/24
  • 115.239.212.0/24
  • 123.125.67.0/24
  • 220.181.51.0/24
  • 220.181.165.0/24

经过多方查证及确认, 这些都是百度的出口IP, 由于小站流量本身就不大, 这些异常数据导致最终访问数据根本无法有效处理, 最多的时候异常流量超过了正常流量的10倍以上

Baidu Transcoder

其中 Baidu Transcoder 看上去像是一个移动版页面转码的服务, 然后Google搜了一下, 发现很多人都有这种情形

https://www.google.com/search?q=Baidu+Transcoder&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:zh-CN:official&client=firefox-a&channel=sb

但是看到这里 http://blog.const.net.cn/a/17112.htm

TC抓取页面时,使用的User-Agent为:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; baidu Transcoder;)

发现并不完全一致

BaiduWISE

又查了下 BaiduWISE 发现其他人也有类似的日志

https://www.google.com/search?newwindow=1&client=firefox-a&hs=UvT&rls=org.mozilla%3Azh-CN%3Aofficial&channel=sb&q=BaiduWISE+Googlebot&oq=BaiduWISE+Googlebot&gs_l=serp.3...9937.10320.0.10562.2.2.0.0.0.0.0.0..0.0....0...1c.1.45.serp..2.0.0.Z-NvIEaxK6g

另外发现这个 BaiduWISE 貌似是 百度数据开放平台

https://www.google.com/search?newwindow=1&client=firefox-a&rls=org.mozilla%3Azh-CN%3Aofficial&channel=sb&q=BaiduWISE&btnG=Google+%E6%90%9C%E7%B4%A2

百度数据开放平台_移动端数据开放
open.baidu.com/data/ms/nav/wise/
主要面向合法、权威站点。站长提交结构化数据,在百度移动端网页搜索结果页展现。 提交资源 ... 联系我们. 移动端:openmaster-wise@baidu.com. 意见反馈,PC端: ...

可是这里怎么又是 Baiduspider 又是 Googlebot的

难道是有人用移动开放平台在干什么?

baiduspider-ecom

搜了下同样有大量的反馈

https://www.google.com/search?q=baiduspider-ecom&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:zh-CN:official&client=firefox-a&channel=sb

Baiduspider-ads

这个找到了, 是属于百度商务搜索的(百度搜索推广)

http://help.baidu.com/question?prod_en=master&class=498&id=1000550

百度推广?

这里补充一下, 这边的站点投了百度推广, 关键词的落地页都加了追踪码, 而像以上来自这样的ua的访问大多是带着追踪码过来的

也就是说, 这些访问url绝大部分在外面是都看不到的, 难道是搜索推广在扫么? 为什么扫啊?

不知道有没有遇到同样问题的朋友

文中短链接如下

2014-05-27 347 baidu ua user-agent analytics