百度异常UA(User-Agent)

UA

这几个月来做网站统计, 发现了一些来自百度的奇葩ua(User-Agent), 不仅限于这些

  • Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; HUAWEI C8650+ Build/V100R001C92B861; Baidu Transcoder) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
  • Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)
  • Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; HUAWEI C8650+ Build/V100R001C92B861; baiduspider-ecom) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
  • Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:17.0; Baiduspider-ads) Gecko/17.0 Firefox/17.0
  • spider-ads
  • spider-ads spider-ads
  • Baiduspider BaiduWISE Googlebot

来源IP如下但不仅限于这些

  • 61.135.165.0/24
  • 61.135.169.0/24
  • 61.135.190.0/24
  • 111.206.36.0/24
  • 112.80.254.0/24
  • 115.239.212.0/24
  • 123.125.67.0/24
  • 220.181.51.0/24
  • 220.181.165.0/24

经过多方查证及确认, 这些都是百度的出口IP, 由于小站流量本身就不大, 这些异常数据导致最终访问数据根本无法有效处理, 最多的时候异常流量超过了正常流量的10倍以上

Baidu Transcoder

其中 Baidu Transcoder 看上去像是一个移动版页面转码的服务, 然后Google搜了一下, 发现很多人都有这种情形

https://www.google.com/search?q=Baidu+Transcoder&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:zh-CN:official&client=firefox-a&channel=sb

但是看到这里 http://blog.const.net.cn/a/17112.htm

TC抓取页面时,使用的User-Agent为:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; baidu Transcoder;)

发现并不完全一致

BaiduWISE

又查了下 BaiduWISE 发现其他人也有类似的日志

https://www.google.com/search?newwindow=1&client=firefox-a&hs=UvT&rls=org.mozilla%3Azh-CN%3Aofficial&channel=sb&q=BaiduWISE+Googlebot&oq=BaiduWISE+Googlebot&gs_l=serp.3...9937.10320.0.10562.2.2.0.0.0.0.0.0..0.0....0...1c.1.45.serp..2.0.0.Z-NvIEaxK6g

另外发现这个 BaiduWISE 貌似是 百度数据开放平台

https://www.google.com/search?newwindow=1&client=firefox-a&rls=org.mozilla%3Azh-CN%3Aofficial&channel=sb&q=BaiduWISE&btnG=Google+%E6%90%9C%E7%B4%A2

百度数据开放平台_移动端数据开放
open.baidu.com/data/ms/nav/wise/
主要面向合法、权威站点。站长提交结构化数据,在百度移动端网页搜索结果页展现。 提交资源 ... 联系我们. 移动端:openmaster-wise@baidu.com. 意见反馈,PC端: ...

可是这里怎么又是 Baiduspider 又是 Googlebot的

难道是有人用移动开放平台在干什么?

baiduspider-ecom

搜了下同样有大量的反馈

https://www.google.com/search?q=baiduspider-ecom&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:zh-CN:official&client=firefox-a&channel=sb

Baiduspider-ads

这个找到了, 是属于百度商务搜索的(百度搜索推广)

http://help.baidu.com/question?prod_en=master&class=498&id=1000550

百度推广?

这里补充一下, 这边的站点投了百度推广, 关键词的落地页都加了追踪码, 而像以上来自这样的ua的访问大多是带着追踪码过来的

也就是说, 这些访问url绝大部分在外面是都看不到的, 难道是搜索推广在扫么? 为什么扫啊?

不知道有没有遇到同样问题的朋友

文中短链接如下

2014-05-27 94 baidu ua user-agent analytics

FastDFS nginx 配置(解决带正则表达式指定文件缓存时的异常)

使用 fastdfs 的 nginx 模块的时候发现总是找不到文件, 经过检查发现是加了缓存的文件都访问不到, 其他的则正常, 分析发现是因为 nginx location 使用正则表达式时的匹配顺序导致的

nginx 的 location 使用正则表达式时按顺序匹配, 找到第一个匹配的就停止搜索, 所以根据文件后缀指定缓存的同时要加上 fastdfs 模块

配置如下:

server
{
    listen 80;
    server_name xxoo.com;
    
    location ~* /group1/M00/.*\.(gif|jpg|jpeg|png|bmp|swf|ico)$ {
        alias /path/to/fastdfs/data/;
        ngx_fastdfs_module;
        expires 30d;
    }

    location /group1/M00 {
        alias /path/to/fastdfs/data/;
        ngx_fastdfs_module;
    }

    # ...
}

参考链接:
* http://www.php100.com/html/program/nginx/2013/0905/5543.html
* http://bbs.chinaunix.net/thread-4062496-1-1.html

2014-03-17 40 fastdfs nginx location regex

Linux下PHP使用FreeTDS连接MSSQL中文乱码解决

vim /etc/freetds.conf  # or /etc/freetds/freetds.conf

#change
[global]
    # TDS protocol version
    tds version = 7.0
    client charset = UTF-8

这里 tds version 必须大于7.0 编码设置才会生效

$host = '10.x.x.x';
$dbname = 'db';
$dbuser = 'xx';
$dbpwd = 'oo';
$pdo = new PDO("dblib:host=$host;dbname=$dbname;charset=utf8", "$dbuser","$dbpwd");

$sth = $pdo->prepare("SELECT TOP 1 * FROM test");
$sth->execute();
$result = $sth->fetchAll();
var_dump($result);

ref: http://stackoverflow.com/questions/13377812/

2014-02-10 32 mssql php charset freetds linux