The Mirages

用python写的房价分析脚本

发表于 2010-08-27 更新于 2025-02-10 分类于樱桃沟本文字数： 1.1k 阅读时长 ≈ 1 分钟

分析基础是之前的shell分析脚本后的csv文件。但是我现在分析的是平均房价等等信息。由于之前那个csv文件格式不是特别好，所以没法使用二维数组这种方式来分析，所以只能简单的使用的一维数组。

分析的步骤基本如下，读入文件，然后根据关键用正则把每个数据读入到一个数组中，方法有点笨，因为原日志文件中有”平米”，’万元’，所以分2次读入的，不直到能否跟简单点，尝试过用group(),但是在compile中没法使用，所以大家有什么好的方法可以回复给我。

 #!/usr/bin/python #coding:UTF-8 import re f = open('../../house/today.anjuke.2010-08-27.csv','r') totalDolar=\[\] totalPingmi=\[\] re_obj = re.compile(r"d+万元") re_num = re.compile(r"d+|d+.d+") re_ping = re.compile(r"d+平米|d.d+平米") for row in f: for match in re_obj.findall(row): for num in re_num.findall(match): totalDolar.append(int(num)) for pingmi in re_ping.findall(row): for pingmiNum in re_num.findall(pingmi): totalPingmi.append(int(pingmiNum)) #print totalPingmi print '共有房产: %d套' % len(totalDolar) print '所有房产总价: %d万元' % sum(totalDolar) avg=float(sum(totalDolar))/(len(totalDolar)) avgPingmi=float(sum(totalDolar))/(sum(totalPingmi)) print '每套均价：%f万元' % avg print '每平米均价：%f万元' % avgPingmi #break f.close()

###########################################

Best regards
Timo Seven

()
Linux System Admin & MySQL DBA

阅读全文 »

安装puppet dashboard进行Puppet展示

发表于 2010-08-17 更新于 2025-02-10 分类于樱桃沟本文字数： 1.3k 阅读时长 ≈ 1 分钟

puppet dashboard是一个puppet的展示模块，自身就带有了一个web服务器。 ruby on rail 嘛！

但是我们还需要安装mysql数据库

安装具体步骤如下：

1. 安装mysql5.0或者mysql5.1

2. 安装ruby，一定要1.8.7版本

阅读全文 »

使用autobench进行web压力测试

发表于 2010-08-17 更新于 2025-02-10 分类于樱桃沟本文字数： 951 阅读时长 ≈ 1 分钟

说是使用autobench，其实autobench是一个Perl脚本用来调用httperf来进行测试。所以我们需要先安装httperf然后安装autobench。

安装过程简单如下

 wget http://httperf.googlecode.com/files/httperf-0.9.0.tar.gz tar xvzf httperf-0.9.0.tar.gz cd httperf-0.9.0 ./configure make && make install cd .. wget http://www.xenoclast.org/autobench/downloads/autobench-2.1.2.tar.gz tar zxvf autobench-2.1.2.tar.gz make make install

然后我们就可以直接调用autobench进行测试了，测试结果可以直接保存为tsv格式，这个可以用excel直接打开，然后进行画图。

 autobench --single_host --host1 www.test.com --uri1 /10K.html --quiet --low_rate 20 --high_rate 200 --rate_step 20 --num_call 10 --num_conn 5000 --timeout 5 --file /tmp/results.tsv

上面这个表示测试 http://www.test.com/10K.html
，从并发20个连接一直到并发200个连接（每个连接包含了10个请求），以20为递进。每个测试总共都会有5000个连接，如果5秒内没有响应就表示出错。最终的结果保存在/tmp/results.tsv

阅读全文 »

说说创新工场面试

发表于 2010-08-16 更新于 2025-02-10 分类于樱桃沟本文字数： 773 阅读时长 ≈ 1 分钟

在来sohu之前，其实我是先面的创新工场，在一个周六的上午面的，清华科技园某座16楼，由于当天的前台跟人事没沟通好，所以还得我打给人事打手机问下具体情况，结果前台说人事正在清华校招呢。所以最后那天是直接进去喊人有没人约的我，汗一个！
虽然我看连前台都用上了google calendar，但是显然这个google calendar没有跟人事的进行同步。
应该说创新工场的人事还是很尽责，在约人之前在电话里跟我进行了详细的沟通，估计沟通了1个小时左右。我觉得这点很好，经常碰到有些人事和猎头搜索到关键字就说要让你去，到底专不专业阿？就算来了不是浪费大家时间阿。
面我的是个看着脸膀还有点清涩的孩子，主要是关于数据库方面的DRBD这些东西。具体什么内容由于几个月都过去了，都已经健忘了，只记得当时是在kaifulee的办公室里面的。
当然没有多久我就接到了二面通知，还是之前那位人事通知的。二面是位中年人，很明显创新工场实在太挤了，我们两就在一个角落了聊了会，接着就说让人事总监跟我最后谈谈，可过会说总监不在，只能另约，这一另约就是慢慢1个多月啊。而在这个时候我也跟SOHU给确认好了。是人才在什么平台上都能发挥自己最灿烂的一面的。
总结：
一：创新工场招人很多，但是都很谨慎。
二：创新工场给钱不多
三：给不给期权未知，因为最后一轮没有谈
四：工作比较累，加班较多，周六也要上班
五：工作氛围应该不错，我面的时候看到大家都热火朝天的很努力
六：上班很挤，还要占座
七：招聘流程会很长，会一个多月
八：创新工场项目很多，得具体问清楚什么项目
九：创新工场有自己孵化项目和外来项目（可能给的待遇会不同）
十：找一个靠谱的领导比找一个靠谱的公司重要
###########################################
Best regards
Timo Seven

关于nginx cache的命中率

发表于 2010-08-16 更新于 2025-02-10 分类于樱桃沟本文字数： 726 阅读时长 ≈ 1 分钟

在squid中可以很简单的查看squid的命中率，但是在nginx需要在日志中添加$upstream_cache_status这个参数，这样就可以显示它的cache状态，有

MISS
EXPIRED - expired, request was passed to backend
UPDATING - expired, stale response was used due to proxy/fastcgi_cache_use_stale updating
STALE - expired, stale response was used due to proxy/fastcgi_cache_use_stale
HIT

共这样5种状态。
我的日志文件的格式为：

 log_format cache '$remote_addr - $remote_user \[$time_local\] - $request ' 'upstream_response_time $upstream_response_time ' 'msec $msec request_time $request_time - $upstream_cache_status';

在我的日志文件中计算了upstream的响应时间和命中状态。

这样很容易就能从日志中计算出nginx cache的命中率了。

阅读全文 »

nginx cache试用

发表于 2010-08-16 更新于 2025-02-10 分类于樱桃沟本文字数： 2.9k 阅读时长 ≈ 3 分钟

nginx cache现在已经在0.8以上的版本默认启用了，其实是作为proxy部分的一部分。而且现在nginx cache已经支持expires, gzip,内存cache管理等等，已经可以作为线上可以使用了。

使用nginx cache一直是有这个想法的，因为squid实在是太过臃肿了，而连接数到达400已经很吃力了，而nginx的优势恰恰是在连接数上。下面就开始试用吧。

首先是安装，我还特地下载了一个purge工具，专门用来进行推送，但是还是要单独安装squidclient。

 ./configure --prefix=/usr/local/nginx --with-http_realip_module --with-http_sub_module --with-http_gzip_static_module --with-http_stub_status_module --with-file-aio --add-module=/home/timo/download/ngx_cache_purge-1.2 
 make 
 make install

下面这个是我自己的一个Nginx.conf文件，用来做最简单的cache功能

user www-data;
worker_processes 1;

#error_log logs/error.log;
#error_log logs/error.log notice;
error_log logs/error.log info;

#pid logs/nginx.pid;

events {
  worker_connections 1024;
  use	epoll;
  }

http {
include mime.types;
default_type application/octet-stream;

log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" "$http_x_forwarded_for"';

access_log logs/access.log main;

sendfile on;
tcp_nopush on;
#keepalive_timeout 0;
keepalive_timeout 65;

gzip on;
gzip_http_version 1.0;
gzip_comp_level 9;
gzip_proxied any;
gzip_types text/plain text/html text/css application/x-javascript text/xml application/xml application/xml+rss text/javascript;
#gzip_min_length 1100;
gzip_buffers 16 8k;
#gzip_disable "MSIE [1-6]\.(?!.*SV1)";

proxy_cache_path /var/www/nginx_cache levels=1:2
keys_zone=cache_one:200m inactive=1d max_size=200m;
# proxy_temp_path /var/www/nginx_cache/temp;

server {
listen 10.1.41.81:81;
# expires 2d;

location / {
  proxy_cache cache_one;
  # proxy_cache_valid 200 301 302 304 30d;
  proxy_cache_key $host$uri;
  proxy_hide_header Vary;
  proxy_set_header Host $host;
  proxy_set_header Accept-Encoding '';
  proxy_set_header X-Forwarded-For $remote_addr; add_header X-Cache "HIT from cache_test";
  proxy_pass http://10.1.41.81;
  if ( $request_method = "PURGE" ) {
  rewrite ^(.*)$ /purge$1 last;
  }
}

location ~ /purge(/.*) {
  allow 10.0.0.0/8;
  deny all;
  error_page 405 =200 /purge$1;
  proxy_cache_purge cache_one $host$1$is_args$args;
  }
}
}

阅读全文 »

杂谈各种互联网产品设计

发表于 2010-08-14 更新于 2025-02-10 分类于樱桃沟本文字数： 1.2k 阅读时长 ≈ 1 分钟

喜欢互联网，是因为互联网的快速发展，不像传统软件产业为了一个产品设计需要琢磨几个月，虽然属于精益求精，但是互联网属于快速变化，什么东西基本是在边做边完善着。

现在搜猫浏览器希望做推广，虽然教育网加速很不错，但是这个功能也就对于使用教育网的人有用，而中国大部分网民都不在教育网内，所以要在其它地方推广，必须要有其它的杀手级应用。

而新闻中心也想增加注册用户的使用率。

其实这些东西都是非常个性化的东西，为什么我看新闻一定要注册进来，为什么我一定要注册使用搜猫浏览器。

所谓个性化的东西就是跟邮件一样，每个人都不得不登录自己的帐号来查看自己的邮件。所以同理，我们一定要推动自己的个性化运动。

新闻中心，我们都喜欢大量的编辑给我们编辑好新闻主题来查看了，可这些新闻真的是我们想要看的吗？社会新闻还好，可体育新闻呢？
有人喜欢F1，有人喜欢足球，有人喜欢巴萨，有人曼联，有人喜欢NBA，而其他新闻我基本就不看的，你说如果你不登录，服务器能知道你只喜欢NBA吗？所以定制个性化新闻其实是新闻中心必须做的？
其实这个很想RSS订阅，但是RSS订阅的内容一般都是技术交流方面的，而新闻方面的还是喜欢通过门户来获知的。

阅读全文 »

puppet基本安装和配置

发表于 2010-08-14 更新于 2025-02-10 分类于樱桃沟本文字数： 1.7k 阅读时长 ≈ 2 分钟

puppet是一个类似cfengine的分发工具。主要是由ruby进行开发的。最新版本是2.6了，建议安装最新的版本，省却了很多bug的困扰。

在我的测试环境中，server是一台cent5.5的服务器，而客户端是我的ubuntu10.04。下面简单说下安装过程。

安装前我centos5.5命名为puppet.timo.com
而ubuntu10.04命名为desktop.timo.com
这个可以在hosts或者DNS中进行指定。

由于是最新的版本，所以我们没法通过源来进行安装。

 yum install ruby rdoc ri ruby-devel ibdifflcs-ruby libdifflcs-ruby1.8 sudo apt-get install ruby rdoc ri ruby-devel libdifflcs-ruby libdifflcs-ruby1.8

上面2个是在centos和ubuntu下安装的依赖包

阅读全文 »

The Mirages

用python写的房价分析脚本

ubuntu安装thinkpad必备软件

一个分析安居客最新房价的shell脚本

安装puppet dashboard进行Puppet展示

使用autobench进行web压力测试

说说创新工场面试

关于nginx cache的命中率

nginx cache试用

杂谈各种互联网产品设计

puppet基本安装和配置