花了四天写了个价格查询的web体验版,大致结构是这样的,前端web界面:

 

web通过tcp连接后台一个ppsserverppsserver调用一个ppsget.dll从一些配置好的网站现拉网页分析产品价格等信息,说起来是很简单的,要是画出结构图来也是很简单的,看看效果:

 

 

 

为了写这个东西查了比价网等很多资料,看来看去觉得现在的一些比价网都把自己当购物门户了,上面什么信息都有,数据都是缓存的,有的还隐藏原始链接,用户点进去也都是缓存的数据,不再链接到原始出处,看了几个网站数据误差较大,有个网站排在最前面价格最低的链接点进去之后发现根本没有那个低价格,也不知道那个价格信息是什么时候的,或者根本就提取错了。看了那么多比价网站,时间误差最小的也超过10个小时,很令我失望,总之我的出发点和这些网站不同,我希望做一个界面很简洁的、实时查询的服务,而且速度要求很快,一次查询速度最好小于1秒,当然我现在技术预览版离这个目标还差得很远。界面简洁使得用户即使是使用手机也能得到很好的输出,也不占用多少带宽,我还希望前端接上条码扫描功能,这样很多不会输入的人就可直接对着条码就能查询网店价格,多方便啊,呵呵。不过做这个功能发现技术不是大问题,我4天除了布好了架构还做了5家网店的网页分析,可见这些基本技术都不太难,最大的矛盾是实时查询数据量太大,就算只查询一个产品,分析5个网站的数据加在一起估计接近1M,这要是每秒有个几百几千人访问那还得了啊,得要多大的带宽才能撑得住啊,难怪看了那么多比价网站没有一家提供实时查询的,不是他们做不了实时查询,的确是因为带宽太大,所以我想接下来做一套分布式查询模型,将很多无固定ip的机器接入ppscontrolserver,一起参与为用户提供查询服务,今天在看mapreduce,希望自己不要闭门造车,其实很多年前就想做这个功能了,只是一直没有下手,加上那个时候也没有一套稳定的网络库,现在条件都具备了,希望最近可以做一个简单的分布式计算框架出来,那样以后要做类似功能就容易了,可能只要加入一个简单的dll发布一个计算命令就可以了。这个分布式计算模型做出来之后,传统的比价网站就只能望俺项背了。

Posted on 2010-10-03 14:21 袁斌 阅读(479) 评论(0)  编辑 收藏 引用

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理