2007/9-2007/12: 知识问答搜索项目
角色:项目经理/规划/技术设计/开发 人员:4位工程师 系统平台:FreeBSD pc server 开发语言和相关技术:Java, Lucene, Hadoop
2007年9月至12月,带领5位同事负责研发知识搜索平台,吸取了Lucene/Hadoop/Nutch开源项目的优点,设计并开发一套已扩展的搜索平台,并在它基础上设计并开发智能型搜索项目知识搜索,此搜索平台也同时应用于多个中小型垂直搜索产品中。在此项目中同时运用了一些极限编程思想来管理项目过程。
2007/5-2007/6: 网络字典1.0优化项目
角色:技术设计/开发 人员:3位工程师 系统平台:FreeBSD pc server 开发语言和相关技术:Vespa, C/C++, Perl, Java
参与网络字典项目组改进其索引和检索性能和相关性等。
2006/10-2007/1: Hadoop小组及应用项目
角色:小组组长/规划/应用项目设计开发 人员:6位工程师 均part-time 系统平台:Redhat Linux, 5 pc server 开发语言和相关技术:Java, Hadoop
2006年8月2008年1月,任引擎研究小组组长,并负责与US同事合作并加入开源的hadoop项目,承担部分任务,同时负责公司hadoop cluster的建设及其应用的推广支持等。后期负责公司Vespa搜索引擎的源码研究以及多重索引改造工作,编写了其完整的索引结构和检索技术文档。
这段时间在负责本部门team的工作同时,开始任领导要求成立并负责hadoop小组虚拟团队,与6位不同部门同事与US团队合作参与hadoop项目研发。在前期工作进行比较顺利,并成功建立了2个测试用cluster并完成几个应用项目。后期由于需要投入更多硬件资源和公司的战略变化等原因不得不搁置最后暂停了本项目。本人希望能通过此项目深入理解分布式计算,并有实际应用。
2007/2-2007/5: Vespa搜索引擎多重索引研究项目
角色:项目经理/规划/设计开发 人员:2位工程师 + 2位工程师part-time 系统平台:FreeBSD pc server 开发语言和相关技术:C/C++, Vespa , Word segmentation and YWS
另外一个项目就是负责一个4人小组研究公司vespa搜索引擎源码,并且进行多重索引改造和测试等研究,同时完成部分引擎技术文档和培训。不仅对vespa的架构有了更充分认识,对其索引结构和检索算法也有了更深入理解。此项目的同时本人还在研究lucene源码,并想完成一个系列文章贴在自己blog上,与同道中人交流,还在进行中,本人希望能尽快更深入地理解搜索引擎技术以及在学习智能检索,人工智能等方向有所成效。
2006/6-2006/12: 网页搜索拼写纠错2.0项目
角色:项目经理/总体设计/基础代码设计开发 人员:3位工程师 系统平台:FreeBSD pc server 开发语言和相关技术:C++, Php/extension, perl, Java, Hadoop
2006年3月至12月,带领6位新同事负责相关搜索和拼写纠错等产品,大部分是刚毕业学生,对自己有一定挑战,做了多种工作方式调整并如期成功发布了新版相关搜索和全新开发的拼写纠错产品,质量和稳定性都达到了国内领先水平。 这段时间的主要工作除了培养新人,具体的项目一个就是开发相关搜索3.0和4.0,重点解决成人词识别等问题,并加入了词性识别,同时完善了词典管理工具等,使得相关搜索更加成熟。拼写纠错是另一个全新开发的系统,包括拼写纠错和拼音推荐两个模块,此新版本在US同事设计的算法基础下进行全新设计和开发,本人划分了几个独立模块:词典管理和搜索基础框架模块,拼写纠错模块,拼音推荐模块,管理系统模块等与二位同事协同开发,并第一次使用hadoop系统挖掘网络日志计算出同现频率等词库,同时开发出高效的词库批量review工具和批量测试工具,使得项目在预计时间内按质按要求成功完成并一次上线成功,一直稳定运行至今。
2005/12-2006/12: 网页搜索相关搜索2.0项目
角色:项目经理/总体设计/代码设计开发 人员:4位工程师+1位工程(台湾)+1位架构师(美国) 系统平台:FreeBSD pc server 开发语言和相关技术:C++, Php/extension, perl, Vespa Search Engine
2005年12月,接手相关搜索项目,并任项目经理负责全新架构的相关搜索的设计和开发,与国内外三地工程师联合开发,项目如期上线并达到了国内同类产品前列,并创新加入多种技术如query分析,Re-rank等。 本人接手第一个项目是相关搜索1.0,由于在一些词的相关性方面与国内大搜索引擎公司还有较大差距,所以2.0重点解决相关性问题。本人首先熟悉目前系统的架构和检索算法,并考察竞争对手的特点,得出几条主要的不足之处,最重要的是中心词识别问题,1.0版本在这方面改进较少,所以重点分析加入了中心词识别技术,大大提高了相关性。另一个重点问题是数据量加大后的检索效率问题,新版本引入了更先进的vespa搜索引擎平台,使得2.0在各方面都有了很大提高,并成为网页搜索内部最重要的PV来源之一。 |