posts - 12, comments - 4, trackbacks - 0, articles - 36

网页的自动分类,需要考虑的东西很多啊。

分类体系的选择,利用DDC还是中图?还是借鉴yahoo或者google的分类体系?分类层次有多深?

训练文集的选取?哪里来呢,那么多打好标记,并且其分类要与我们的分类相同或者,相似吧

刚开始网页的内容处理,表示,是否考虑超链接,是否考虑html,如何剔出乱其八糟的广告?

网页向量化,又有那么多种权值计算方法,经典的就五个了,还有改进的,估计也有那么五六个比较好的吧?

向量的降维,还好那位帅哥整理过5经典的算法,再加上后来北大那帮人做的实验,经典的几个里面的性能大多清楚了。可是,是不是还有改进的呢?特征提取算法和后面的分类算法组合后的性能参数呢?

ok,然后是分类算法,姑且考虑KNN,还要考虑KNN的参数,K=?,文档之间的距离的计算,文档-类得分的的加权?如何加权?——还有其他的算法呢?

分类完了,还有截取算法,某个文档可以属于哪些类?某个类可以包含哪些文档?这个怎么确定?RCut,PCut还是SCut,还有其他的改进算法吗?

最有,贪心算法在这里面能起作用吗?即每一步,都利用别人的实验,选择最好的算法,可是综合起来,就一定是全局最好的算法吗?

posted @ 2005-12-07 12:02 inwind 阅读(277) | 评论 (0)编辑 收藏

偶离开科大后,李开复先生竟然紧接着就过去了,郁闷啊郁闷,只能从zw同学那里拷来一些二手的资料,不过看来zw同学还是很认真地记录了的,受益匪浅啊!
=======================================================

kafulee在科大的演讲

唉,真是人山人海啊,估计在我的映象中已经很久没有出现过这种场景了。介绍了一下google的工作场景,真是令人神往啊。实验室的一位师兄获得了一本赠书。

写一下他给我们的建议吧:厚积薄发,有的放矢

(1)练内功。不要只花功夫学习各种流行的编程语言和工具,以及一些公司招聘广告上要求的科目。要把数据结构、算法、数据库、操作系统原理、计算机体系结构、计算机网络,离散数学等基础课程学好。不妨试试Donald Knuth的Art of Computer Programming里的题目,如果你能够解决其中的大部分题目,就说明你在算法方面的功力不错了。

(2)多实战。通过编程的实战积累经验、内化知识。建议大家争取在大学四年中积累编写十万行代码的经验。

(3)求实干。不要轻视任何的实际工作,比如一些看似简单的编码或测试。要不懈追求对细节一丝不苟的实干作风与职业精神。

(4)不放弃数学。数学是思维的体操,数学无处不在。尤其当你对一些“数学密集型”的领域有兴趣,例如视频、图像处理等等,你需要使它成为你的利器。

(5)培养团队精神,学会与人合作。

(6)激励创新意识,不为书本和权威所约束。

(7)有策略地“打工”。在不影响学业的前提下,寻找真正有意义的暑期工作或兼职。去找一个重视代码的公司,在一个好的“老板”指导下完成真正会被用户使用的程序。不要急于去一个要你做“头”而独挡一面的地方,因为向别人学习,是你的目的。打工和找工作一样,“不要只看待遇和职衔,要挑一个你能够学习的环境,一个愿意培养员工的企业,一个重视你的专业的公司,最后,要挑一个好老板。”

posted @ 2005-12-07 10:48 inwind 阅读(377) | 评论 (0)编辑 收藏

仅列出标题
共2页: 1 2