今天看了一篇ICTCLAS关于词典的分析,该文的链接是
http://blog.csdn.net/sinboy/archive/2006/03/15/624909.aspx 个人的收获:
1 词典中的所有词是按照词的首个字的GB2312 编码顺序排列,汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768,其中6768个汉字,加上5个空格。我们把同一个字为首的所有的词成为一个 块
2 在一个块中,格式如下: 词语个数n { }1{ }2{ }3........{ }n,
这些词语是按照词语的大小排列的。括号中格式 :频率 长度 句柄 内容(不包括首词)
3 查找时,直接通过下标找到对应的块,再使用二分法找到要找到的词语。