今天看了一篇ICTCLAS关于词典的分析,该文的链接是        
     http://blog.csdn.net/sinboy/archive/2006/03/15/624909.aspx
          个人的收获:
          1   词典中的所有词是按照词的首个字的GB2312 编码顺序排列,汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768,其中6768个汉字,加上5个空格。我们把同一个字为首的所有的词成为一个 块
          2   在一个块中,格式如下:     词语个数n     {      }1{        }2{        }3........{    }n,
这些词语是按照词语的大小排列的。括号中格式       :频率 长度 句柄 内容(不包括首词)
          3   查找时,直接通过下标找到对应的块,再使用二分法找到要找到的词语。