sunrise

每天不断学习，才能不断提升自己。

:: 管理 ::

64 随笔 :: 0 文章 :: 92 评论 :: 0 Trackbacks

终于该好了，该字典树能够实现对于数据的模糊匹配。代码如下：

#!/usr/bin/env python
#-*- coding: UTF-8 -*-

class Node:
  def __init__(self):
    self.map = {}
    self.indexnum = 0
    self.endflag = False
  def contain(self,key):
    return self.map.__contains__(key)
  def __getitem__(self,key):
    return self.map[key]
  def __setitem__(self,key,value):
    self.map[key] =value

class TrieTree:
  def  __init__(self):
    self.subNum = 0
    self.indexNum = 0
    self.subNode = Node()
  def add(self,key,trieTree):
    self.subNum += 1
    self.subNode[key] = trieTree

  def __chinese(self,char):
    char = unicode(char,"utf8")
    buf = []
    for word in char:
        if word >= u'\u4e00'and word <= u'\u9fa5':
          buf.append(word.encode('utf-8'))
        elif word == '\n':
          #在这里对索引进行标记
          self.indexNum+=1
    return buf

  def search(self,buf):
    buf = self.__chinese(buf)
    current = self
    for i in range(len(buf)):
      #转化成每个汉字
      #print buf[i]
      if current.subNode.contain(buf[i]):
        if current.subNode[buf[i]].subNode.endflag == True:
          return current.subNode.contain(buf[i])
        else:
          current = current.subNode[buf[i]]
      else:
         #如果没有匹配上，直接进入下一层
        continue

  def load(self,filename):
    try:
      sock = open(filename,'r')
      buf = sock.read().split('\n')
      sock.close()
    except IOError:
      return None

    #读取每个词语
    for i  in range(len(buf)):
      buftmp = self.__chinese(buf[i])
      tree = self
      #读取每个汉字
      current = tree
      for j in range(len(buftmp)):
        if current.subNode.contain(buftmp[j]):
          current = current.subNode[buftmp[j]]
        else:
          sub = TrieTree()
          current.add(buftmp[j],sub)
          current = sub
        if j  == len(buftmp) - 1:
          current.subNode.endflag = True
          current.subNode.indexnum = self.indexNum

if __name__=='__main__':
  s = TrieTree()
  s.load('citynames')
  print s.search('我你')
#  s.printSelf()

posted on 2012-08-24 10:15 SunRise_at 阅读(3194) 评论(3) 编辑收藏引用所属分类: 数据结构

# re: 字典树改进版（对数据进行模糊匹配） 2012-08-24 12:38 C小加

学习了,顶LZ 回复更多评论

# re: 字典树改进版（对数据进行模糊匹配） 2012-08-28 18:40 izualzhy

请问lz，Clicki在注册成功后咋用在cppblog里啊？回复更多评论

# re: 字典树改进版（对数据进行模糊匹配） 2012-08-29 10:43 SunRise_at

复制那个标签的代码到一个地方，你好好看看那个说明，我弄了好久了，忘了要把代码粘哪儿了@izualzhy
@izualzhy
@izualzhy
@izualzhy
回复更多评论

刷新评论列表

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: 栈操作实例－－整理SUMO分类数据字典树改进版（对数据进行模糊匹配）数据结构之快排（递归版）用python实现的字典树

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

sunrise

常用链接

留言簿(12)

随笔分类(63)

随笔档案(64)

收藏夹

ACMer

技术联盟

可爱的python

数据挖掘

算法之道

友情链接

最新随笔

搜索

积分与排名

最新随笔

最新评论

阅读排行榜

评论排行榜

评论