小明思考

高性能服务器端计算
posts - 70, comments - 428, trackbacks - 0, articles - 0
  C++博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

C++性能优化实践1---设计数据结构

Posted on 2005-12-22 20:42 小明 阅读(3821) 评论(8)  编辑 收藏 引用 所属分类: C/C++

对于性能优化,相信喜欢C++的人都是比较重视效率。我准备写一个系列,主要是基于我的一些实践,至于理论上的东西,不是我的重点。我也讲不出来一堆道理:-)。我所说的例子,都将是我以前所遇到的一些案例,记录一下思路,拿出来跟大家share。


在C++程序中,自从有了STL,很少有人去自己去设计数据结构,当然大部分情况STL的效率都是可以的。万事都有例外。

我接触到一个需求,是根据手机号码的号段表(位数不定,一般是七八位)来查出手机号码所在的地区。
比如
1315156   南京
13812345 北京
1366789  上海
025          南京

一种可能的方案是设计多个hashmap
map<int,string> seg8; map<int,string> seg7;  map<int,string> seg3; ...
每个map分别对应不同的位数。对于一个phone,分别在这些map中查找
但是效率不行。

这里面有个关键,因为手机号码都是数字,我们可以设计出一棵树,每个节点都是0-9,他可以有10个节点,叶子节点我们就可以储存数据。迅速在大脑里想象一个这样的模型。

还是看代码比较明了。 十叉树

#if !defined __TREE10__
#define __TREE10__

#pragma warning(disable:
4786)

namespace sandy
{
    
namespace Private  
    {
        template
<class VALUE>
            
struct __Node10  //节点struct
        {
            typedef __Node10
<VALUE>* POINTER;
            VALUE 
* data; //数据
            POINTER ptr[10]; //子节点
            
            __Node10():data(
0)
            {
                memset(ptr,
0,sizeof(POINTER)*10);
            }
        };
    }
    
    template
<typename VALUE>
        
class CTree10
    {
        typedef  Private::__Node10
<VALUE> NODE;
    
private:
        
long                    m_lcount;          //插入的数据数量
        long                    m_lnodecount;      //节点数
        NODE*                    m_proot;           //根结点指针
        
    
public:
        CTree10():m_lcount(
0),m_lnodecount(0),m_proot(CreateNode()) //notice:Keep order with their declare
        {
        }
        
~CTree10()
        {
            DestroyAll();
        }
        
        
void DestroyAll()
        {
            
for(short i =0;i<10;++i)
            {
                
if(m_proot->ptr[i]!=0)
                {
                    Remove(m_proot
->ptr[i]);
                    m_proot
->ptr[i] = 0;
                }
            }
        }
        
        
bool Insert(const char*pKey,const VALUE &data) //插入节点
        {
            assert(pKey
!=0);
            NODE 
* pNode = m_proot;
            NODE 
* pChildNode =0;
            
char c = 0;
            
            
for(unsigned int i=0;i<strlen(pKey);++i)
            {
                c 
= pKey[i];    if(c<'0' || c>'9'return false;
                pChildNode 
= pNode->ptr[(c-'0')];
                
if(pChildNode == 0//not build
                {
                    pChildNode 
= pNode->ptr[(c-'0')] = CreateNode();//create a new child
                }
                pNode 
= pChildNode ;//change node to child node
            }
            
            
if(pNode->data == 0//empty 
            {
                pNode
->data = new VALUE(data);
                
++m_lcount;
                
return true;
            }
            
else//already inserted
            {
                
return false;
            }
        }
        
        
bool Lookup(const char*pKey,VALUE &data,bool strick = true)
        {
            assert(pKey
!=0);
            NODE 
* pNode = m_proot;
            NODE 
* pChildNode =0;
            
char c = 0;
            
            
for(unsigned int i=0;i<strlen(pKey);++i)
            {
                c 
= pKey[i]; if(c<'0' || c>'9'return false;
                pChildNode 
= pNode->ptr[(c-'0')];
                
if(pChildNode!=0)
                {
                    pNode 
= pChildNode;
                }
                
else // can't find
                {
                    
if(!strick)
                    {
                        
break;
                    }
                    
return false;
                }
            }
            
            
if(pNode->data != 0//already inserted
            {
                data 
= *(pNode->data);
                
return true;
            }
            
else  // no inserted
            {
                
return false;
            }
        }
        
    
private:
        NODE 
*CreateNode()
        {
            NODE 
*pNewNode = new NODE();
            assert(pNewNode
!= 0);
            
++m_lnodecount;
            
return pNewNode;
        }
        
        
void Remove(NODE *pNode)
        {
            assert(pNode
!=0);
            
forshort i = 0 ; i < 10 ; i ++ )
            {
                
if( pNode -> ptr[ i ] )
                    Remove( pNode 
-> ptr[ i ] );
            }
            
if(pNode->data!=0)
            {
                delete pNode
->data;
                
--m_lcount;
            }
            
--m_lnodecount;
            delete pNode;
        }
    };
}

#endif


这个Tree10我在vc6下测试的结果:
插入速度比std::map快3倍,查询速度则是std::map的10倍


 

Feedback

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2005-12-22 20:53 by 小明
C++性能优化,我推荐一本比较好的书
Efficient C++ Performance Programming Techniques

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2005-12-23 09:42 by ngaut
支持小明兄创作,建议多测试几个stl的数据,仅仅vc6恐怕还说明不了太多问题,不妨试试STL PORT 和 gcc的,以及vs.net自带的stl

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2005-12-23 16:45 by 小软
love 小明
这个功能,我很久以前就听你说过了,老一套,不是新闻是旧闻了:)

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2006-01-05 10:36 by LEE
1.空间换时间,这样做空间应该会大很多,而且所换回的效率也不见得怎么样。
2.你的容器的Key是char*,而你用的stl map的key又是int,怎么不把你的容器的key换成int试下?
3.如果这个int的key是一个很大的数字呢?
4.这个int的数字你选择是十进制的位来分解,那为什么不是其他进制的?
5.STL的map是用的RB二叉树,相当于二分查找,算法复杂度为O(log2n),这个是为了考虑个别查询的效率在控制范围内。如果要比查询的平均时间的话,你要和hash算法比,使用STL的hash_map(虽然这个不在标准内,但是大多数STL还是支持的),算法复杂度为O(1),估计你的n分查找是很难比过的。

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2006-01-05 10:42 by LEE
顺便提一句,实际上大多数系统中的key-value pair算法都是使用hash算法。另外就是B树了,这二者的查询效率应该是最好的了。B树在很多数据库、文件系统中大量使用,基本上是树型查找的极致了。

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2006-01-18 08:13 by nanami
std::map使用的RB二叉树(红黑二叉树,或平衡B树),就是B树的一个特殊情况。HashMap要分情况用,毕竟计算Hash是需要耗费一个恒定的时间,而同时为了避免Hash碰撞,需要一个算法比较复杂的HASH,这个一般只有在海量数据的时候优势才明显,否则还不如MAP的效率。

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2006-03-20 14:38 by alou
呵呵,当年我还用过256叉树呢。

# re: C++性能优化实践1---设计数据结构  回复  更多评论   

2006-05-15 15:26 by yhhv
好办法!

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理