vc 2005 sp1下isspace函数对中文处理有问题

    vc 2005 sp1下isspace函数的debug版本对中文处理有问题

    今天碰到一个怪问题，从别人那儿拿来的一段代码先在gcc下过了，又移植到vc下编译，结果debug时老是有assert错误。看了一下代码，错误发生在一个trim函数中。trim函数接受一个char*类型的字符串参数，去掉字符串前后的空格、制表符等空白字符。其中判断是否是空白字符用的是isspace函数。按照一般的想法，char*字符串里的字符编码无论是GBK还是utf-8，因为都兼容ASCII，所以isspace函数都不应该发生问题。但事实是只要是字符串有中文，无论是gbk还是utf-8编码，isspace内都有assert错误。为了便于说明，把其中的代码抽像出来如下：

   char* lpszBuffer = (char*)"高";
   int nLen = (int)strlen(lpszBuffer);
   for( int i=0;i
   {
       printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
   }

    这段代码在debug编译的情况下会assert失败。没有办法，只好跟踪到c运行库里，isspace的实现如下(在"_ctype.c"文件里)：

extern __inline int (__cdecl isspace) (
        int c
        )
{
    if (__locale_changed == 0)
    {
        return __fast_ch_check(c, _SPACE);
    }
    else
    {
        return (_isspace_l)(c, NULL);
    }
}

    跟踪发现，__locale_changed的值为0，走第一个分支，调用__fast_ch_check，它其实是个宏定义，最后进入_chvalidator函数，它的实现代码如下：

extern "C" int __cdecl _chvalidator(
        int c,
        int mask
        )
{
        _ASSERTE((unsigned)(c + 1) <= 256);
        return _chvalidator_l(NULL, c, mask);
}

   错误就发生在这个函数的第一行“ _ASSERTE((unsigned)(c + 1) <= 256);”。

    代码看到这里，错误的原因基本也就出来了。“高”的GBK编码是“b8 df”，调用isspace函数是逐个字节判断，但是isspace和_chvalidator接受的参数都是int，这样就会产生一个char到int的转型，在vc下，char默认是"signed char"，这样char“b8”转型到int后，会变成一个负数，然后在assert的时候，又强制转型为unsigned，它又变成了一个非常巨大的正数，自然assert就失败了。
    为什么在gcc下没有错误？gcc下的isspace函数实现我倒没看，不过我的gcc中的char默认就是“unsighed char”，所以即使isspace的实现跟上面的一样，也不会产生问题。
    另：在win32 release和wince下，也不会有上述问题，因为这几种环境下isspace的实现跟上面不一样。

    问题找到了，剩下的就看怎么解决了。
    首先用用一个最简单的方法，既然问题发生在转型上，只要把char的默认类型改为unsigned char就可以了，vc也提供了这个选项。但这有几个问题，一是别人用我的代码的时候还得修改编译选项，二是修改了整个工程的编译选项可能会对其它代码产生不好的影响。
    既然上面的方法不大好操作，那就再想想别的方法。经观察发现，isspace函数中靠__locale_changed变量控制流程走向，搜索整个crt的源代码，发现__locale_changed的值只有在setlocale函数中发生了改变。最后，我把代码修改成如下：

    #if defined(WIN32) && defined(_DEBUG)
    char* locale = setlocale( LC_ALL, ".OCP" );
    #endif
   char* lpszBuffer = (char*)"高";
   int nLen = (int)strlen(lpszBuffer);
   for( int i=0;i
   {
       printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
   }

    这样在debug版本上就不会再有问题，但是可能其中仍有隐患，等到具体碰到的时候再说吧。先把目前的工作继续下去。

posted on 2009-03-12 14:04 飘雪阅读(4652) 评论(5) 编辑收藏引用

Feedback

# re: vc 2005 sp1下isspace函数对中文处理有问题[未登录] 2009-03-13 17:39 foxriver

自己写一个isspace啊，十几行的事情，我一直不太相信vc crt string部分。回复更多评论

# re: vc 2005 sp1下isspace函数对中文处理有问题 2009-03-13 17:54 飘雪

@foxriver
自己写一个isspace啊，十几行的事情，我一直不太相信vc crt string部分

最终他给我的是一个静态库，在静态库里调用的isspace，没法自己写呀，只能绕过去回复更多评论

# re: vc 2005 sp1下isspace函数对中文处理有问题 2009-04-05 21:13 Dancefire

如果我没有理解错，你试图用locale为ASCII的isspace来判断GBK编码的空格，对么？如果我理解正确的话，那么这不是VC的问题，而是使用上的问题。

对于C++而言，应该使用isspace(ch, loc); 这个版本，loc是类型为std::locale的变量，如果你想判断GBK的空格，那么让loc是GBK的locale，然后这个函数就正常了。

你现在使用的是C的isspace(ch)函数，这个函数使用的是默认的全局locale，你把这个全局的设为GBK，也应该可以解决这个问题。总之调用locale为默认的ASCII的locale的isspace去判断编码为GBK的字串是否是空格，逻辑上不对。回复更多评论

# re: vc 2005 sp1下isspace函数对中文处理有问题 2010-10-27 10:07 leeeryan

@Dancefire
同意楼上，分析的很在理回复更多评论

# re: vc 2005 sp1下isspace函数对中文处理有问题[未登录] 2012-12-17 13:59 jack

我也遇到这个问题，输出“包”字符(0xfc)时，用isspace检查返回值为0x08，所以输出乱码。后来我使用iswspace就好了，程序中应该尽可能的使用宽字符函数回复更多评论

刷新评论列表

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！



网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

飘雪

常用链接

留言簿(3)

随笔分类(1)

随笔档案(31)

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

Feedback