我在我的应用程序中使用此代码.刚发现比较韩国时不正确
for (NSString *lang in array){ NSString *currentLang = [[MLLanguage sharedInstance] lang]; BOOL flag = [lang isEqualToString:currentLang]; NSLog(@"\n'%@' isEqual to '%@',%d\n%@\n%@",lang,currentLang,flag?1:0,[lang dataUsingEncoding:NSUTF8StringEncoding],[currentLang dataUsingEncoding:NSUTF8StringEncoding]);
错误的结果:两个韩语单词比较不同
2012-06-19 21:16:52.681 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50] 'English' isEqual to '한국어',0 <456e676c 697368> <ed959cea b5adec96 b4> 2012-06-19 21:16:52.682 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50] '한국어' isEqual to '한국어',0 <e18492e1 85a1e186 abe18480 e185aee1 86a8e184 8be185a5> <ed959cea b5adec96 b4> 2012-06-19 21:16:52.682 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50] '中国语' isEqual to '한국어',0 <e4b8ade5 9bbde8af ad> <ed959cea b5adec96 b4>
正确一个:
2012-06-19 21:35:00.908 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50] 'English' isEqual to '中国语',0 <456e676c 697368> <e4b8ade5 9bbde8af ad> 2012-06-19 21:35:00.909 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50] '한국어' isEqual to '中国语',0 <e18492e1 85a1e186 abe18480 e185aee1 86a8e184 8be185a5> <e4b8ade5 9bbde8af ad> 2012-06-19 21:35:00.909 Motilink[10188:11903] -[MLSettingLanguageViewController loadDownloadedData][Line 50] '中国语' isEqual to '中国语',1 <e4b8ade5 9bbde8af ad> <e4b8ade5 9bbde8af ad>
看来:NSString自己使用编码,
英语只使用像ascii一样的7字节
中文使用9字节也许utf8
但在韩国,它出现两种不同的结果,
有谁知道这个
解决方法
这里的问题是你比较非规范化的字符串.在Unicode中,您可以直接使用字符,也可以从其他字符组成字符.例如,在德语中,有一个字符“ä”,它可以用代码点“ä”表示,也可以用“¨”和“a”的代码点序列表示.
你在这里遇到与韩语字符串相同的问题:虽然它们在输出中看起来相同,但其中一个被分解(这导致更长的UTF-8数据表示)而另一个则没有.
解决此问题的一种方法是使用标准化所有字符串
– [NSString precomposedStringWithCanonicalMapping]:
BOOL flag = [[lang precomposedStringWithCanonicalMapping] isEqualToString: [currentLang precomposedStringWithCanonicalMapping]];