原来的字符串是
HANDICAP╔ES
这应该是
HANDICAPÉES
这是一个代码片段,显示了如何使用jackcess数据库驱动程序在Eclipse / Linux环境中读入Acccess MDB文件.
Database database = Database.open(new File(filepath)); Table table = database.getTable(tableName,true); Iterator rowIter = table.iterator(); while (rowIter.hasNext()) { Map<String,Object> row = this.rowIter.next(); // convert fields to UTF Map<String,Object> rowUTF = new HashMap<String,Object>(); try { for (String key : row.keySet()) { Object o = row.get(key); if (o != null) { String valueCP850 = o.toString(); // String nameUTF8 = new String(valueCP850.getBytes("CP850"),"UTF8"); // does not work! String valueISO = new String(valueCP850.getBytes("CP850"),"ISO-8859-1"); String valueUTF8 = new String(valueISO.getBytes(),"UTF-8"); // works! rowUTF.put(key,valueUTF8); } } } catch (UnsupportedEncodingException e) { System.err.println("Encoding exception: " + e); } }
在代码中,您将看到我要直接转换为UTF8的位置,这似乎不起作用,所以我必须进行双重转换.另请注意,使用jackcess驱动程序时,似乎没有办法指定编码类型.
谢谢,
凸轮
解决方法
看起来你的问题是文本编码之前存储在Access数据库中.它似乎已被编码为ISO-8859-1或Windows-1252,但解码为cp850,导致字符串HANDICAP╔ES存储在数据库中.
正确地从数据库中检索到该字符串,您现在正在尝试反转原始的编码错误并恢复字符串,因为它应该存储:HANDICAPÉES.你正在用这条线来完成:
String valueISO = new String(valueCP850.getBytes("CP850"),"ISO-8859-1");
getBytes(“CP850”)将字符)转换为字节值0xC9,String构造函数根据ISO-8859-1进行解码,从而导致字符É.下一行:
String valueUTF8 = new String(valueISO.getBytes(),"UTF-8");
…什么也没做. getBytes()将编码平台默认编码的字符串,即Linux系统上的UTF-8.然后String构造函数使用相同的编码进行解码.删除该行,您应该仍然得到相同的结果.
更重要的是,您尝试创建“UTF-8字符串”被误导了.您不需要关心Java字符串的编码 – 它们始终是UTF-16.将文本带入Java应用程序时,您只需确保使用正确的编码对其进行解码.
如果我的分析是正确的,您的访问驱动程序正确解码它;问题在另一端,可能在DB甚至进入图片之前.这就是您需要修复的问题,因为在所有情况下,新的String(getBytes())都不能被视为工作.
原始分析,根据没有信息. : – /
如果您在控制台上看到HANDICAP╔ES,可能没有问题.给出这个代码:
System.out.println("HANDICAPÉES");
JVM将(Unicode)字符串转换为平台默认编码,Windows-1252,然后将其发送到控制台.然后控制台解码使用自己的默认编码,恰好是cp850.所以控制台显示错误,但这是正常现象.如果要使其正确显示,可以使用以下命令更改控制台的编码:
CHCP 1252
要在GUI元素(如JLabel)中显示字符串,您不需要做任何特殊的操作.只需确保您使用可以显示所有字符的字体,但这不应该是法语的问题.
至于写入文件时,只需在创建Writer时指定所需的编码:
OutputStreamWriter osw = new OutputStreamWriter( new FileOutputStream("myFile.txt"),"UTF-8");