java – 读取文件和写入文件,其中包含UTF – 8(不同语言)的字符

我有一个文件,其中包含如下字符:“Joh 1:1ஆதியிலேஆதியிலே்த்தைதை்தது,அந்ததவாரதததைதைதைதைதைதைதைதேவனிடதததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுததுதது”“”“”“”“”“

www.unicode.org/charts/PDF/U0B80.pdf

当我使用以下代码时:

bufferedWriter = new BufferedWriter (new OutputStreamWriter(System.out,"UTF8"));

输出是框和其他奇怪的字符,如下所示:

“P = O֛;<一条Yՠ;”

有人可以帮忙吗?

这些是完整的代码

File f=new File("E:\\bible.docx");
        Reader decoded=new InputStreamReader(new FileInputStream(f),StandardCharsets.UTF_8);
        bufferedWriter = new BufferedWriter (new OutputStreamWriter(System.out,StandardCharsets.UTF_8));
        char[] buffer = new char[1024];
        int n;
        StringBuilder build=new StringBuilder();
        while(true){
            n=decoded.read(buffer);
            if(n<0){break;}
            build.append(buffer,n);
            bufferedWriter.write(buffer);
        }

StringBuilder值显示UTF字符,但在窗口中显示时,它显示为框.

找到问题的答案!!!
编码是正确的(即UTF-8)Java将文件读取为UTF-8,字符串字符为UTF-8,问题是在netbeans的输出面板中没有字体显示它.更改输出面板的字体(Netbeans-> tools-> options-> misc->输出选项卡)后,我得到了预期的结果.当它在JTextArea中显示时(需要更改字体),同样适用.但我们无法更改windows’cmd提示字体.

解决方法

因为您的输出以UTF-8编码,但仍包含替换字符(U FFFD,),我相信当您读取数据时会出现问题.

确保您知道输入流使用的编码,并根据InputStreamReader设置编码.如果那是泰米尔语,我猜它可能是UTF-8.我不知道Java是否支持TACE-16.它看起来像这样……

StringBuilder buffer = new StringBuilder();
try (InputStream encoded = ...) {
  Reader decoded = new InputStreamReader(encoded,StandardCharsets.UTF_8);
  char[] buffer = new char[1024];
  while (true) {
    int n = decoded.read(buffer);
    if (n < 0)
      break;
    buffer.append(buffer,n);
  }
}
String verse = buffer.toString();

相关文章

ArrayList简介:ArrayList 的底层是数组队列,相当于动态数组。与 Java 中的数组相比,它的容量能动态增...
一、进程与线程 进程:是代码在数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位。 线程...
本文为博客园作者所写:&#160;一寸HUI,个人博客地址:https://www.cnblogs.com/zsql/ 简单的一个类...
#############java面向对象详解#############1、面向对象基本概念2、类与对象3、类和对象的定义格式4、...
一、什么是异常? 异常就是有异于常态,和正常情况不一样,有错误出错。在java中,阻止当前方法或作用域...
Collection接口 Collection接口 Collection接口 Collection是最基本的集合接口,一个Collection代表一组...