delphi – 带有TEncoding.UTF8的TFile.ReadAllText省略了前3个字符

我有一个以这行开头的UTF-8文本文件: @H_502_2@<HEAD><Meta name=GENERATOR content="MSHTML 10.00.9200.16521"><body>

当我使用带有TEncoding.UTF8的TFile.ReadAllText读取此文件时:

@H_502_2@MyStr := TFile.ReadAllText(ThisFileNamePath,TEncoding.UTF8);

然后省略文本文件的前3个字符,因此MyStr导致:

@H_502_2@'AD><Meta name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...'

但是,当我使用没有TEncoding.UTF8的TFile.ReadAllText读取此文件时:

@H_502_2@MyStr := TFile.ReadAllText(ThisFileNamePath);

然后完整正确地读取文件

@H_502_2@<HEAD><Meta name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...

TFile.ReadAllText有bug吗?

解决方法

跳过前三个字节,因为RTL代码假定该文件包含UTF-8 BOM.显然你的文件没有.

TUTF8Encoding类实现了一个指定UTF-8 BOM的GetPreamble方法.并且ReadAllBytes会跳过您传递的编码指定的前导码.

一个简单的解决方案是将文件读入字节数组,然后使用TEncoding.UTF8.GetString将其解码为字符串.

@H_502_2@var Bytes: TBytes; Str: string; .... Bytes := TFile.ReadAllBytes(FileName); Str := TEncoding.UTF8.GetString(Bytes);

更全面的替代方案是使TEncoding实例忽略UTF-8 BOM.

@H_502_2@type TUTF8EncodingWithoutBOM = class(TUTF8Encoding) public function Clone: TEncoding; override; function GetPreamble: TBytes; override; end; function TUTF8EncodingWithoutBOM.Clone: TEncoding; begin Result := TUTF8EncodingWithoutBOM.Create; end; function TUTF8EncodingWithoutBOM.GetPreamble: TBytes; begin Result := nil; end;

实例化其中一个(每个进程只需要一个实例)并将其传递给TFile.ReadAllText.

使用TUTF8EncodingWithoutBOM的单例实例的优点是,您可以在任何需要TEncoding的地方使用它.

相关文章

ffmpeg 是一套强大的开源的多媒体库 一般都是用 c/c++ 调用, 抽空研究了一下该库的最新版 ,把...
32位CPU所含有的寄存器有:4个数据寄存器(EAX、EBX、ECX和EDX)2个变址和指针寄存器(ESI和EDI) 2个指针寄...
1 mov dst, src dst是目的操作数,src是源操作数,指令实现的功能是:将源操作数送到目的操作数中,即:...
有三个API函数可以运行可执行文件WinExec、ShellExecute和CreateProcess。 1.CreateProcess因为使用复杂...
API原型: Declare Function MoveFileEx& Lib "kernel32" Alias "MoveFileExA" (By...