我有几个不同语言的文件.我以为它们都是UTF-8编码,但现在我不太确定.有些角色看起来很好,有些则没有.有没有办法可以打破字符串并尝试识别字符集?也许在白色空间上拆分然后识别每个单词?最后,是否有一种简单的方法可以将字符从一组转换为UTF-8?
解决方法
如果你不确定字符集肯定你只能猜测,基本上.
utf8::valid可能会帮助你,但你无法确切知道.如果你知道如果它不是unicode,它必须是一个特定的字符集(如Latin-1),你很幸运.如果你不知道,你就搞砸了.在任何情况下,除非另有说明,否则应始终假设整个文件都在相同的字符集中.如果你不这样做,你将失去理智.
至于你的问题如何在字符集之间进行转换:Encode是为你做的