至少可以考虑使用3种类型的n-gram来表示文本文档:
>字节级n-gram
>字符级n-gram
>字级n-gram
我不清楚哪一个应该用于给定的任务(聚类,分类等).我在某处读到,当文字包含拼写错误时,字符级别的n-gram优于字级n-gram,因此“Mary loves dogs”仍然类似于“Mary lpves dogs”.
选择“正确”表示还有其他标准需要考虑吗?
解决方法
评估.选择表示的标准是任何有效的.
实际上,字符级别(!=字节,除非你只关心英语)可能是最常见的表示,因为它对于拼写差异很强大(如果你看历史记录,则不需要是错误;拼写更改).因此,对于拼写纠正目的,这很有效.
另一方面,Google Books n-gram查看器在其图书语料库中使用单词级别n-gram.因为他们不想分析拼写,而是长期使用术语;例如“儿童保育”,其中的单词并不像他们的组合那样有趣.这被证明在机器翻译中非常有用,通常被称为“冰箱磁铁模型”.
如果您不处理国际语言,字节也可能有意义.