String |_ AlphabeticString |_ CountryName |_ CityName |_ AlphaNumericString |_ PrefixedNumericString |_ NumericString
最终像西班牙这样的字符串应该被归类为CountryName,或者UE4564将被归类为PrefixedNumericString.
但是我不确定如何建模这些知识.我是否必须首先定义一个字符是字母,数字等,然后从现有字符构造一个单词,还是有办法使用正则表达式?到目前为止,我只设法根据像String和hasString值“UE4565”这样的精确短语对字符串进行分类.
或者,为本体中的每个类保护正则表达式然后使用这些正则表达式在Java中对字符串进行分类会更好吗?
利用这种方法的过程概述可能是:
>定义一个可以从每个字符串中提取的功能集,与您的本体相关(下面的一些示例).
>收集字符串的“训练集”及其真正的匹配类别.
>从每个字符串中提取要素,并在此数据上训练一些机器学习算法.
>使用训练的模型对新字符串进行分类.
>根据需要重新训练或更新模型(例如,添加新类别时).
为了更具体地说明,这里有一些基于您的本体示例的建议.
一些可能适用的布尔特征:字符串是否匹配正则表达式(例如Qtax建议的那些);该字符串是否存在于预先构建的已知城市名称列表中;它是否存在于已知的国家/地区名称列表中;大写字母的存在;字符串长度(不是布尔值)等
因此,例如,如果您总共有8个特征:匹配上面提到的4个正则表达式;这里建议的附加4,然后“西班牙”将表示为(1,1,5)(匹配前2个正则表达式但不是最后两个,是城市名称,但不是国家名称,大写字母和长度是5).
这组功能将代表任何给定的字符串.
为了训练和测试机器学习算法,你可以使用WEKA.我将从基于规则或树的算法开始,例如PART,RIDOR,JRIP或J48.
然后,可以通过Weka从Java内部或作为外部命令行使用经过训练的模型.
显然,我建议的功能几乎与您的Ontology 1:1相匹配,但假设您的分类法更大更复杂,这种方法可能是成本效益最好的方法之一.