On March 1,he was born.
把它改成
He was born on March 1.
没有打破句子的意义,它仍然有效.以任何其他方式改组单词会对无效句子产生怪异.所以基本上,我说的是句子的一部分,它使信息更具体,但删除它们并不会破坏整个句子.是否有任何NLP库可以识别这些部件?
解决方法
听起来你想要识别句子的constituents,它们是根据语言的语法作为单个单元运行的单词组.
事实上,当语言学试图发现一种语言的语法时,他们部分地通过查看movement来做到这一点.在你的例子中,这是一组单词可以移动到句子中的不同位置同时仍然保留意义的地方这句话.
成分可以是单个单词,短语,甚至更大的组,如整个条款.在一个句子中,它们具有嵌套的层次结构.例如,您给出的第一个例句可以分析为:
(S (PP (IN On) (NP (NNP March) (CD 1))) (NP (PRP he)) (VP (VBD was) (VP (VBN born))))
整个句子由prepositional phrase组成,后跟noun phrase,然后是verb phrase.介词短语可以进一步分解为由单个单词“On”后跟名词短语组成的单元.
短语结构解析器
要自动查找成分,您可能需要使用短语结构解析器.有很多这样的解析可供选择,可以作为开源使用,包括:
> Stanford Parser(Java)
> Berkeley Parser(Java)
> BLLIP (Charniak-Johnson) Parser(C)
> Bikel Parser(这是用Java编写的Collins解析器的重新实现和改进版本)
> Collins Parser(C)
> OpenNLP Parser(Java)
> SharpNLP Parser(C#)
斯坦福和伯克利解析器可能是最容易安装和使用的解析器.如Cer et al. 2010所示,最准确的解析器是Berkeley和Charniak. Bikel解析器比其他解析器更慢且更不准确.
在线演示
有一个斯坦福解析器here的在线演示.我使用该演示来生成上面给出的例句的解析.
关于删除的注意事项
在每个成分中,将有一个head word.例如,取名词短语:
(NP(DT The)(JJ大)(JJ蓝)(NN球))
这里的首字是名词球,它由形容词大和蓝修改.如果这个名词短语嵌入在一个句子中,你可以删除那些修饰语,并且仍然具有与原始句子的含义一致但不太具体的内容.
在名词短语中,您通常可以删除形容词,非头部的名词和嵌套的介词短语.
在动词短语和完整条款中,事情变得更加棘手,因为删除作为动词参数的服务器可以完全改变句子的解释.例如,从他卖掉吉姆这本书中删除这本书导致他卖掉吉姆.