对于我的工作,我必须找到生物医学研究和工业领域的潜在客户.
我使用模块biopython编写了一些非常方便的程序,它有一个很好的界面来搜索NCBI.我还使用了clinical_trials模块来搜索clinicaltrials.gov.
解决方法
您可以使用任何
XML解析工具(例如lxml python模块)至少解析USPTO.
有一篇关于Gabe Fierro这样做的好文章,可在这里找到:Extracting and Formatting Patent Data from USPTO XML(没有付费墙)
Gabe还参与了关于这一点here on this google group的一些有用的讨论.
最后,如果您知道要查找的内容并拥有足够的磁盘空间,您还可以将批量数据存储在本地以进行处理. USPTO批量下载here.
有任何更具体的问题,请告诉我!我之前试过这个地方:)
此外,Google专利搜索API已被弃用,但您现在可以使用网址标记通过主要Google搜索API进行相同的搜索(我没有方便,但您可以通过Google专利搜索找到它们,这些搜索将会被回复通过google.com).
更新:现在在家,你想使用谷歌自定义搜索API进行专利检索的标志是& tbm = pts – 请注意谷歌自定义搜索引擎并获取相同的代码对于专利检索非常有利,因为JSON交付有一个很好的数据结构与专利特定领域.
示例代码:
import requests import urllib import time import json access_token = <get yours by signing up for google custom search engine api> cse_id = <get yours by signing up for google custom search engine api> # Build url start=1 search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/" # &tbm=pts sets you on the patent search url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text) response = requests.get(url) response.json() f = open('Sample_patent_data'+str(int(time.time()))+'.txt','w') f.write(json.dumps(response.json(),indent=4)) f.close()
这将(一旦您添加免费的API访问信息)获取Altera拥有的前十项专利(作为示例)并将生成的JSON保存到文本文件中.拉出您最喜欢的Web JSON编辑器,看看JSON文件.特别推荐查看[‘items’] []和sub [‘pagemap’].只需解析此JSON,您就可以获得标题,缩略图,片段,标题,链接,甚至引用(相关时).