在SAS中使用PROC SQL查找与给定字符串最多一个字母的字符串

首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等).

我发现几个条目有两个以上的字符错误,所以代码

Name like "__ssachusetts" OR Name like "_a_sachusetts" OR ... OR Name like "Massachuset__"

将选择我正在寻找的条目.但是,我希望写一个更方便的方法

Name that differs by at most 2 characters from "Massachusetts";

在那儿?还是还有其他一些提取这些条目的策略?我尝试搜索stackoverflow和web,但是不成功.我也是sql和SAS的初学者.

一些额外的信息:数据库不是英文(实际的字符串不是“马萨诸塞州”),所以使用SOUNDEX是不是真的可行(如果有的话).

提前致谢.

(编辑:改进标题)

解决方法

SAS内置函数 COMPGEDCOMPLEV来计算字符串之间的距离.下面是一个示例,显示如何仅选择Levenshtein编辑距离小于或等于2的那些.
data typo;
input name $20.;
datalines;
massachusetts
masachusets
mssachusetts
nassachusets
nassachussets
massachusett
;

proc sql;
  select name from typo
  where complev(name,"massachusetts") <= 2;
quit;

相关文章

(一)日志传送架构 (1.1)相关服务器 主服务器 :用于生产的服务器,上面运行这生产SQL Server数据库...
(一)事故背景 最近在SQL Server 2012生产数据库上配置完事物复制(发布订阅)后,生产数据库业务出现了...
(一)测试目的 目前公司使用的SQL SERVER 2012高可用环境为主备模式,其中主库可执行读写操作,备库既...
(一)背景个人在使用sql server时,用到了sql server的发布订阅来做主从同步,类似MySQL的异步复制。在...
UNION和OR谓词 找出 product 和 product2 中售价高于 500 的商品的基本信息. select * from product wh...
datawhale组队学习task03