#!/bin/bash name=$(curl google.com | grep "www\..*com") echo "domain name is" echo $name
re="http://([^/]+)/" if [[ $name =~ $re ]]; then echo ${BASH_REMATCH[1]}; fi
编辑 – OP要求解释语法。 Regular expression syntax是一个很大的话题,我无法在这里全面解释,但我会尝试解释足够的理解这个例子。
re="http://([^/]+)/"
这是存储在bash变量中的正则表达式,即 – 您希望输入字符串匹配,并希望提取一个子字符串。打破它:
> http://只是一个字符串 – 输入字符串必须包含正则表达式匹配的这个子字符串
> []通常使用方括号表示“匹配括号内的任何字符”。所以c [ao] t将匹配“猫”和“婴儿床”。 []中的^字符修改为“匹配除方括号内的任何字符”,因此在这种情况下,[^ /]将匹配除“/”之外的任何字符。
>方括号表达式只匹配一个字符。添加到最后它说“匹配1个或更多的前一个子表达式”。所以[^ /]匹配一个或多个所有字符的集合,不包括“/”。
>在子表达式周围放置()括号表示您要保存与该子表达式匹配的任何后续处理。如果您使用的语言支持此功能,它将提供一些检索这些子匹配的机制。对于bash,它是BASH_REMATCH数组。
>最后,我们对“/”进行完全匹配,以确保我们匹配完全限定域名的所有方式和以下“/”
接下来,我们必须根据正则表达式测试输入字符串,看看它是否匹配。我们可以使用bash条件来做到这一点:
if [[ $name =~ $re ]]; then echo ${BASH_REMATCH[1]} fi
在bash中,[[]]指定扩展条件测试,并且可以包含=〜bash正则表达式运算符。在这种情况下,我们测试输入字符串$ name是否与正则表达式$ re匹配。如果它匹配,那么由于正则表达式的构造,我们保证我们将有一个子匹配(从括号()),我们可以使用BASH_REMATCH数组访问它:
>该数组的元素0 $ {BASH_REMATCH [0]}将是正则表达式匹配的整个字符串,即“http://www.google.com/”。
>该数组的后续元素将是子匹配的后续结果。注意,您可以在正则表达式中有多个submatch() – BASH_REMATCH元素将按顺序对应于这些。所以在这种情况下,$ {BASH_REMATCH [1]}将包含“www.google.com”,我认为这是你想要的字符串。
请注意,BASH_REMATCH数组的内容只适用于上次使用正则表达式=〜operator的时候。所以如果你继续做更多的正则表达式匹配,你必须每次从这个数组保存你需要的内容。
这可能看起来像一个漫长的描述,但我真的掩盖了正则表达式的复杂性。他们可以是非常强大的,我相信体面的表现,但正则表达式语法是复杂的。正则表达式实现也有所不同,因此不同的语言将支持不同的功能,并且可能在语法上有微妙的差异。特别是正则表达式中的字符的转义可能是一个棘手的问题,特别是当这些字符在给定语言中具有其他不同的含义时。
请注意,不必在单独的行上设置$ re变量,而是在条件中引用此变量,您可以将正则表达式直接置于条件中。然而在bash 3.2,关于是否需要这种文字正则表达式的引号,这些规则被改变了。将正则表达式放在一个单独的变量中是一个简单的方法,这样就可以在所有支持=〜match运算符的bash版本中按预期运行。