31

微信群聊不是法外之地:用通知滤盒降低敏感词「炸群」风险

 3 years ago
source link: https://sspai.com/post/60536
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

互联网群组建立者、管理者应当履行群组管理责任,依据法律法规、用户协议和平台公约,规范群组网络行为和信息发布。互联网群组成员在参与群组信息交流时,应当遵守法律法规,文明互动、理性表达。

——《互联网群组信息服务管理规定》

虽然几乎没有门槛的 Matrix 作者微信群方便了大家「头脑风暴」,但活泼跳跃的讨论氛围另一方面也带来了危险。所谓「群员试探群主负责」,为了让 Matrix 作者群远离「炸群」,@路中南同学常常需要第一时间空降群内维护秩序。

如何针对聊天内容每天数以百计的群聊进行管理呢?内心狂吼「太南」的同时,路中南同学心里渐渐萌生了一个新的解决方案:

如果微信能够针对某些敏感词弹出提醒就好了。

分析需求,理清思路

指望微信实现这类功能虽然不太可行,好在 Android 平台足够强大,我们完全不至于束手无策——既然路中南同学想要针对性的通知服务,那我们不妨也直接从通知管理入手。

少数派曾经介绍过通知滤盒 这款应用,它利用了 Android 上系统「读取通知」权限,可以根据用户设置的关键词对通知进行消除和静音处理,以避免「垃圾」通知影响使用体验。

虽然核心理念是通知「断舍离」,为了应对多样的通知管理需要,通知滤盒也内建了一套基于正则表达式匹配的通知过滤功能:利用正则表达式中的多条规则对通知进行复杂匹配,查找通知内容中符合条件的关键字,然后对特定通知进行屏蔽。

这种正则表达式看着像是猫咪踩过键盘而打出的一堆乱码,实际上我们可以将它看作是用特定符代替某一类字符、用多条规则执行查找关键字任务的「一句话编程」。

正则表达式的「元字符」、语法、匹配、运算等基本规则以及通知滤盒的使用方法本文不再赘述,感兴趣的读者请自行搜索学习。

具体而言,针对文章开头提到的需求:

  • 首先我们要明确通知滤盒的 过滤范围 仅仅是「少数派 Matrix 作者群」,不能影响私聊和其他群组
  • 其次就是通知含有敏感词时才提醒,其他情况保持静默

分析需求后我们可以整理出如下图示:

au6JFji.png!web

而在构建正则表达式之前我们首先要知道,通知滤盒将通知的标题(android.title)和内容(android.text)看作是 同一个字符串 ,所以我们才能够用一句正则表达式完成匹配工作。

Iveaaiu.png!web 标题和内容解析后成为同一个字符串

正则表达式语法并不困难,正如开篇所说,它就是「一句话编程」。不过既然是编程,那肯定是需要一定的逻辑思维。我们先整理一下思路:

MBVnmub.png!web

不过在解决路中南同学的需求时,如果按照这种思路构造正则表达式那可就错了——因为通知滤盒对通知的管理思路是「屏蔽匹配」的通知,而正则表达式的作用是「提示匹配」, 两者恰好相反

所以我们要转换一下思路,实际的规则应该是这样子:

3EjUVvE.png!web

这条思路就站在了通知滤盒的角度,使其能够 过滤特定群聊、屏蔽不含敏感词的通知、放行包含敏感词的通知

至此,我们现在可以开始构建真正的正则表达式了。

开始构建正则

在正则表达式中,除了已经具有特定含义的「元字符」以外,其他字符(例如字母、数字)都会匹配它们自己,因此使用群名 「少数派 Matrix 作者群」 来匹配它自身的字符串即可。

而对于通知内容,正则表达式并不能直接实现「不包含」匹配,不过可以利用 「零宽断言」 (也叫预查、环视)语法曲线救国。在这里,我们使用其中的 「负先行断言」 语法执行「不包含敏感词」匹配任务,即:

<code>少数派 Matrix 作者群(?!敏感词)</code><code>// 该表达式仅作语法说明使用</code>

该语法会匹配后面没有「敏感词」的「少数派 Matrix 作者群」。这就完成了吗?当然不是,举个例子,用该表达式分别尝试匹配这两个示例:

3QVj6vV.png!web 使用 regex101 测试,示例 <2> 被匹配,通知被屏蔽

如果按照原先设想,这两个字符串都应该因为包含「敏感词」而匹配失败(即通知被放行),但为什么示例 <2> 会提示匹配成功呢?原因是正则表达式有一定的 运算规则 ,导致该表达式 只认可「群」字后面的第一个位置 没有「敏感词」字符(串),故匹配成功。

yiIJRjY.png!web 「群」字后第一个位置没有匹配「不包含」语法,匹配成功,通知被屏蔽

但实际上,敏感词可能会出现句子中的任何位置,换句话说,敏感词的前后位置可能会出现 任意字符 ,每个字符可能会出现 零次或多次 ,所以我们要添加通配符 「.」 和限定符 「*」

<code>少数派 Matrix 作者群(?!.*敏感词)</code><code>// 表示「敏感词」左边可以出现任意字符零次或多次</code>

实际上,我们只需要在「敏感词」左边添加「.*」符号即可,因为我们匹配到敏感词就足够了,无需关心右边是否还有内容。

进阶正则表达式

上面的正则表达式已经可以实现路中南同学的需求了,但假如路中南同学升职了,承担起 10 个、20 个甚至更多少数派群聊的管理责任怎么办,难道要录入几十条正则表达式?

其实我们也可以利用正则表达式实现「群名包含少数派」功能。

方法一:简单粗暴的通配符方式

与刚才的思路很相近,既然「少数派」三个字有可能出现在任意位置,那我们也使用通配符就好了。

.*少数派(?!.*敏感词)

不过这一次,我们只在「少数派」左边添加通配符的理由相对烧脑一点,具体原因涉及到零宽断言匹配顺序以及「贪婪」模式,感兴趣的读者可以自行搜索学习。

方法二:需要动脑筋的零宽断言

零宽断言语法也可以实现「包含」匹配,当然可以实现。我们在这里使用 「正先行断言」

<code>(?=少数派)(?!.*敏感词)</code><code>// 注意使用括号进行分组和优先级分配</code>

该表达式可以匹配到右边不包含「敏感词」的「少数派」字符串。

qARvAnA.png!web 方式二匹配到了空字符(下图红色竖线处)

细化进阶用法

实际生活中,路中南同学需要关注的敏感词可不止一个,我们可以使用 「|」 符号来实现 「或」 的功能:

<code>.*少数派(?!.*(敏感词A|敏感词B|敏感词C))</code><code>(?=少数派)(?!.*(敏感词A|敏感词B|敏感词C))</code><code>// 注意使用括号进行分组和优先级分配</code><code>// 该方式未进行严格匹配,因此会匹配到空字符</code>

在正则表达式中,通配符 「.」不会匹配换行符 ,这有可能导致正则失效。为了避免无法匹配通知里存在换行符而敏感词恰好出现在换行符之后的情况,我们也可以使用「或」操作,将「.*」补充为「.*|\n」,这样换行符就能被识别到。如果你已经了解了正则表达式,你还可以利用分组和调用的语法,让正则表达式更加简洁。

除此之外,使用位置限定符 「^」「$」 并根据语法与其他元符号组合,实现开头、结尾或整个字符串的严格匹配,能够让正则表达式及其返回结果更加规范、可读性更强:

<code>^.*少数派(?!.*(敏感词A|敏感词B|敏感词C)).*$</code><code>^.*(?=少数派)(?!.*(敏感词A|敏感词B|敏感词C)).*$</code><code>// 此时通配符是必要的,具体原因可以参考位置限定符的作用</code>
RZzqEbn.png!web 相对完善的正则表达式

不过在解决路中南同学的需求时,我们只需要表达式返回「true」或者「false」给通知滤盒以屏蔽或放行通知,不要求表达式返回匹配内容,因此新手可以不做严格匹配。当然我们更建议大家养成良好的书写习惯,尽可能完善代码。

关于 匹配成功却看不到返回结果 :在正则表达式的世界里,每一个字符前面都有一个用来表示位置的「空字符」(是什么都没有而不是空格),某些表达式(例如没有要求严格匹配)会匹配到这些空字符。因此我们在测试上述表达式时,可能会提示匹配成功,却看不到匹配了什么字符。

更高级却更简单的 JSON

除了正则表达式,通知滤盒还提供了 JSON 语法匹配 。虽然 JSON 匹配在 App 里被称为「高级匹配功能」,不过借助帮助文档中给出的 JSON 模板,我们实现路中南同学的需求反而更加轻松——因为我们不用再思考如何将多个匹配规则嵌套成一条表达式了。

通知滤盒的 JSON 模板大致分为三部分:匹配模式、匹配字段、正则表达式。具体使用方法可以参考 通知滤盒帮助文档 。简言之,我们在通知滤盒中找到需要匹配的字段,并填充针对该字段的正则表达式,同时在开头声明这些表达式的与、或、非关系就可以了。

<code>{</code><code>  "match": "ALL",</code><code>  "node": [</code><code>    {</code><code>      "field": "android.title",</code><code>      "regex": "少数派"</code><code>    },</code><code>    {</code><code>      "field": "android.text",</code><code>      "regex": "^(?!.*(敏感词A|敏感词B|敏感词C)).*$"</code><code>       // 针对本文案例,此处需要严格匹配</code><code>    }</code><code>    ]</code><code>}</code>

小结

这种方式仍有一定弊端,那就是如果群聊内容过长(例如 Matrix 群讨论),微信通知可能会折叠后面的内容,此时通知滤盒便无能为力了。不过即便如此,这种方法仍然能提醒路中南同学及时维护日常群聊的秩序。

借助开放的 Android 平台,通知滤盒可以实现非常强大的通知管理功能,尤其是配合正则表达式和 JSON 后可以针对不同类型、不同内容的通知进行细化管理,除了刚才说的对关键字进行提醒,也可以屏蔽好友砍价、微商广告,或是像帮助文件中那样屏蔽播放控件广告等等。其实我们很多需求不必苦苦等待着更「傻瓜」的方式出现,借助现有工具,动动脑筋,说不定你就是下一个开发者。

你可以在 酷安 和  Play 商店 下载通知滤盒。

本文所述方法和规则可能存在纰漏,如果你有更完善的解决方法,欢迎在评论区分享。

关联阅读: App+1 | 解决 Android 通知管理难题,用正则表达式过滤无关推送:通知滤盒

> 下载少数派客户端、关注少数派公众号,发现更多实用 Android 应用玩法 :eyes:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK