如何在大量文本中高效的匹配出字符串？

v2zero · 7 小时 32 分钟前 · 860 次点击

我不是专业做技术的，因此会有很多技术盲区，碰到棘手问题也不知如何自行寻找解决方案，因此提问，感谢诸位。

需求背景是这样的：

在数百万的网页 html 源代码里面，寻找出包含某个特定字符串（或匹配某条正则）的网页，输出其 URL 信息。

由于是数据分析用途，需要很频繁的为了突发的需求而多次运行。

目前的解决方案是这样的：

数据存在 MongoDB 里面（ zstd 压缩），匹配的时候使用 Python 直接遍历出所有网页，再通过 Python 内置的方法（ in 条件或者 re ）来进行判断。

如果仅使用 in 条件，目前每秒平均能匹配 4000 多个网页，百万的网页全部运行一次需要十多分钟，比较费力。此外，已经配置了阿里云 ECS 的对应容量下可选的最高速度的 SSD 。

尝试过的其它方案有：

使用 ElasticSearch 来建立全文索引。但发现在占用了大量额外硬盘空间的代价下，需要全量导出匹配结果时候的效率仍然很低下，或许是 ES 仅在匹配 top n 结果的时候才是高效的？又或只是我哪里没做对？

也尝试过 MongoDB 取消压缩，发现速度变更慢了，或许瓶颈是在硬盘 IO 不是在 CPU 上面？

Recommend