

口语写作好帮手:两个语料查询网站
source link: https://sspai.com/post/71962
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Matrix 首页推荐
Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。
文章代表作者个人观点,少数派仅对标题和排版略作修改。
平时和英语口语写作打交道,常会遇到这种情况:想知道某个搭配地不地道、某个说法怎么讲,而词典上查不到。因为,一则词典毕竟收词有限,二则,多数词典全文索引不大便利。
这时就得求救于索引范围更大的在线语料库了。这类服务网上有不少,这几年用下来,有两个我最觉得最顺手:Ludwig,Linggle。
Ludwig
全名 Ludwig.guru ,我认为它最大的优点,是语料来源全部精选过,靠谱,不用我再去筛选例句是哪里来的。而且查询结果列表,每个例句旁边就是来源,想细读一番上下文,顺手就能点开。
另一点不错的,是 Ludwig 的查询功能。语料丰富自不必提,毕竟是在线直接索引,不缺材料。更重要的是,Ludwig 查询语法做得全,这几个是我常用的:
第一种是,直接查询表达搭配。比如上面图中,我想知道 hawk their wares(卖货)有没有这个说法、语境又如何,直接一搜就有答案;
第二种是A vs B
语法,可以对比词频。如图:
可知 strong tea 是更稳妥的用法。
第三种是,查询可能的选词。比如,a xxx debate、there is no xxx answer to sth,英文都有哪些常用的选词呢?Ludwig 支持 *
语法来实现这一需求,输入 there is no * answer to sth
即可。如图:
可知常见搭配有 easy、right、simple、clear 等。
此外,搜索结果提供 exact 和 similar 两大类,一个表达,精确匹配没有时,similar 栏会自动前置,给出结构接近的表达,往往还蛮准,能省不少查询力气。
比如,我查 willing to be proven wrong on that 有无用例,语料中并没有精确匹配这几个词的,于是 Ludwig 给出了相近结果:
扫一眼几个条目可知:willing to be proven wrong 是可行搭配,虽没有 on that,但第二条来自经济学人的 on this 例句,说明 on that 搭配也是对的。
你看,有了相近索引的功能,搜索词不是百分百精准也没关系,Ludwig 会找出类似说法来供我参考。
最后,颜值高,好看也是生产力嘛~
Ludwig 是个付费服务,免费版有查询次数限制。我很喜欢 Ludwig,上次就选择续了两年。
常用的话,我感觉还是划算的。
Linggle
Linggle 的优势在于:
- 免费服务,不用注册登录,不用转发到微信群领加速礼包,打开网页,直接开搜。
- 出结果快,说是秒出也不为过,搜索框回车一敲,马上就能知道某个讲法有没有。
- 查询语法丰富,比如支持按词性搜索,如果我想知道 traffic jams 搭配的形容词都有哪些,Linggle 支持
adj. traffic jams
,精确筛选出形容词结果:
可以看到,有 huge、massive 等搭配,每个结果条目还标注了词频,点开能看详细例句,体贴到家。
其余搜索语法,比如搜近义词、可能的搭配选词、不同搭配词频对比等等,Linggle 也都支持;要是哪个语法格式不记得了,点一下顶上搜索框的红色问号,能看使用说明。
不过,Linggle 有一点我不大喜欢:语料来源标注不足。有的例句没标来源,有的来源又让人存疑,时不时有种「这靠不靠谱」的疑虑感。
当然,小瑕不掩大瑜,总的来说,Linggle 仍是相当出色。
这几年带写作翻译课,发现不少朋友都会经历这样一个阶段:下笔的每一个词,都觉得好像是错的,拿不准,非要查上一番才肯放心。
这并非坏事。相反,所谓 better to err on the side of caution,不确定的表达绝不出手,我觉得善莫大焉。
随着积累加深,这种一词一句都担惊受怕的阶段终会过去,但还身处其中时,Ludwig、Linggle 这样的服务,就是能让人安心的存在了。
> 下载少数派 客户端 、关注 少数派公众号 ,解锁全新阅读体验 📰
> 特惠、好用的硬件产品,尽在 少数派 sspai 官方店铺 🛒
Recommend
-
62
说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白...
-
19
机器翻译系统中,非平行数据的训练和解码一直是个挑战。不久前,今日头条和南京大学联合提出了基于镜像生成的 NMT,它是一个统一的体系结构,包含目标 - 源转换模型、源 - 目标转换模型和两个语言模型,翻译模型和语言模型在同一个隐语义...
-
6
SnowNLP 使用自定义语料进行模型训练2021-05-1930 17 min.SnowNLP 是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF
-
20
感谢小牛翻译团队的开源,项目地址:https://gi...
-
13
GB 规模语料上的高性能新词发现算法 分词是中文搜索的重要环节,目前分词算法已经比较成熟,分词错误的主要是由于未登录词。 因此发现业务领域语料库中的新词,减少未登录词,对改善搜索引擎的用户体验有重要意义。 新...
-
8
巧妇难为无米之炊 语料库(corpus)一词在语言学上意指大量的文本,是在语言的实际使用中真实出现过的语言材料,通常经过整理,具有既定格式与标记 事实上,语料库英文 “text corpus” 的涵意即为 “body of text”。
-
8
WordPress Hosting...
-
8
人类没有足够的高质量语料给AI学了,2026年就用尽,网友:大型人类文本生成项目启动! 2023-01-01 13:42:11 人工智能 要知道,这可是把人类...
-
5
开源书籍-《文言文(古文)- 现代文平行语料》 – 开源派 《文言文(古文)- 现代文平行语料》包含327本书籍。双语数据共包含97本书籍,其中包含句子级别对齐句子共...
-
4
免费的外语口语练习好帮手:星火语伴九种语言切换,实时口语纠错-品玩
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK