8

JCJC错别字检测系统测试说明

 2 years ago
source link: https://blog.csdn.net/accesine960/article/details/119989070
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

如果你的工作跟文本校对纠错相关,每天要检查文档中的错别字,那么本文正好涉及这个主题,本文会向你介绍一点JCJC在这方面的工作。

JCJC中文错别字检测系统的定位

JCJC中文错别字检测系统目前还不能做到 100% 替代人工审核,目前的定于属于:辅助检测

目前JCJC错别字检测系统从核心原理上是:采用概率计算的方式进行错别字识别,根据概率计算的结果分为五级:

  1.  第一级、第二级、第三级:为错误级别,错误严重程度依次递减;
  2.  第四级、第五级:为句子通顺检查级别;

当您使用软件对文章进行错别字检测的时候,一般会有以下三种情况:

  1. 正确识别错别字;
  2. 误报:把原本正确的文字标识为错别字;
  3. 漏报:把原本错误的文字没有识别并标识;

误报与漏报

引起误报和漏报的原因较复杂,这是中文错别字软件面临的一个难题,一些典型的原因如下:

  • 行业词汇:主要是指专业名词,国外名词翻译标准未统一;
  • 缩略语:各行业为了简化表示一类词语而约定俗称的一些缩略表达;
  • 中文的特点导致的识别困难;
  • 不同语境中的灵活表达,由于算法策略疏漏导致的识别困难;

目前JCJC错别字检测系统中包含约:3500万词汇,并且针对提供了自定义接口,自定义接口包含两类情况:

  • 白名单:当出现误报的时候,把误报的词语作为白名单输入;
  • 黑名单:当出现漏报的时候,把漏报的词语作为黑名单输入;

JCJC错别字检测系统一直在不断升级,提升误报、漏报的识别水平。

如何提高错别字检测系统的检测效果

JCJC错别字检测系统目前定位于:辅助检测,无法完全替代人工。为了给用户更好的检测体验,可以从以下几个方面着手改进:

  1.  产品层面
    1.  JCJC错别字检测系统提供的接口API中返回了与错别字相关的:位置、错误级别、建议词 等信息, 可以利用这些字段在用户界面UI 中进行提示,告知用户识别的状态;
    2.  第四级、第五级是通顺检测级别,此类信息应当明确告知用户,或者在 前端界面UI 显示时予以忽略;( 由用户决定是否显示 )
  2.  技术层面
    1. JCJC错别字检测系统,是一套适用于各行业的、独立于业务的错别字检测系统。在实际应用中,各个行业由自己的检测需求和文字特点,可以有技术人员根据JCJC错别字检测接口API进行定制化,以适应业务需求。
  3. 运营层面
    1.  针对客户的业务需求,发现客户业务特点,比如:新增的词语

综上:为了给最终用户提供更好的文本纠错体验,需要产品技术运营以及JCJC错别字检测系统各方的努力才能达成。


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK