熊猫语法

"熊猫语法"正式版发布

Tony 2025-04-14

我们非常高兴地宣布,“熊猫语法”正式版今日正式发布!经过团队数月来的精心打磨与测试,正式版在性能、稳定性及功能体验上均实现了显著提升,将为广大用户带来更高效、更流畅的使用体验。

版本亮点

✅ 核心功能增强:增加了长文本模式,响应更迅捷。
✅ 改进界面设计:采用简洁直观的UI布局,操作更符合用户习惯。
✅ 安全升级:强化数据加密机制,保障用户隐私与信息安全。
✅ 更多的测试:系统运行更加稳定。

特别鸣谢

感谢所有参与内测的用户提供的宝贵反馈,正是你们的支持让“熊猫语法”不断进步!

后续支持

我们将持续优化产品,如有问题或建议,欢迎通过hello@pess.ink与我们联系。


Beta测试(2025年2月)

Tony 2025-02-22

摘要:在本次测试中,我们在公开测试集上测试了“熊猫语法”(2025-2)的语法检查功能。作为对比,我们也对另外两种中文语法检查工具进行了测试。其中,第一种方法来自于互联网上的第三方语法检查工具;另一种方法基于DeepSeek公司的开发的大语言模型DeepSeekV3实现的语法检查功能。测试结果发现,“熊猫语法”(2025-2)的检查结果准确度与第三方工具接近,且二者明显优于基于DeepSeekV3直接指令的语法检查方法。

下面我们从测试数据、测试结果和测试结果分析几个方法来详细介绍此次评测。

测试数据

本次测试使用了“CCL 2022 汉语学习者文本纠错评测”的评测数据。汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。该评测共包含4个赛道,本测试使用了赛道一“中文拼写检查(Chinese Spelling Check)”的开发数据进行测试,共170个测试样例。该测试数据包含的错误复杂多样,部分具有较高检查难度。完整数据及介绍可以在https://github.com/blcuicall/CCL2022-CLTC/tree/main中找到。

测试结果

我们先展示测试结果,之后我们将对测试结果进行详细分析。

熊猫语法(PG) 第三方 DeepSeekV3*
准确率 73.53% 70.35% 65.88%

* 在测试中DeepSeekV3使用了下面的提示词:改正下面句子的语法错误,直接输出修改后的句子,如果没有错误输出NO

从测试结果可以看出,“熊猫语法”的准确性略高于第三方的语法检查工具,并且二者显著高于基于直接指令的DeepSeekV3的语法检查方法。

本次评测的计分标准较为严格,采用了与测试数据提供的参考结果进行直接比对的方法进行计分。(但与CCL 2022的官方评测标准在某些情况下可能存在区别。)任何不必要的修改都被认为是错误修改,甚至一些可以略微提升句子流畅度的修改也被视为错误修改。 需要注意的一点是,在正确句子上进行可以略微提升句子流畅度和语法惯例的修改在语法检查工具中广泛存在,并在一定程度上视为语法检查工具功能的一部分。

考虑到这一点,我们对上述测试结果中的错误样例进行了进一步的分析。这部分的分析仅包含“熊猫语法”的检查结果,而不包含其它两种方法。在这部分分析中,我们定义了6种错误类型:

  1. E(Error):对原句给出了错误的修改;
  2. O(Over-revising):对原句过度修改而产生的错误;
  3. F(Fail to detect):没有检测出原句中错误;

以上三种错误导致了语法或语义上错误的建议,被视为不可接受的错误。

  1. T(Trivial):修改建议有极小的瑕疵;
  2. R(Rephrasing):修改建议中重新表述原句的部分内容,但符合语法和语义;
  3. M(Only violate minimal revising rule):修改建议仅仅违背了评测规则中的最小修改原则,但修改结果符合语法和语义;

上面的三种错误给出的修改建议符合语法和语义,部分情况下甚至对原文略有改进,被视为可接受的错误,下面是“熊猫语法”测试结果中各类错误的统计结果。

M R T 可接受累计 F O E 不可接受累计
数量 6 7 2 15 16 13 1 30
比例 3.53% 4.11% 1.18% 8.82% 9.41% 7.65% 0.59% 17.65%

从上面的结果看出,在170个测试样例中,大约有85%的修改结果处于可接受水平之上。在下一部分,我们将结合测试样例,对测试结果进行详细分析。其中“参考答案”来自于测试数据集,基本上可以认为原句的正确修改。

评测结果分析

这一部分我们选取一些典型的测试样例,对测试数据、评分标准和“熊猫语法”(PG)的输出进行详细的说明和分析。

----------------------------------------------------------------

样例:1
原句:收到礼节性巧克力的中年男性拜托他的老婆卖对礼节性巧克力的还给答谢礼品。
参考答案:收到礼节性巧克力的中年男性拜托他的老婆买对礼节性巧克力的还给答谢礼品。
PG输出:收到礼节性巧克力的中年男性请他的妻子将礼节性巧克力作为答谢礼品归还。
PG评分:错误(O)

此样例能够充分体现出测试数据的复杂性。此句的修改难度很高,对于母语是汉语的人说,准确理解其语义并进行恰当的修改仍存在困难。尽管参考答案中给出了修改结果,但修改后的句子仍存在语法不顺、语义不清的问题。在此样例的测试中,PG给出的输出修改了原句的部分语义,被判定为“过度修改”。

----------------------------------------------------------------

样例:10
原句:他喜欢让我念小人儿书,可是她常常吧书投等等。
参考答案:他喜欢让我念小人儿书,可是她常常把书投等等。
PG输出:他喜欢让我念小人儿书,可是她常常把书投等等。
PG评分:正确

此句的后半句在缺乏语义环境的情况下仍然无法判断该句语义所指,但其中存在的“同音异形”词错误却很显然。此句PG输出与参考答案严格一直,判定为正确。

----------------------------------------------------------------

样例:15
原句:因为丈夫觉得只靠自己的收入很难养家,所以他们也希望妻子出去工作。
参考答案:因为丈夫觉得只靠自己的收入很难养家,所以他们也希望妻子出去工作。
PG输出:因为丈夫觉得只靠自己的收入很难养家,所以他们也希望妻子出去工作。
PG评分:正确

此句前面的“丈夫”和后面的“他们”在指代人数上可能存在不一致,但在特定语义环境下此句仍可以符合语法语义。参考答案和PG都判定为该句正确。

----------------------------------------------------------------

样例:18
原句:33000日元的东西能买30000日元。
参考答案:33000日元的东西能卖30000日元。
PG输出:33000日元的东西能卖30000日元。
PG评分:正确

此句重点在于“买”与“卖”的语义区别和正确的使用方法。PG给出了正确的修改建议。

----------------------------------------------------------------

样例:21
原句:我的一位中文老师出了关于“一次拿给客人的东西在拿给别的客人的事情”的课题。
参考答案:我的一位中文老师出了关于“一次把给客人的东西再拿给别的客人的事情”的课题。
PG输出:我的一位中文老师出了一个关于“将一次拿给客人的东西再拿给其他客人”的课题。
PG评分:正确

此句中有细微语法与用词错误,但整句语法基本正确并且语义基本清晰可辨。PG给出的修改包含语法错误,尤其“将”带来的语法问题尤为严重,因此被判定为修改错误(E)。

----------------------------------------------------------------

样例:40
原句:在“嘉禾望岗站”下车后,换乘2号县去到“海珠广场站”。
参考答案:在“嘉禾望岗站”下车后,换乘2号线去到“海珠广场站”。
PG输出:在“嘉禾望岗站”下车后,换乘2号线去到“海珠广场站”。
PG评分:正确

此句包含多个命名实体,并包含“同音异形”字错误;PG的输出给出了正确的修改。

----------------------------------------------------------------

样例:41
原句:夏天的时候很多客人去哪里。
参考答案:夏天的时候很多客人去那里。
PG输出:夏天的时候很多客人去哪里。
PG评分:错误(F)

该句包含的错误较为微妙。因该句的结尾是句号,因此可认为是陈述句,故句中应使用指示代词“那里”而不是疑问代词“哪里”。此句PG给出了错误的修改。

----------------------------------------------------------------

样例:42
原句:“为了答应这个疑问,界限来我要介绍一下紫菜饭卷的做法。
参考答案:“为了答应这个疑问,接下来我要介绍一下紫菜饭卷的做法。
PG输出:为了解决这个疑问,接下来我要介绍一下紫菜饭卷的做法。
PG评分:错误(R)

此样例包含一处用词错误(“界限来”应为“接下来”),PG正确地识别并修改了该处错误。但此句前半部分包含另一处需要关注的语法问题,即“答应”与“疑问”的搭配问题。该搭配尽管在语义仍可说得通,但在实际使用中较为罕见。PG给出了更为常见的用词,并保持了原句的语义。但此处修改违背了评分规则中的“最小修改”原则,因此被判定为错误修改(R)。

----------------------------------------------------------------

样例:71
原句:对了,介绍一下我这个外国小伙子吧。汉语正式的学了三个学期,说具体就是一年在美国德州州立大学加上一个学期在南大海外学院的留学课程。
参考答案:对了,介绍一下我这个外国小伙子吧。汉语正式地学了三个学期,说具体就是一年在美国德州州立大学加上一个学期在南大海外学院的留学课程。
PG输出:对了,介绍一下我这个外国小伙子吧。汉语正式的学了三个学期,说具体就是一年在美国德州州立大学加上一个学期在南大海外学院的留学课程。
PG评分:错误(T)

此样例包含一处助词错误,状语后结构助词应使用“地”而不是“的”,但该错误对该句的语法和语义影响极小。PG没能识别出该处错误。

----------------------------------------------------------------

样例:116
原句:中文歌很难董,我听慢的歌。
参考答案:中文歌很难懂,我听慢的歌。
PG输出:中文歌很难懂,我听节奏慢的歌。
PG评分:错误(R)

此样例中包含一处同音词错误,PG识别并正确地修改了该处错误。但在该句的后半部分,PG修改了原句的内容,尽管修改后的语义与原文完全一致,但违反了评测规则中的最小修改原则,因此被判定为错误修改(R)。

----------------------------------------------------------------

结论

中文语法检查技术的出现得益于技术的进步,尤其是人工神经网络技术的发展。事实上,在深度学习和预训练技术出现之前,在技术上无法构建真正有意义的中文语法检查工具。从这次测试的结果也可以看出,简单的使用大语言模型无法构造出高质量的语法检查工具。当然,这不是说诸如DeepSeek这样优秀的大语言模型不具备语法检查的能力,事实上恰恰相反,高质量的大语言模型是未来构造语法检查技术的基础。这次测试仅是说明了大语言模型不是天生的语法老师,尽管大语言模型非常善于使用自然语言!

补充说明

本次测试采用了严格的打分规则,同时所选取的测试数据具有很高的语法检查难度。母语为汉语的读者很容易看出,部分测试样例的语法灵活、语义晦涩,有些甚至需要反复斟酌才能理解其意并进行修改。因此,本次测试更多的是反映了语法检查工具在评测环境中的表现。在实际使用过程中,您会发现通常情况下“熊猫语法”给出的修改建议都极具参考价值。当然,这一切都要感谢技术的进步!

谢谢你的阅读!




版权所有 ©2025 PESS.INK