- 张秋玲;牛青森;赵宁宁;
文言文难易度的评量问题关系到中学语文课程内容、学习材料的选择和文言阅读能力的测评。张秋玲于2010年构建的文言文难易度评量的数学模型,首次为该问题的解决提供了一条可持续探索的路径。在此基础上,本文采用内容分析法和调查研究法,对2010数学模型的遗留问题及疏漏之处进行了两次检验和修订:第一次是借助读者阅读能力与文本复杂性契合度的实证检验,评判数学模型评定的文本难易度与通过读者阅读能力评定的难易度是否能够拟合;第二次是借助专家干预下的人工检验,重点对模型中词频统计可能存在的分类偏差和疏漏作出了校正。经过两次修订,数学模型的相关系数提高了0.112,提高了数学模型评量文言文难易度的信效度,这也是在为今后实现文言文的自动化分级做充足的理论准备。
2022年03期 No.123 49-61页 [查看摘要][在线阅读][下载 1337K] [下载次数:1103 ] |[网刊下载次数:0 ] |[引用频次:7 ] |[阅读次数:2 ] - 柏晓鹏;吉伶俐;
本文采用计算语言学方法,使用文本自动分类模型考察篇章结构特征如何影响文本的可读性。本文设计了篇章标注规范和标注集,对“统编版语文教材语料库”进行篇章特征标注;然后抽取文本篇章特征,讨论其与文本可读性的相关关系;最后,使用支撑向量机进行可读性自动分级实验,考察篇章特征对文本难度的预测能力。实验结果显示:篇章结构特征的加入能够明显提升文本分级的效果,与词汇语法特征的对比实验结果说明篇章特征对文本可读性有正面影响。本文的工作将文本可读性研究向篇章层面推进,为相关研究和应用提供了参考。
2022年03期 No.123 62-72页 [查看摘要][在线阅读][下载 1475K] [下载次数:1573 ] |[网刊下载次数:0 ] |[引用频次:12 ] |[阅读次数:1 ] - 杜月明;王亚敏;王蕾;
本文基于汉语二语文本可读性的特征集合,通过对比六种机器学习模型的效果,引入特征选择算法,实现了汉语水平考试(HSK)阅读文本可读性的自动评估。实验结果表明,支持向量机模型在HSK阅读文本可读性评估中的表现最好;基于汉字、词汇、句法和篇章的全特征模型的预测准确率达0.876;不同层面的特征预测能力存在差异,其中词汇层面表现最好;剔除冗余特征后,词汇和汉字两个层面的18个特征进入最优模型,句法和篇章特征未能进入该模型。本研究对HSK阅读文本的选择和改编及其他类型的文本可读性评估具有一定的参考意义。
2022年03期 No.123 73-86页 [查看摘要][在线阅读][下载 1493K] [下载次数:2469 ] |[网刊下载次数:0 ] |[引用频次:27 ] |[阅读次数:1 ] - 朱君辉;刘鑫;杨麟儿;王鸿滨;杨尔弘;
汉语二语文本难度自动分级任务是国际中文教育与计算语言学领域中的一个重要主题。本文依据《国际中文教育中文水平等级标准》,提出了基于语法点多样性与复杂性的25个语法点特征并实现了相关特征的自动抽取与计算,在此基础上构建了自动分级模型。实验结果表明,融合语法点特征后多元逻辑回归算法的分级准确率为86.40%,比基于现有语言特征的实验提升了2.4%。进一步研究发现,六级语法点多样性、语法点难度等级均值是区别文章难度级别的关键特征。此外,本文将包含语法点特征在内的207项语言特征融入基于BERT的深度学习模型,取得了87.6%的准确率,超过了基于传统语言特征的方法和基于神经网络的方法。
2022年03期 No.123 87-99页 [查看摘要][在线阅读][下载 1619K] [下载次数:1198 ] |[网刊下载次数:0 ] |[引用频次:17 ] |[阅读次数:3 ]