搜索到3041篇“ 中文文本“的相关文章
ERNIE和序列标注结合的中文文本检错纠错
2025年
针对中文文本检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局注意力机制进行词向量编码输入到BiLSTM-CRF序列标注模型,双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的信息进行拼接生成双向的词向量,再通过条件随机场(conditional random field, CRF)计算联合概率增加对邻近词标签的依赖性优化整个序列,从而解决标注偏置等问题给出的错误标注。纠错阶段根据检错模型输出的结果采用不同策略分类纠错,将标注为错字、缺字的错误使用ERNIE掩码语言模型和混淆集匹配进行预测,对多字、乱序错误直接纠正。实验结果表明,引入序列标注根据错误类型进行分类纠错有效提升了纠错率,在SIGHAN数据集上测试F1达到了81.8%。
左壮壮王法玉陈洪涛
关键词:条件随机场
一种基于相似度进行中文文本纠错的实现方法
发明提供了一种基于相似度进行中文文本纠错的实现方法,其特征在于,包括如下步骤:进行词库编译;利用编译好的词库,使用字哈希对待检测文进行标记,得到一个待检测文对应的序列,记录id;使用双字哈希对序列进行计算处理,找出...
王宁张发雨孟奥党章王伦冯立二吴兴龙杨正云
基于BIE位置词列表的中文文本数据字向量表征方法
发明涉及一种基于BIE位置词列表的中文文本数据字向量表征方法,涉及深度学习、命名实体识别领域,包括以下步骤:S1:生成全量词集与强相关词集,并构建BIE位置词列表;S2:利用字向量的原始表征构建位置无关性词向量;S3:...
王进王猛旗林兴杜雨露孙开伟
基于信息增益与层次分类的中文文本可读性评估方法
发明属于自然语言处理技术领域,公开了基于信息增益与层次分类的中文文本可读性评估方法,方法的可读性评估模型,包括语言特征表示模块、信息增益引导的深度表示模块和层次分类模块;其,语言特征表示模块用于提取语言特征并采用自...
彭香龙曾锦山叶文俊刘谦毅肖文艳
一种结合句法信息和预训练语言模型的中文文本语法纠错方法
发明公开了一种结合句法信息和预训练语言模型的中文文本语法纠错方法,通过在预训练语言模型Chinese BART融入句法信息,可有效提升文语法纠错能力。该方法包括以下步骤:导入数据集并转换为目标格式;利用HanLP生...
王文玉韩立新
结合依存图卷积的中文文本相似度计算研究
2025年
目前中文文本相似度计算能够通过词嵌入技术在语义层面判别文相似度,但通常忽略了文蕴含的丰富的句法结构信息,而以词为单位的文句法分析与动态词嵌入模型以字为单位的分词粒度不一致,使得当前大多数结合句法分析的研究只能使用静态词嵌入来表征词的语义向量。针对此问题,根据依存句法分析构建依存图,通过分词掩码映射与注意力混合池化的方法实现动态词嵌入表征词节点的语义特征,然后使用图卷积网络提取依存图词节点之间的依存关系信息,最终读出依存图,将其作为句子的特征向量,从语义与句法2个层面计算句子间的相似度。在表示型与交互型2种结构模型上应用所提方法,并在BQ_Corpus与ATEC数据集上进行实验,结果显示,该模型的准确率最高分别达到87.12%与88.33%,结合依存句法信息后模型的各项评估指标均有提升。
胡书林张华军邓小涛王征华
关键词:依存句法分析文本相似度
一种中文文本纠错系统
发明涉及一种中文文本纠错系统,包括:接收模块,用于接收待纠错的中文文本;语法错误检查模块,用于对所述待纠错的中文文本的字冗余和/或字缺失的语法错误进行纠错检查;拼写错误检查模块,用于对所述待纠错的中文文本的同音的拼...
徐昌焕
中文文本分词方法、装置及存储介质
公开涉及一种中文文本分词方法、装置及存储介质。中文文本分词方法,包括:获取待分词文以及待分词文的分词标准;将待分词文和待分词文的分词标准输入统一分词模型,通过统一分词模型处理待分词文时,获取与待分词文的分词...
柯震
中文文本语义智能分析系统及方法
申请涉及文语义分析领域,其具体地公开了一种中文文本语义智能分析系统及方法,其首先获取由数据库采集的用户个人信息和由爬虫采集的社交媒体平台用户发布的中文文本数据,然后利用深度学习技术,对二者进行特征提取和关联分析,最后...
史立群
基于视觉Transformer的中文文本识别方法
发明提出基于视觉Transformer的中文文本识别方法,属于图像识别技术领域。发明将视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特...
谢翌王璇廖荣涛徐暄韩强赵伟王虎帮黄晖

相关作者

刘怀亮
作品数:87被引量:543H指数:13
供职机构:西安电子科技大学
研究主题:文本分类 复杂网络 维基百科 中文文本 语义
张顺香
作品数:176被引量:120H指数:6
供职机构:安徽理工大学计算机科学与工程学院
研究主题:情感 文本 情感分析 中文 情感词典
张雪英
作品数:104被引量:687H指数:17
供职机构:南京师范大学
研究主题:地理 中文文本 大数据 知识图谱 地理信息系统
张春菊
作品数:38被引量:351H指数:13
供职机构:合肥工业大学土木与水利工程学院
研究主题:中文文本 标注语料库 地名识别 地理实体 自然语言
袁方
作品数:91被引量:846H指数:15
供职机构:河北大学
研究主题:文本分类 中文文本分类 数据挖掘 WEB DEEP_WEB