搜索到3041 篇“ 中文文本 “的相关文章
ERNIE和序列标注结合的中文文本 检错纠错 2025年 针对中文文本 检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本 检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局注意力机制进行词向量编码输入到BiLSTM-CRF序列标注模型中 ,双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的信息进行拼接生成双向的词向量,再通过条件随机场(conditional random field, CRF)计算联合概率增加对邻近词标签的依赖性优化整个序列,从而解决标注偏置等问题给出的错误标注。纠错阶段根据检错模型输出的结果采用不同策略分类纠错,将标注为错字、缺字的错误使用ERNIE掩码语言模型和混淆集匹配进行预测,对多字、乱序错误直接纠正。实验结果表明,引入序列标注根据错误类型进行分类纠错有效提升了纠错率,在SIGHAN数据集上测试F1达到了81.8%。 左壮壮 王法玉 陈洪涛关键词:条件随机场 一种基于相似度进行中文文本 纠错的实现方法 本 发明提供了一种基于相似度进行中文文本 纠错的实现方法,其特征在于,包括如下步骤:进行词库编译;利用编译好的词库,使用字哈希对待检测文本 进行标记,得到一个待检测文本 对应的序列,记录id;使用双字哈希对序列进行计算处理,找出... 王宁 张发雨 孟奥 党章 王伦 冯立二 吴兴龙 杨正云基于BIE位置词列表的中文文本 数据字向量表征方法 本 发明涉及一种基于BIE位置词列表的中文文本 数据字向量表征方法,涉及深度学习、命名实体识别领域,包括以下步骤:S1:生成全量词集与强相关词集,并构建BIE位置词列表;S2:利用字向量的原始表征构建位置无关性词向量;S3:... 王进 王猛旗 林兴 杜雨露 孙开伟基于信息增益与层次分类的中文文本 可读性评估方法 本 发明属于自然语言处理技术领域,公开了基于信息增益与层次分类的中文文本 可读性评估方法,本 方法的可读性评估模型,包括语言特征表示模块、信息增益引导的深度表示模块和层次分类模块;其中 ,语言特征表示模块用于提取语言特征并采用自... 彭香龙 曾锦山 叶文俊 刘谦毅 肖文艳一种结合句法信息和预训练语言模型的中文文本 语法纠错方法 本 发明公开了一种结合句法信息和预训练语言模型的中文文本 语法纠错方法,通过在预训练语言模型Chinese BART中 融入句法信息,可有效提升中 文语法纠错能力。该方法包括以下步骤:导入数据集并转换为目标格式;利用HanLP生... 王文玉 韩立新结合依存图卷积的中文文本 相似度计算研究 2025年 目前中文文本 相似度计算能够通过词嵌入技术在语义层面判别文本 相似度,但通常忽略了文本 中 蕴含的丰富的句法结构信息,而以词为单位的中 文句法分析与动态词嵌入模型中 以字为单位的分词粒度不一致,使得当前大多数结合句法分析的研究只能使用静态词嵌入来表征词的语义向量。针对此问题,根据依存句法分析构建依存图,通过分词掩码映射与注意力混合池化的方法实现动态词嵌入表征词节点的语义特征,然后使用图卷积网络提取依存图中 词节点之间的依存关系信息,最终读出依存图,将其作为句子的特征向量,从语义与句法2个层面计算句子间的相似度。在表示型与交互型2种结构模型上应用所提方法,并在BQ_Corpus与ATEC数据集上进行实验,结果显示,该模型的准确率最高分别达到87.12%与88.33%,结合依存句法信息后模型的各项评估指标均有提升。 胡书林 张华军 邓小涛 王征华关键词:依存句法分析 文本相似度 一种中文文本 纠错系统 本 发明涉及一种中文文本 纠错系统,包括:接收模块,用于接收待纠错的中文文本 ;语法错误检查模块,用于对所述待纠错的中文文本 中 的字冗余和/或字缺失的语法错误进行纠错检查;拼写错误检查模块,用于对所述待纠错的中文文本 中 的同音的拼... 徐昌焕中文文本 分词方法、装置及存储介质本 公开涉及一种中文文本 分词方法、装置及存储介质。中文文本 分词方法,包括:获取待分词文本 以及待分词文本 的分词标准;将待分词文本 和待分词文本 的分词标准输入统一分词模型,通过统一分词模型处理待分词文本 时,获取与待分词文本 的分词... 柯震中文文本 语义智能分析系统及方法本 申请涉及文本 语义分析领域,其具体地公开了一种中文文本 语义智能分析系统及方法,其首先获取由数据库采集的用户个人信息和由爬虫采集的社交媒体平台用户发布的中文文本 数据,然后利用深度学习技术,对二者进行特征提取和关联分析,最后... 史立群基于视觉Transformer的中文文本 识别方法 本 发明提出基于视觉Transformer的中文文本 识别方法,属于图像识别技术领域。本 发明将视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特... 谢翌 王璇 廖荣涛 徐暄 韩强 赵伟 王虎帮 黄晖
相关作者
刘怀亮 作品数:87 被引量:543 H指数:13 供职机构:西安电子科技大学 研究主题:文本分类 复杂网络 维基百科 中文文本 语义 张顺香 作品数:176 被引量:120 H指数:6 供职机构:安徽理工大学计算机科学与工程学院 研究主题:情感 文本 情感分析 中文 情感词典 张雪英 作品数:104 被引量:687 H指数:17 供职机构:南京师范大学 研究主题:地理 中文文本 大数据 知识图谱 地理信息系统 张春菊 作品数:38 被引量:351 H指数:13 供职机构:合肥工业大学土木与水利工程学院 研究主题:中文文本 标注语料库 地名识别 地理实体 自然语言 袁方 作品数:91 被引量:846 H指数:15 供职机构:河北大学 研究主题:文本分类 中文文本分类 数据挖掘 WEB DEEP_WEB