王裴岩
- 作品数:45 被引量:89H指数:5
- 供职机构:沈阳航空航天大学更多>>
- 发文基金:国家自然科学基金国家科技支撑计划辽宁省自然科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论机械工程金属学及工艺更多>>
- 面向专利文本的信息抽取技术研究
- 专利的技术方案信息是专利信息的重要组成部分,是专利作者创新精髓,是专利保护的主要对象。然而技术方案信息是以自由文本的形式存在,因此如何将技术方案信息转化为计算机可处理、可读、可理解的结构化形式便成为亟待解决的问题。 本...
- 王裴岩
- 关键词:信息抽取技术
- 融合权重信息的三维CAD模型聚类研究
- 2020年
- 局部区域特征的获取与表达对于研究三维CAD模型聚类至关重要.面向局部区域特征表达问题提出了在现有的六元组方法基础之上将其扩展为七元组,加入了模型中面与面相交形成的边属性信息,从而更好的获得了由局部区域特征构建的词汇本;在聚类阶段,提出了一种模型局部区域加权方法,该方法降低常见局部区域在聚类相似度计算时的最重要程度,从而相对提高了更有区分度的局部区域.实验结果表明,采用本文提出的表达方法能有效支持CAD模型聚类任务,对比基线方法在四种典型聚类算法上得到的NMI值、V-measure值、Purity值均有提升.
- 汪大涵王裴岩张桂平马伟芳
- 关键词:三维CAD模型聚类
- 翻译错误类分布加权的专利译文自动后编辑集成模型
- 2023年
- 自动后编辑(APE)是一种自动修改机器译文错误的方法,能够改善机器翻译系统的译文质量。目前,APE研究主要集中于通用领域,然而对于专业性强和译文质量要求较高的专利译文的APE则鲜有研究。文中研究了专利译文自动后编辑,提出了翻译错误类分布加权的专利译文自动后编辑集成模型。首先,提出术语加权翻译编辑率(WTER)计算方法,在翻译编辑率(TER)中加入了每个词的术语概率因子,使术语错误较多的样本WTER值较高。然后,通过WTER从3个机器翻译系统构造的训练数据中选择错译、漏译、增译与移位错误样本子集分别构建错误修正偏向性APE子模型。最后,通过翻译错误类分布加权错误修正偏向性APE子模型。该方法针对专利专业性、强术语较多的特点,每个子模型分别面向一类错误,考虑了错误修正的偏向性,通过模型集成兼顾了译文错误多样性,在英中专利摘要数据集上的实验结果表明,相比3个基线系统,所提方法的BLEU值分别平均提升了2.52,2.28和2.27。
- 赵三元王裴岩叶娜赵欣瑜蔡东风张桂平
- 中文工艺规范文本分词语料的构建与研究被引量:1
- 2023年
- 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
- 王裴岩张莹欣付小强陈佳欣徐楠蔡东风
- 关键词:中文分词分词模型
- 面向中文专利SAO结构抽取的文本特征比较研究
- 针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析.实验结果表明,基本的词法信息...
- 饶齐王裴岩张桂平
- 关键词:特征提取
- 文献传递
- 基于深度学习的制造工艺过程自动生成方法研究
- 2022年
- 面向制造工艺过程的自动生成,提出一种基于深度学习的方法,具体为一种CNN-LSTM网络。CNN-LSTM网络通过多路CNN和LSTM两种编码器分别对工艺属性和前序工序序列编码,生成特征向量,将特征向量组合后作为解码器的输入,生成后续工序。能够解决多方面输入信息的特征分析问题,以及在工序序列生成中前序工序序列信息与输入信息融合的问题。在2 360份制造大纲文件数据上的实验表明,该方法生成的工艺过程与参考工艺过程的相似性达到0.451 5,BLEU-4达到0.237 6,好于对比方法。
- 徐文文王裴岩张桂平蔡东风
- 一种领域术语语义知识库人机协同构建方法
- 本发明公开一种领域术语语义知识库人机协同构建方法,包括以下步骤:基于HowNet的语义理论体系,并根据术语的特点将协同构建包括四个关键过程,分别为术语内部依存结构分析、术语内部词语义项辅助选择、术语内部动态角色关系辅助判...
- 王裴岩张桂平蔡东风
- 基于HowNet的术语语义知识库构建技术被引量:3
- 2016年
- 领域知识库能够满足特定领域的自然语言处理系统对知识的需求,然而大部分领域知识库的构建方式为手工构建,效率较低。针对这一问题,分析已经手工构建的2 300余条航空术语描述信息及其在构建过程中总结的规则,在此基础上,总结了200余条核心词框架,核心词以外的其他词,通过一种规则与统计相结合的方法进行框架的自动填充,从而提高了构建术语语义知识库的自动化程度。最后,对构建的术语描述信息进行了相似度计算,取得了较好的结果。
- 王羊羊陈刚蔡东风王裴岩
- 关键词:语义知识库
- 一种中医名词术语自动抽取方法被引量:8
- 2011年
- 针对中医领域,提出了一种基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取。选择《名医类案》作为中医领域文本进行术语抽取实验,取得了较好的效果,准确率为83.11%,召回率为81.04%,F-值为82.06%。
- 张五辈白宇王裴岩张桂平
- 关键词:术语抽取条件随机场
- 基于树形解码器的航空术语DEF自动生成
- 2024年
- 该文研究了基于HowNet的KDML语法体系的术语DEF自动生成问题,提出一种基于树形解码器的生成方法。在编码器端输入专业术语以及其他外部信息(术语的定义、术语子词的义原等);在解码器端交替使用义原解码器和关系解码器,同时使用注意力机制关注编码器端的各种表征信息,最终得到“义原-关系-义原”形式的输出,并组合成术语对应的义原树,进而得到术语的DEF表示以辅助专业领域HowNet的构建,最终取得了首义原F_(1)值74.13%、总义原F_(1)值53.92%、总关系F_(1)值53.33%、总三元组F_(1)值30.48%的结果。
- 吕嘉王裴岩蔡东风张桂平李林娜
- 关键词:知网