张帆
- 作品数:3 被引量:28H指数:3
- 供职机构:中国科学院文献情报中心更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 领域科技文献创新点句中主题属性实例识别方法研究被引量:9
- 2015年
- 【目的】识别创新点句中主题属性实例,进一步挖掘创新点句中的知识关系。【方法】采用语义角色标注以及依存句法分析方法,借助领域本体中属性类目下主题词,从依存树中识别创新点句中的核心主题词以及属性实例;针对依存句法分析的特征,设计组合术语识别模块以及连接词关系识别模块以改善识别效果。【结果】创新点句中核心主题词识别的F值达到77.94%;创新点句中属性实例识别的平均F值在90%左右。【局限】使用Stanford依存句法分析工具对肿瘤领域进行句法分析造成的偏差影响识别效果;使用NCIt本体属性类别时,有待进一步过滤与规范。【结论】实验结果表明,该方法对领域创新点句中的主题属性实例具有较好的识别效果。
- 张帆乐小虬
- 关键词:领域本体语义角色标注依存句法分析
- 学术论文大纲中关键术语抽取方法研究被引量:7
- 2014年
- 【目的】针对学术论文大纲内容精炼、层次性的特点,研究从中抽取重要且具有实质意义术语的方法。【方法】结合语言学规则和术语词典从大纲各级标题中识别出候选术语集,然后根据术语间的句法依存关系计算tf-idf,并利用大纲结构量化术语层级特征,最后结合tf-idf与层级特征对候选术语进行排名,选择出关键术语。【结果】实验证明,该方法的候选术语识别F值达到89.57%,术语选择F值达到36.89%。【局限】采用的术语抽取规则不完备,且tf-idf计算过程中的权值设置仅使用经验值,导致未能达到最优效果。【结论】该方法能有效抽取大纲中的关键术语,适用于层级结构中的关键术语抽取。
- 何远标乐小虬张帆
- 面向领域科技文献的句子级创新点抽取研究被引量:15
- 2014年
- 【目的】抽取领域科技文献中句子级创新点。【方法】面向文献中的句子,以领域词表和本体中的关系为基础构建识别规则,采用基于主题词重叠度的冗余度计算方法过滤创新点候选集。【结果】选取肿瘤领域的数据集进行实验,抽取结果的准确率为89.42%,召回率为60.14%。【局限】规则有待进一步完善,提高召回率。【结论】利用领域词表和本体中的关系能有效地抽取科技文献中的句子级创新点。
- 张帆乐小虬
- 关键词:语言学特征