徐远方
- 作品数:4 被引量:6H指数:2
- 供职机构:内蒙古师范大学网络技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于支持向量机和约束条件的新词识别研究被引量:2
- 2014年
- 中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典进行分词和词性标注过的训练语料中抽取正负样本,然后结合从训练语料中计算出的各种词本身特征进行向量化,通过支持向量机的训练得到新词分类支持向量。对含有模拟新词的测试语料进行分词和词性标注,结合提出的相关约束条件和松弛变量选取候选新词,通过与词本身特征结合进行向量化后作为输入与通过训练得到的支持向量机分类器进行计算,得到的相关结果与阈值进行比较,当结果小于阈值时判定为一个新词,而计算结果大于阈值的词为非新词。通过实验结果比较选取最合适的支持向量机核函数。
- 徐远方李成城
- 关键词:新词识别支持向量机核函数
- 基于SVM和词间特征的新词识别研究被引量:4
- 2012年
- 中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量。对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果。
- 徐远方李成城
- 关键词:自然语言处理支持向量机新词识别
- 基于SVM和词特征的新词识别研究
- 随着中国进入快速发展的新时代,汉语也在随着时代的发展而发展,作为汉语的重要组成部分,词语的更新变的最为活跃,在日常科技、经济、文化生活中,大量的汉语新词不断地涌现,新词的产生丰富了人们的日常生活和网络生活的语言表达,但同...
- 徐远方
- 关键词:新词识别中文分词核函数
- 文献传递