王峥
- 作品数:2 被引量:10H指数:2
- 供职机构:烽火通信科技股份有限公司更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Trie树和有限状态自动机的中文地址解析模型被引量:3
- 2016年
- 目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。
- 汪洋刘师培王峥
- 基于句法决策树和SVM的短文本语境识别模型被引量:7
- 2017年
- 随着社会生活网络化的日趋成熟,在很多研究和商业领域里都遇到了中文文本处理问题。不断深化的文本分类研究需要从文本的各个方面来解析文本信息,语义解析是文本挖掘的关键技术,语境识别可以应用在许多文本挖掘技术中,比如情感分析、舆情分析等。基于句法决策树、N-gram模型的特征要素提取方法和SVM分类器,提出一种语境分类模型,解决字词在不同语境下的多义性问题。该模型具有良好的泛化能力,在批量处理时具有很好的通用效果,能比较有效地解决文本挖掘中语境识别难题。
- 王峥刘师培彭艳兵
- 关键词:决策树N-GRAM模型SVM分类器