张开旭
- 作品数:5 被引量:57H指数:3
- 供职机构:厦门大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于条件随机场的古汉语自动断句与标点方法被引量:34
- 2009年
- 标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。
- 张开旭夏云庆宇航
- 关键词:计算机信息处理
- 统计与规则相结合的古文对联应对模型被引量:4
- 2009年
- 该文将古文对联规则区分为硬规则与软规则,将软规则区分为字相对与上下文相对。并在软规则指导下建立对联应对的有向概率图模型,使用EM(Expectation-Maximization)算法估计模型参数,在求解的搜索过程中加入硬规则,从而给出了一种完整的对联自动应对方法。实验结果表明参数学习后的候选字列表由于一定程度上不考虑上下文相对的影响,比仅用频次统计的候选字列表更为合理。该方法还能够对训练语料库中工整与不工整的对联区分学习。基于该方法所实现的古文对联应对程序达到了一定水平。
- 张开旭孙茂松
- 关键词:计算机应用中文信息处理
- 基于自动编码器的中文词汇特征无监督学习被引量:20
- 2013年
- 大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。
- 张开旭周昌乐
- 关键词:中文分词词性标注
- 统计与规则结合的古文对联应对模型
- 本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明,参数学习后的候选字列表由于去除了部分上下文的影...
- 张开旭孙茂松
- 关键词:汉字处理最大熵模型数理语言学
- 文献传递
- 统计与规则结合的古文对联应对模型
- 本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明参数学习后的候选字列表由于去除了部分上下文的影响...
- 张开旭孙茂松
- 关键词:对联
- 文献传递