国家高技术研究发展计划(2006AA01Z197)
- 作品数:13 被引量:104H指数:6
- 相关作者:王晓龙王轩李鹏范士喜王宝勋更多>>
- 相关机构:哈尔滨工业大学哈尔滨理工大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于最大熵的依存句法分析被引量:12
- 2009年
- 该文提出并比较了三种基于最大熵模型的依存句法分析算法,其中最大生成树(MST)算法取得了最好的效果。MST算法的目标是在一个带有权重的有向图中寻找一棵最大的生成树。有向图的每条边都对应于一个句法依存关系,边的权重通过最大熵模型获得。训练和测试数据来源于CoNLL2008 Share Task的公用语料。预测的F1值在WSJ和Brown两个测试集上分别达到87.42%和80.8%,在参加评测单位中排名第6。
- 辛霄范士喜王轩王晓龙
- 关键词:计算机应用中文信息处理句法分析最大生成树最大熵
- 基于模式学习的形式化答案抽取技术与置信度评价方法被引量:3
- 2008年
- 本文提出一种基于模式学习的形式化答案抽取方法,区别于传统基于特征的答案抽取方法,通过问题模式和答案模式的自动匹配,直接获取问题答案.本文通过机器学习的方法自动生成用于答案抽取的形式化模板,克服了人工方法费时、费力以及覆盖率低等问题.本文创造性地采用逻辑回归的方法对所学习到的模式进行置信度评价.对比实验表明,本文的方法取得了比较好的答案抽取效果.本文方法实际应用于国际TREC QA评测,评测结果证明本文的方法与传统基于特征的答案抽取方法具有很好的互补性.
- 李鹏乔佩利王晓龙王宝勋
- 关键词:问答系统答案抽取置信度逻辑回归
- 双阈值的特定英语音频句子边界检测被引量:2
- 2010年
- 为了提高英语音频句子切分的效果,提出了基于双阈值的句子边界检测方法.该方法针对VOA、BBC等特别适合英语学习者的音频所具有的波形规范、环境噪声小、速率通常比较稳定等特点,利用静音能量阈值和静音时延阈值来检测音频句子的边界,并辅以对照文本信息进行校正.针对VOA慢速英语的实验结果表明:单纯使用双阈值方法,音频切分的召回率超过96%,精确率超过94%;利用对照文本校正后,可进一步提高精确率.
- 刘秉权徐帅李相前
- 关键词:双阈值
- 基于人工神经网络的音乐和弦实时感知
- 和弦的识别是音乐调式分析以及自动标注的基础,也对于音乐结构分析及旋律分析等任务有重要的作用,也因此成为音乐信息检索(MIR)领域的热点之一。本文根据音乐认知心理学原理,提出一种基于人工神经网络(ANN)的和弦实时感知方法...
- 孙佳音李海峰雷理
- 关键词:CQT半监督学习人工神经网络音乐信息检索
- 文献传递
- 面向开放的限定领域的交互式问答语料分析
- 交互式问答是国际问答技术领域新兴的热门研究方向。它结合自动问答与对话系统技术,可以处理系列相关问题,并能与用户进行对话式交互,但是目前在中文问答领域开展的相关研究还比较少,尤其缺乏对真实环境中大规模交互式问答语料的收集和...
- 张耀允王晓龙王轩徐睿峰侯永帅范士喜
- 关键词:上下文信息语料统计
- 文献传递
- A Bio-Inspired Keyword Spotting Approach Based on DNA Sequence Alignment Strategy
- In recent years, the research on keyword spotting (KWS) in speech recognition focuses more on Hidden Markov Mo...
- 孙佳音李海峰
- 文献传递
- 面向真实环境的问句分析方法被引量:11
- 2010年
- 面向真实环境的问答系统是近年来研究的热点,针对系统中问句的复杂性,提出问句信息块标注的分析方法——QICA.该方法将问句信息分为五类,通过标注这五类信息,将问句从表层的文字空间映射到结构化的语义空间.结合大间隔马尔可夫模型实现了自动标注系统.将QICA结果应用于问句复述识别问题,验证了该方法的有效性.
- 范士喜王晓龙王轩张耀允
- 关键词:问答系统
- 汉语语音文档检索中后验概率的索引方法
- 2009年
- 基于音节Lattice形式的语音识别结果来实现汉语语音文档检索,不但可以成功规避词表外词问题,而且Lattice这种多候选形式也能有效补偿识别错误对检索性能的影响.在基于音节Lattice的汉语语音文档检索研究中,针对已有索引方法的不足,提出了一种基于后验概率的索引方法,对向量空间模型进行改进,以音节和K步邻接音节对作为索引项,以它们在语音文档中的后验概率值作为索引项权重.检索实验表明,文中的方法更适用于基于音节Lattice的语音文档检索任务,各项改进都达到了预期效果.
- 郑铁然韩纪庆
- 关键词:后验概率
- 条件随机域模型及在语言分析系统中的应用被引量:1
- 2008年
- 分析了判别式模型的标记偏置问题对序列化标记的影响,利用条件随机域模型的全序列概率归一思想解决标记偏置问题。在条件随机域模型和特征选择的基础上,将语言分析任务转化成序列化标记问题进行求解,建立了由分词、词性标注和组块分析组成的语言分析系统。实验表明,条件随机域模型有效地克服了标记偏置问题,在语言分析系统中取得的性能优于其他判别式模型。
- 孙广路王晓龙郎非刘远超
- 关键词:条件随机域语言分析
- 基于主题的自适应、在线网络热点发现方法及新闻推荐系统被引量:29
- 2010年
- 本文提出了一种基于改进HotRank算法的站点排序及种子URL选择方法,建立了在线主题发现系统信息采集自适应增量更新模型;结合LDA模型和仿射传播聚类算法(AP),提出了一种网络主题发现和热点新闻推荐方法,并在海天园知识服务平台热点新闻推荐系统中得到了应用.
- 吴永辉王晓龙丁宇新徐军郭鸿志
- 关键词:知识服务主题发现自适应LDA模型仿射传播聚类