北京市教委科技发展计划(KZ201311232037)
- 作品数:66 被引量:302H指数:9
- 相关作者:吕学强李卓徐丽萍李红莲施水才更多>>
- 相关机构:北京信息科技大学北京城市系统工程研究中心北京拓尔思信息技术股份有限公司更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金北京市重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术文化科学机械工程更多>>
- 基于语义与最大匹配度的短文本分类研究被引量:18
- 2013年
- 为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。
- 孙建旺吕学强张雷瀚
- 关键词:词语相似度KNN算法
- 问答社区问句中多字词表达提取
- 2014年
- 基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.
- 吴瑞红吕学强李卓舒燕
- 关键词:互信息搜索引擎
- 基于语篇分析难度的汉语树库构建方法研究
- 汉语树库是一种特殊的语言数据库,它的构建目的是使计算机学习人类语言的表达方式,最终达到使计算机理解人类语言。因此语言数据库的设计、标注和收集是一项重要的工作。基于汉语树库的建设,提出了一种利用语篇分析难度来选取篇章的方法...
- 杜思奇李红莲周强吕学强刘殷
- 文献传递
- 专利技术功效短语获取研究被引量:10
- 2016年
- 在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。
- 胡菊香吕学强刘秀磊刘克会
- 基于加权距离的机械设计图像异步检索方法被引量:5
- 2013年
- 根据机械设计图像的形状特征,提出一种利用加权距离实现的多特征异步检索方法。首先利用机械设计图像的外接圆距离特征进行初步检索,再结合初步检索结果集的位置计算输入图像和初步检索结果集的加权Hu不变矩特征距离,并据此获得最终的检索结果。实验表明,与单一特征的检索方法相比,该方法在机械设计图像检索中有更高的查准率和查全率。
- 方乃伟吕学强张丹王弘蔚
- 关键词:HU不变矩加权距离
- 基于词典与机器学习的中文微博情感分析研究被引量:50
- 2014年
- 随着Web2.0时代的兴起,与微博相关的研究得到学术界和工业界的广泛关注。选取微博文本中的动词和形容词作为特征;提出基于层次结构的特征降维方法;采用设计的基于表情符号的方法计算特征极性值;在此基础上,提出基于特征极性值的位置权重计算方法,借助SVM作为机器学习模型将微博文本分为正面、负面和中性三类。实验结果表明,提出的方法能够比较有效地对中文微博文本进行情感分类。
- 孙建旺吕学强张雷瀚
- 关键词:表情符号情感分类
- 汉语概念复合块的自动分析被引量:1
- 2016年
- 为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于"移进-归约"模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。
- 仵永栩吕学强周强关晓炟
- 关键词:句法分析
- 基于有向图模型的多模态新闻图像检索研究被引量:4
- 2016年
- 不同模态特征描述网络新闻数据各具优势。为充分利用不同模态特征的优点,提高网络新闻图像检索准确率,提出了一种基于有向图理论模型的多模态特征融合检索方法。首先对新闻图像进行预处理,提升新闻图像兴趣点对比度,之后对新闻文本提取关键词,然后对新闻图像进行场景辨别,结合图像人物特征,将文本、场景、人物特征依据有向图理论模型进行融合,形成基于有向图理论模型的多模态融合检索。在10万条新闻数据上测试,实验结果表明,本文提出的方法检索准确率达到了69%,查全率达到70%,效果提升了5%。
- 相子喜吕学强张凯
- 关键词:多模态有向图模型新闻图像语义相似度
- 基于快速鲁棒特征集合统计特征的图像分类方法被引量:5
- 2015年
- 针对现有利用快速鲁棒特征(SURF)进行图像分类的方法中存在的效率低、正确率低的问题,提出一种利用图像SURF集合的统计特征进行图像分类的方法。该方法将SURF的各个维度及尺度信息视为各自独立的随机变量,并利用拉普拉斯响应区分不同数据。首先,获取图像的SURF向量集合;然后,分维度计算SURF向量集合的一阶中心绝对矩、带权一阶中心绝对矩等统计特征,并构建特征向量;最后,结合支持向量机(SVM)进行图像分类。在Corel 1K图像库上的实验结果表明,该方法查准率较SURF直方图方法和三通道Gabor纹理特征方法分别提高17.6%和5.4%。通过与HSV直方图特征进行高级特征融合,可获得良好的分类性能。与SURF直方图结合HSV直方图方法、三通道Gabor纹理特征结合HSV直方图方法、基于视觉词袋(Bo VW)模型的多示例学习方法相比,查准率分别提高了5.2%,6.8%,3.2%。
- 王澍吕学强张凯李卓
- 关键词:快速鲁棒特征图像分类统计特征支持向量机
- 基于显著点切片的三维模型检索
- 2015年
- 提出了使用模型显著点进行切片的方法以及基于点分布和Zernike矩的融合特征提取方法.首先在模型三个方向均匀设定截取平面,然后根据三维模型表面顶点的曲率特性,确定显著点,对截取平面进行更新,获取切片.对得到的切片序列,提取点分布特征和Zernike矩特征,并根据切片包围盒大小确定两个特征的权重.实验结果表明,通过所提出的方法获取到的切片序列能较好地描述模型特征,融合后的特征能有效提高三维模型的查准率.
- 霍磊吕学强李卓张凯
- 关键词:三维模型检索ZERNIKE矩