孙琛琛
- 作品数:5 被引量:46H指数:3
- 供职机构:东北大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- WSR:一种基于维基百科结构信息的语义关联度计算算法
- 该文提出了一种基于维基百科结构信息的语义关联度的计算方法--WikiStruRel(WSR).维基百科作为目前规模最大和增长最快的在线百科系统,其典型包括两个网状结构:文章网络和分类树(以树为主体的图),这两个网状结构包...
- SUN Chen-Chen孙琛琛SHEN De-Rong申德荣SHAN Jing单菁NIE Tie-Zheng聂铁铮YU Ge于戈
- 关键词:数据集计算方法
- WSR:一种基于维基百科结构信息的语义关联度计算算法被引量:27
- 2012年
- 该文提出了一种基于维基百科结构信息的语义关联度的计算方法——WikiStruRel(WSR).维基百科作为目前规模最大和增长最快的在线百科系统,其典型包括两个网状结构:文章网络和分类树(以树为主体的图),这两个网状结构包括了丰富的、明确定义的语义知识.WSR充分分析维基百科的文章网络和分类树,进而计算词语间的语义关联度.该方法没有涉及文本处理,算法开销较小,在3个数据集上的实验,取得了较好的准确率和覆盖度.
- 孙琛琛申德荣单菁聂铁铮于戈
- 关键词:维基百科分类树
- 面向实体识别的聚类算法被引量:8
- 2016年
- 实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性.
- 孙琛琛申德荣寇月聂铁铮于戈
- 关键词:聚类随机游走模型
- 面向关联数据的联合式实体识别方法被引量:9
- 2015年
- 文中提出一种基于图的、迭代的联合式实体识别方法.初始时,将多类型的、关联的实体数据对象集合构建实体数据对象关系图,将基于语义路径的相似度和属性相似度结合起来判断数据对象是否匹配;然后,合并匹配成功的数据对象,并对对象图中的相应数据对象结点及其周边执行局部图收缩,这两个操作使对象图的局部语义变得更丰富,促使该局部范围内产生出新的候选匹配对象对,以待后续识别,实现相似度传递,形成一个迭代的识别过程.随着不断迭代,对象图的语义不断丰富,提高了联合式实体识别的准确性.通过实验证明文中提出的方法比已有的联合式实体识别方法和基于对象关系的单类型实体识别方法具有更高的准确性.
- 孙琛琛申德荣寇月聂铁铮于戈
- 基于维基百科结构信息的语义关联度计算研究
- 随着WEB2.0的兴起与高速发展,产生了大量的WEB信息,并被广泛地传播。目前,人类产生的信息正在以指数的速度增长,为了更好地利用这些信息,人们希望能迅速地从计算机得到对自己有用的信息,希望计算机能自动地、更智能地挖掘信...
- 孙琛琛
- 关键词:维基百科分类树
- 文献传递