山东省自然科学基金(ZR2011GL025)
- 作品数:10 被引量:117H指数:5
- 相关作者:白如江王效岳亢丽芸祝娜王晓笛更多>>
- 相关机构:山东理工大学中国科学院中国科学院大学更多>>
- 发文基金:山东省自然科学基金国家社会科学基金文化部科技创新项目更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于Heritrix的网络学术文献获取研究被引量:2
- 2012年
- 通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。
- 白如江王效岳亢丽芸
- 关键词:HERITRIX学术文献PDF
- MapReduce原理及其在自然语言处理中的应用研究被引量:2
- 2014年
- 针对目前海量数据处理在处理速度、存储空间、容错性、访问时间等方面存在的问题,对Google MapReduce编程模型的原理、执行流程等进行分析,从MapReduce与索引构建、统计机器翻译、聚类算法、文本分类四个方面,总结MapReduce编程模型在自然语言处理及信息检索等领域的主要应用,以期对MapReduce编程模型原理及其主要应用有一个较全面的认识。
- 亢丽芸王效岳白如江
- 关键词:MAPREDUCE自然语言处理统计机器翻译聚类算法文本分类
- 国外主要可视化数据挖掘开源软件的比较分析研究被引量:16
- 2013年
- 选取了WEKA、RapidMiner、KNIME和Orange四种国外主要的可视化数据挖掘开源软件,对它们在数据挖掘方法、可视化功能、使用容易程度等方面进行了比较。通过比较发现RapidMiner具有丰富的算法和优秀的可视化效果,而WEKA和KNIME在算法上较Orange要多,但Orange在可视化功能上要比两者强。所以四种软件都有各自的适用范围,可以适用不同操作用户的需求。
- 杨振瑜王效岳白如江
- 关键词:数据挖掘可视化
- MapReduce原理及其主要实现平台分析被引量:18
- 2012年
- 针对海量数据处理在处理速度、存储空间、容错性、访问时间等方面存在的问题,对Google MapReduce编程模型的原理、执行流程等进行分析研究,介绍4种主要的MapReduce实现平台Hadoop、Phoenix、Disco、Mars,从编程语言、构建平台、功能特点和应用领域4个方面对4种平台进行比较分析,以期对MapReduce编程模型原理及其应用平台有一个较全面的认识。
- 亢丽芸王效岳白如江
- 关键词:MAPREDUCEHADOOPPHOENIXMARS
- 国内语义检索研究计量分析被引量:4
- 2012年
- 运用文献计量分析法、社会网络分析软件对国内语义检索领域的文献年度数量分布、论文来源分布、作者及作者单位分布、文献获基金支持情况、词频及共现频次进行统计分析及可视化,挖掘语义检索领域的研究现状、发展趋势、研究热点等信息,并对语义检索研究热点进行综述。
- 亢丽芸王效岳白如江
- 关键词:语义检索信息检索语义网本体
- k-clique社区知识创新演化方法研究被引量:25
- 2013年
- 提出一种基于k-clique社区的知识创新演化揭示方法。首先,构建科技文献时序关键词共词网络。然后,将共词网络划分为n个最大完整子网络Gs,在Gs中寻找k-clique(2
- 白如江冷伏海
- 关键词:社区网络知识创新
- 基于支持向量机和核心特征词的科技文献自动标引研究被引量:5
- 2014年
- 科技文献通常包括研究目的、方法、结果和结论等信息,如何将科技文献标引上这些信息,帮助科研人员在数量巨大的文献中快速发现符合研究需要的内容显得尤为重要。文章在研究分析科技文献写作特点基础上,提出了基于词、英文(专有名词、缩写词)以及数字的核心特征词提取策略;然后将科技文献标引问题转化为句子分类问题,结合提出的核心特征词,采用支持向量机分类器对科技文献进行句子级别的语义标引。通过对1168篇糖尿病医学类论文实验,证明本文提出的方法能够有效地学习和标引科技文献中的句子,进而有效地对科技文献关键信息点进行自动标引。
- 白如江王晓笛王效岳
- 关键词:自动标引支持向量机特征提取
- 大数据背景下数据科学分析工具现状及发展趋势被引量:39
- 2015年
- 文章根据大数据时代的特征,分析了海量数据给数据科学分析工具带来的主要挑战,介绍了为应对挑战而发展的大数据分析工具,并对比分析了R语言、Rapid Miner、Mahout三种数据科学中比较流行的大数据分析工具,发现R语言和Rapid Miner功能全面,而Mahout具有突出的大数据分析能力,最后指出了数据科学分析工具的发展趋势。
- 杨京王效岳白如江祝娜
- 关键词:R语言大数据
- 语义角色标注及其在科技情报分析中的应用研究被引量:3
- 2015年
- 文章首先梳理了国内外对语义角色标注技术研究的相关文献,并综述了支持语义角色标注的主要语料资源,从句法分析、特征向量选择以及机器学习3个角度介绍了目前语义角色标注的主要方法,指出语义角色标注的未来发展趋势。最后,详细描述了基于语义角色标注的科技创新知识发现过程以及语义角色标注在科技情报分析研究中的应用价值,以期促进大数据时代科技情报语义分析研究。
- 祝娜王效岳白如江
- 关键词:语义角色标注科技情报知识发现
- 基于数字指纹的文献相似度检测研究被引量:7
- 2013年
- 针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。
- 白如江王晓笛王效岳
- 关键词:数字指纹最大熵原理