曹博 作品数:14 被引量:67 H指数:6 供职机构: 曲阜师范大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 医药卫生 文化科学 更多>>
一种对RNA分子进行绝对定量的高通量测序方法 本发明提供了一种对RNA分子进行绝对定量的高通量测序方法:RNA样品脱磷酸化;再通过T4 RNA连接酶,连接脱磷酸化的RNA与DNA接头1,捕捉95%以上的RNA;之后用去甲基化酶减少RNA修饰;再去除多余的接头1;然后... 曹博基于Spark的并行频繁模式挖掘算法 被引量:13 2016年 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 曹博 倪建成 李淋淋 于苹苹 姚彬修关键词:频繁模式挖掘 TOP-K 模式树 并行计算 一种DNA可逆保护和分离的方法 本发明提供了一种对DNA进行可逆保护和分离的方法,首先将目标DNA分子的5’端进行磷酸化;然后将5’端腺苷化修饰;终止反应后获得的样品中加入对腺苷化修饰DNA敏感的核酸外切酶消化模板;最后将获得的腺苷化修饰DNA,即分离... 曹博 张清华 刘莉莉 季红一种定位基因组DNA上损伤和修饰位点的方法 本发明提供了一种定位基因组DNA上损伤和修饰位点的方法,首先将DNA样品的损伤或修饰位点转化为断裂位点;然后加入硫代核苷酸和DNA聚合酶I进行切口平移;终止反应后获得的样品中加入对磷硫酰化修饰DNA敏感核酸酶消化模板;最... 曹博基于聚类和Spark框架的加权Slope One算法 被引量:8 2017年 针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。 李淋淋 倪建成 于苹苹 姚彬修 曹博关键词:SLOPE 聚类 SPARK 基于多源信息相似度的微博用户推荐算法 被引量:11 2017年 针对传统的协同过滤(CF)推荐算法中存在的数据稀疏性和推荐准确率不高的问题,提出了基于多源信息相似度的微博用户推荐算法(MISUR)。首先,根据微博用户的标签信息运用K最近邻(KNN)算法对用户进行分类;然后,对得到的每个类中的用户分别计算其多源信息(微博内容、交互关系和社交信息)的相似度;其次,引入时间权重和丰富度权重计算多源信息的总相似度,并根据其大小进行TOP-N用户推荐;最后,在并行计算框架Spark上进行实验。实验结果表明,MISUR算法与CF算法和基于多社交行为的微博好友推荐算法(MBFR)相比,在准确率、召回率和效率方面都有较大幅度的提升,说明了MISUR算法的有效性。 姚彬修 倪建成 于苹苹 李淋淋 曹博关键词:多源信息 稀疏性 相似度 一种基于Canopy和粗糙集的CRS-KNN文本分类算法 被引量:9 2017年 针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和F_1值都得到了一定的提高。 姚彬修 倪建成 于苹苹 曹博 李淋淋关键词:粗糙集 文本分类 基于Spark框架的并行聚类算法 被引量:6 2017年 针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means(Spark Based Triangle Inequality Canopy-K-means)并行聚类算法。为了更好地解决K值选取的盲目性和随机性的问题,该算法利用Canopy进行预处理得到初始聚类中心点和K值;在K-means迭代计算过程中进一步利用距离三角不等式定理减少冗余计算、加快聚类速度,结合Spark框架实现算法的并行化,充分利用Spark的内存计算优势提高数据的处理速度,缩减算法的整体运行时间。实验结果表明,SBTICK-means算法在保证准确率的同时大大提高了聚类效率,与传统的K-means算法、Canopy-K-means算法和基于MapReduce框架下的该算法相比,在加速比、扩展比以及运行速率上都有一定的提高,从而更适合应用于海量数据的聚类研究。 李淋淋 倪建成 曹博 于苹苹 姚彬修关键词:K-MEANS SPARK HADOOP MAP REDUCE 一种定位基因组DNA上损伤和修饰位点的方法 本发明提供了一种定位基因组DNA上损伤和修饰位点的方法,首先将DNA样品的损伤或修饰位点转化为断裂位点;然后加入硫代核苷酸和DNA聚合酶I进行切口平移;终止反应后获得的样品中加入对磷硫酰化修饰DNA敏感核酸酶消化模板;最... 曹博文献传递 基于用户行为分析的关联规则挖掘算法研究 随着移动智能设备的广泛普及,社交网络逐渐成为人类获取资源、传播信息、交友和娱乐的主要媒体之一。这种现象也使得用户行为数据呈爆炸式增长,用户行为分析任务也因数据的多源、高维、稀疏等特征变得异常复杂,且更具有挑战性。数据集中... 曹博关键词:信息检索 数据挖掘 关联规则 程序语言