国家高技术研究发展计划(2006AA01Z230) 作品数:4 被引量:105 H指数:4 相关作者: 彭京 唐世渭 杨冬青 唐常杰 乔少杰 更多>> 相关机构: 北京大学 成都市公安局 四川大学 更多>> 发文基金: 中国博士后科学基金 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
一种更新友好的基于分数的XML编码方法 由于XML已经成为网络环境中数据表示和交换的标准,如何实现高效的XML查询处理就尤为重要。目前XML区间编码是一种重要的编码方式,但是区间编码不适合XML数据频繁的更新。针对这一问题,基于XML树的结构,提出了一种利用分... 孙勇义 高军 王腾蛟 杨冬青关键词:可扩展标记语言 XML更新 文献传递 一种基于语义内积空间模型的文本聚类算法 被引量:58 2007年 现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 彭京 杨冬青 唐世渭 付艳 蒋汉奎关键词:内积空间 文本聚类 概念相似度 基于穿行次数的大规模图数据路径查询 在涉及复杂图数据的场景中,图的距离查询和路径查询有着重要的应用。有些应用涉及到规模巨大的图,并且需要快速的查询响应。在本论文中,我们从图中节点的重要性出发,提出了度量节点重要性的量化方法:"穿行次数";并基于穿行次数为节... 许世峰 高军 杨冬青 王腾蛟关键词:预处理 文献传递 基于XPath的Web页面自动清洗算法 针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法.算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识... 付艳 杨冬青 唐世渭 王腾蛟 高军关键词:DOM XPATH 文献传递 BICA:一种快速可扩展的ADTree构建算法 ADTree是一种基于boosting的决策树学习算法,其预测准确率比一般决策树高并可以给出预测置信度,在实际中有广泛的应用.已有的ADTree构建算法能有效地处理小规模数据,但对于大规模数据的处理非常低效.因此提出了一... 杨碧姗 王腾蛟 常雷 杨冬青 唐世渭关键词:决策树 文献传递 基于概念相似度的文本相似计算 被引量:17 2009年 根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性. 彭京 杨冬青 唐世渭 王腾蛟 高军关键词:概念相似度 向量空间 内积空间 基于重叠表达的多基因进化算法 被引量:17 2007年 受生物基因片段重叠表达现象的启发,文中提出了一种新的基于重叠表达进化算法——MEOE(Multigene Evolutionary algorithm based on Overlapped Expression).文章具体描述了MEOE的基因表达结构及相应的算法.不同于已有的工作,在MEOE中作为遗传物质的基因具有重复表达的概率,同时算法融合了免疫算法关于浓度的计算技术.文章对MEOE算法作了较为全面的分析,讨论了算法在表达空间、可表达性、性状遗传上的特点,并与传统算法作了相应比较.详尽的实验证明,MEOE算法在速度上是GEP的2.5~9.4倍.在高次函数发现问题上MEOE算法的成功率比GEP提高至少一个数量级.另外,通过实验证明了基于密度的概率选择函数在高次函数发现问题上具有一定优势. 彭京 唐常杰 元昌安 朱明放 乔少杰关键词:基因表达式编程 进化算法 一种基于层次距离计算的聚类算法 被引量:15 2007年 针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algo-rithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果. 彭京 唐常杰 程温泉 石葆梅 乔少杰关键词:聚类 数据挖掘