熊赟 作品数:41 被引量:280 H指数:10 供职机构: 复旦大学计算机科学技术学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 上海市教育委员会重点学科基金 更多>> 相关领域: 自动化与计算机技术 生物学 医药卫生 文化科学 更多>>
结对编程成本与收益之探 被引量:8 2004年 结对编程(PairProgramming)是极限编程(ExtremeProgramming)的十二个实践之一,是团队设计的基础。它是指两个开发人员共用一台计算机,其中一个人负责具体细节,另一个人关注整体,并且这两人的角色可以随时交换。本文通过一个项目的运作过程的试验实例,分析结对编程的成本和收益。结对编程的优势在于:改进设计质量、减少程序缺陷、降低人员风险、提高技术技能和团队合作精神。为中小型企业软件过程改进提供了具有相当经济意义的方案,推动企业生产力、企业文化改进。 熊赟 陈海关键词:企业文化 企业生产力 团队 极限编程 软件过程改进 Gen-Cluster:一个基因表达数据的高维聚类算法 被引量:4 2008年 基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果. 熊赟 邱伯仁 张坤 朱扬勇关键词:高维数据挖掘 聚类 基因表达数据 高级操作系统课程思政探索与实践 被引量:14 2021年 以操作系统课程为主线,分析理工类课程思政存在的困境,通过典型案例深入探讨思政教育与高级操作系统课程融合的可能性和入手点,最后说明课程思政教学效果并提出课程在实践和迭代过程中的教学反思。 李姗姗 沈立 文艳军 刘万伟 熊赟 郦旺关键词:操作系统 扩散峰度成像联合动态对比增强MRI诊断乳腺良恶性病变的价值 被引量:37 2018年 目的探讨扩散峰度成像(DKI)联合动态对比增强MRI(DCE-MRI)诊断乳腺良、恶性病变的价值,以及对不同病理预后因素和分子亚型病变的鉴别诊断能力。
方法回顾性分析2016年11月至2017年5月上海市第一人民医院经手术或穿刺病理证实的64例乳腺疾病患者。均行横断面T1WI、DKI和DCE-MRI检查。获取DKI参数[包括扩散峰度值(MK)、平均扩散率(MD)]和DCE-MRI参数[包括容量转移常数(Ktrans)、血管外细胞外间隙容积比(Ve)、血浆分数(Vp)和速率常数(Kep)]。进行病理分析,监测雌激素受体(ER)、孕激素受体(PR)、人类表皮生长因子受体2(HER-2)及细胞核增殖指数Ki67,并将乳腺癌分为Luminal A型、Luminal B型、HER-2阳性型和三阴性型4种亚型。采用两独立样本t检验(正态分布且方差齐性数据)或Mann-Whitney U检验(偏态分布或方差不齐)比较乳腺良、恶性病灶间DKI参数及DCE-MRI参数的差异。以病理结果为金标准,绘制ROC评价DKI及DCE-MRI参数鉴别诊断乳腺良、恶性病变的效能。采用Mann-Whitney U检验和Kruskal-Wallis H检验比较不同预后因素间、不同分子亚型乳腺癌间DKI及DCE-MRI参数的差异。采用Spearman秩相关分析评价DKI及DCE-MRI参数与不同预后因素的相关性。
结果64例病灶均为单发,乳腺癌23例,良性病变41例。乳腺癌中,Luminal A型9例、Luminal B型7例、HER-2阳性型3例、三阴性型4例;ER、PR和HER-2阳性者分别为14、11和10例;Ki67高表达19例,低表达4例。乳腺良、恶性病变的MK、MD、Ktrans和Kep值差异均有统计学意义(P均〈0.05),Ve和Vp差异无统计学意义(P均〉0.05)。MK、MD、Ktrans、Kep鉴别诊断乳腺良、恶性病变的ROC下面积分别为0.897、0.808、0.844和0.842,联合多参数的鉴别诊断效能提高,联合上述4个参数,ROC下面积为0.950,诊断敏感度、特异度和准确度分别达0.870、0.9 李婷 鲁伦博 卓瑶瑶 连婧阁 孔德兴 熊赟 李康安关键词:乳腺肿瘤 磁共振成像 动态对比增强 Medas:一个基于Medline的生物医学文献分析系统 被引量:3 2015年 Medline是当前国际上最权威的生物医学文献数据库.人们不仅可以从这些文献得到大量的诊疗信息,而且可以从不同年代发表的文献主题之间的差异挖掘出生物医疗研究不同时间的关注点.基于此,开发了基于Medline的生物医学文献分析系统(biomedical literature analysis system based on Medline,Medas),系统设计实现了一系列的文献挖掘算法,提供了生物医疗领域的演变分析、疾病诊疗方案查询、生物医疗领域研究主题变迁分析等功能.这些功能可以为医护人员提供诊疗护理建议,可以帮助医疗研究人员了解生物医疗领域的研究趋势以及不同疾病、诊疗方案在不同时期的关注度,也可以为普通用户查询疾病基本相关信息提供帮助. 佘玉轩 熊赟关键词:MEDLINE 文本挖掘 数据挖掘 主题模型 OMisy:一个面向股吧数据的观点挖掘系统 被引量:1 2015年 市场情绪对股票走势具有重要影响,了解市场情绪有助于更准确地判断股票走势.股票网络论坛(简称股吧)作为一种信息载体和传播途径,相比其他传播载体更具针对性和实时性,为研究投资者情绪倾向提供了丰富的数据来源.设计并实现了一个面向股吧数据的观点挖掘系统,提供股吧数据获取、情绪倾向分析、热度分析、结果可视化和数据处理等功能.为用户对市场情绪掌握和股票趋势分析提供有力支持. 张一舟 曾剑平 孙婧 孙婧关键词:情感分析 数据挖掘 投资者情绪 股票走势 一种优化多重过滤的序列查询算法 被引量:2 2010年 序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法. 戴东波 汤春蕾 邱伯仁 熊赟 朱扬勇关键词:序列数据 相似性查询 过滤器 度量空间 基于整体和局部相似性的序列聚类算法 被引量:20 2010年 现有的很多序列聚类算法是基于"局部特征可以表征整个序列"的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量. 戴东波 汤春蕾 熊赟关键词:序列数据 聚类 基于参考集索引的高效序列相似性查找算法 被引量:8 2010年 序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing). 戴东波 熊赟 朱扬勇ProFaM:一个蛋白质序列家族挖掘算法 被引量:2 2007年 有效分析蛋白质家族是生物信息学的一项重要挑战,聚类成为解决这一问题的主要途径之一.基于传统序列比对方法定义蛋白质序列间相似关系时,假设了同源片断间的邻接保守性,与遗传重组相冲突.为更好地识别蛋白质家族,提出了一种蛋白质序列家族挖掘算法ProFaM.ProFaM首先采用前缀投影策略挖掘表征蛋白质序列的模式,然后基于模式及其权重信息构造相似度度量函数,并采用共享最近邻方法,实现了蛋白质序列家族聚类.解决了以往方法在蛋白质模式挖掘及相似度设计中的不足.在蛋白质家族数据库Pfam上的实验结果证实了ProFaM算法在蛋白质家族分析上有良好的结果. 熊赟 陈越 朱扬勇关键词:蛋白质序列 蛋白质家族 聚类 数据挖掘 生物信息学