丁溪源
- 作品数:4 被引量:12H指数:3
- 供职机构:南京理工大学计算机科学与技术学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于分词提取重复串的未登录词遗漏量化模型被引量:5
- 2011年
- 基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。
- 张海军史树敏丁溪源黄河燕
- 关键词:未登录词识别条件随机域模型中文分词
- 一种改进的中文字符串排序方法被引量:3
- 2010年
- 对中文字符串排序,最快算法的时间复杂度是O(nlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是O(dn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序算法对代表字串的整型数组排序,用以实现对字符串的快速排序。实验表明,提出的算法能快速地进行中文字符串排序,比快速排序算法具有更好的性能,且排序时间与数据规模之间是线性关系,算法的时间复杂度为O(dn)。
- 张海军丁溪源朱朝勇
- 关键词:中文字符串散列表时间复杂度
- 基于大规模语料的中文新词抽取算法的设计与实现
- 中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。
首先在综合已有定义的基础上,将新词界定为不含命名...
- 丁溪源
- 关键词:中文信息处理最大熵模型
- 基于大规模语料划分的频繁模式查找算法被引量:1
- 2012年
- 频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。
- 丁溪源黄河燕张海军王树梅