李庆阳
- 作品数:3 被引量:37H指数:3
- 供职机构:华南理工大学计算机科学与工程学院更多>>
- 发文基金:广东省自然科学基金广东省科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向数据质量的ETL框架的设计与实现被引量:21
- 2010年
- 针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理。基于该设计思想开发一个ETL工具-DQETL。DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理。最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤。
- 李庆阳彭宏
- 关键词:数据仓库数据质量数据清洗
- 基于特征词关联性的同义词集挖掘算法被引量:10
- 2009年
- 一词多义和多词同义是语言中广泛存在的现象,它给自然语言处理带来了很多困难,解决这个难题的有效办法是建立包含上下文信息的同义词集。深入分析了概念、词汇和特征词三者的内在关系,并在此基础上提出了一种基于同义词汇的特征词的关联性,从文本中挖掘同义词集的算法。根据特征词之间存在关联性的特点,算法以成熟的关联规则挖掘算法作为基础,获得了明显优于同类算法的实验效果。算法获得的同义词集附带上下文信息,可有效解决文本中词汇的多义性和同义性问题。
- 陈建超郑启伦李庆阳严桂夺
- 关键词:自然语言处理同义词集特征词
- 基于词序列频率有向网的中文组合词提取算法被引量:6
- 2009年
- 随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类的认知心理模式,提出一种基于词序列频率有向网的组合词抽取算法,以识别自由文本中的组合词。算法首先建立描述文本中的词序列出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词提取出来。算法的优点是无须借助专业的语言知识,在实验分析中,算法显示了较好的效果。
- 陈建超郑启伦李庆阳严桂夺
- 关键词:有向图