常红要
- 作品数:5 被引量:41H指数:2
- 供职机构:重庆大学计算机学院更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 意见挖掘中产品特征的层次提取方法
- 2010年
- 意见挖掘中,产品特征层次的学习是其中重要的环节之一。为了更准确的学习产品特征层次,提出了一种从非规则与规则意见文本语料中对产品特征层次进行学习的算法。该算法能同时对包含专业描述的规则语料以及人为指定主题的非规则语料进行学习。利用文本特征词识别技术去除与主题相关度较差的词汇,并使用相对熵和语法结构分析方法从语料中产生出层次关系。实验结果表明,该算法能够较好地学习特征层次。
- 张鹏朱征宇李存青曾丽芳陈烨徐凯常红要
- 关键词:相对熵语法结构
- 基于标签分析的网页正文提取技术研究
- 本文通过分析新浪、搜狐、网易、腾讯、百度、中国新闻网、中华网、21CN网这八大网站中的噪音数据特点和它所产生的影响,并利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法,可用于网页正文的...
- 常红要
- 关键词:网页正文HTML文档
- 文献传递
- 网页正文提取中与正文无关的图像清除技术被引量:1
- 2010年
- 因为图像相比文字具有更强的表现力,站点的设计者在设计广告时考虑的首要问题是如何吸引用户的"眼球",所以通常网页中的广告通常都是以图像的形式嵌入到网页中。这使得在HTML网页正文提取中主要处理的就是广告图像。文中综合分析了网页中图像的特点,提出了区域分块的HTML元素删除法来清除网页中的广告等无关图像并提取网页正文。实验结果表明,所提出的区域分块的HTML元素删除法很好地解决了网页正文提取中图像处理问题。
- 常红要朱征宇
- 网站界面设计用户体验被引量:24
- 2010年
- 以美学、心理学、交互设计学等理论为指导,论述了网页界面设计用户体验的最新研究进展和关键问题,提出Web2.0网站界面用户体验优化的全局化设计思想,即从整体上归纳了网站界面设计流程中重要环节的用户体验基本构建原则和方法。该思想为Web设计开发人员提供了全局性的用户体验设计方法和理论依据。
- 朱征宇陈烨常红要曾丽芳张鹏
- 关键词:WEB2.0用户体验可用性
- 基于HTML标记用途分析的网页正文提取技术被引量:15
- 2010年
- 通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。
- 常红要朱征宇陈烨张鹏曾丽芳
- 关键词:HTML网页数据挖掘内容抽取噪音数据