鞠菲
- 作品数:6 被引量:30H指数:3
- 供职机构:华东师范大学更多>>
- 发文基金:教育部人文社会科学研究基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 网络信息老化实证研究——以新浪新闻为例被引量:15
- 2010年
- 网络信息以网络为载体,网络信息老化产生了与传统文献信息不同的老化特点。受传统文献老化研究中通过引文数量衡量信息价值的影响,已有的实证研究大多通过链接数量衡量信息的价值,但是由于网络的特殊性,链接分析存在较多的干扰因素。以新浪网站中的国内新闻为研究对象,通过评论量量化信息的价值,通过对新浪新闻的抽样调查,统计网络新闻信息在发布后每小时评论量的增长,分析网络信息价值的衰减。由分析可知在单一网站内部,网络信息的老化符合负指数变化的规律,即y=e-0.35t+4.502,与传统的文献信息老化表现为相同的规律,但是速度要快得多,半衰期小于一天。同时网络信息的老化还受到其他因素的影响呈现波动性。掌握了网络信息老化的规律将为网站建设者指明一条更加清晰的道路,使其更好地服务于用户。
- 鞠菲
- 关键词:网络信息信息计量学
- 中文植物描述数据的一致性研究
- 2012年
- 为了揭示不同物种描述数据源中数据的一致性程度,比较了《安徽植物志》、《河南植物志》和《山东植物志》中的100个物种的描述数据。结果表明,由于描述分类单元模式的选择、使用的术语以及数据表现形式等方面存在差异,造成各种植物志所含描述数据不一致成为广泛存在的现象。其中,部分相同的占62.54%,完全相同的部分仅占18.66%,相互矛盾的占1.47%,而只在一个数据源中出现的描述占17.34%。
- 段宇锋黑珍珍鞠菲
- 关键词:生物多样性
- 专业领域未登录词识别研究
- 自然语言处理一般以词为单位“理解”语言的含义,首要的任务就是分词。中文的词与词之间由于缺少天然的分隔符,大量的学者花费了数年的精力研究中文分词,致力于提高分词的准确率。中文自然语言处理中分词主要有两大难点:未登录词识别、...
- 鞠菲
- 关键词:未登录词识别统计语言模型自然语言处理
- 文献传递
- 基于贝叶斯分类的中文物种描述文本的语义标注研究被引量:3
- 2012年
- 本研究从《中国植物志》中随机采集1000个文档作为数据集,采用基于先导词的朴素贝叶斯算法实现中文物种描述文本的自动语义标注。通过实验性研究,实验数据表明,先导词能够有效提升朴素贝叶斯的标注效率。采用先导词后,F平均值提高0.048~0.107,尤以Fr为2时效果最好,整体标注性能F平均值高达0.902。各元素的标注性能也较为理想。Fr分别取1、2、3时,大部分元素的F值为0.730~0.964。
- 段宇锋黑珍珍鞠菲崔红
- 关键词:朴素贝叶斯语义标注
- 基于N-Gram的专业领域中文新词识别研究被引量:10
- 2012年
- 以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。
- 段宇锋鞠菲
- 关键词:N-GRAM新词识别词频统计
- 基于自主学习规则的中文物种描述文本的语义标注研究被引量:4
- 2012年
- 从《中国植物志》中随机采集1 000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注。实验数据表明,本研究设计的基于规则的算法整体标注效率(F值)达到0.930,大部分元素的F值在0.724-0.964之间,该算法优于朴素贝叶斯分类算法。同时证明,先导词对优化算法具有积极意义。
- 段宇锋黑珍珍鞠菲崔红
- 关键词:语义标注