钱小飞 作品数:31 被引量:68 H指数:4 供职机构: 上海大学文学院 更多>> 发文基金: 国家高技术研究发展计划 上海市哲学社会科学规划课题 国家语委科研项目 更多>> 相关领域: 语言文字 自动化与计算机技术 文化科学 电子电信 更多>>
汉语内层最长名词短语的识别研究 2019年 汉语名词短语的内部结构复杂,找出名词短语内部嵌套的最长名词性成分,有助于消解底层句法歧义,挖掘论元结构和语义关系。文章分析了汉语内层最长名词短语的多层级分布特征,指出数据稀疏、结构歧义和边界歧义是识别的难点,并提出了一种基于条件随机场模型和基本名词块提升规则的识别方法,取得了85.23%的结构正确率和78.71%的结构召回率。实验结果表明,上层结构误识、联合结构、“v n n”格式、De后主谓结构和特殊歧义序列等造成的歧义是制约识别效果的主要原因。解决这些问题需要更多句法语义知识的参与,如在词汇层面收录含v简单组块,在句法层面引入句法规则验证机制等。 钱小飞关键词:条件随机场 面向识别任务的汉语名词短语本体研究综述 2017年 名词短语识别是汉语句法分析中的难点,挖掘和利用语言学知识是提高名词短语识别效率的关键。文章对汉语名词短语识别相关的本体研究进行了综述,讨论了名词短语的界定、分类、性质判定、结构关系和功能等问题,这些研究对于定义名词短语,抓取识别特征具有启发意义。 钱小飞关键词:本体研究 面向汉语国际教育的实词搭配知识库建设 被引量:5 2020年 汉语国际教育所需要的词语搭配是组块性搭配,频率效应、母语经验是教学和习得需要考虑的重要因素,可视、互动的词语组合网络有助于构建学生的内部词汇网络。本文提出由语法属性、线性属性、共现属性、翻译属性、教学功能属性等5种属性构成的描写框架,通过10个维度的属性描写,建成了由31003种搭配构成的二元实词搭配知识库,并构造了词语搭配的可视化网络,直观地展示了词汇集群和频率关系,有助于引导学生构建汉语词汇的心理网络。 钱小飞关键词:知识库 可视化 基于树库的汉语最长名词短语分布调查与分析 名词短语(MNP)识别是浅层句法分析的难点问题,对于句法分析、机器翻译、指代消解等任务具有重要意义.前人关注的问题主要集中于算法设计和统计机器学习模型的引入,而对于MNP本身缺乏深入研究,如何将语言学特征融入统计模型,值... 钱小飞 侯敏语言数据资源建设中的关键问题及对策 被引量:1 2021年 语言数据资源包括语料库和语言知识库,是语言服务和语言信息处理的重要支撑。本文分析了我国语言数据资源建设中存在的质量问题、发展不平衡问题、规范与评价问题、版权与共享问题,以及学科建设问题,并从理论建设、项目规划、管理与支持、规范与标准建设、版权研究、团队合作与人才培养等角度提出了14条建议,以推进我国的语言数据资源建设,弥补现有短板,面向未来语言学理论研究和应用发展的需求。 钱小飞中文基本地名识别 被引量:3 2009年 本文探讨了地名的概念、构成等问题,并针对其分布特点,使用常见地名匹配、碎片分析和组合扩展相结合的方法初步识别了中文基本地名,包括中国地名和汉译地名。开放测试取得了88.16%的正确率和87.32%的召回率。 钱小飞 侯敏基于归约的汉语最长名词短语识别方法 被引量:4 2015年 该文提出了最长名词短语(MNP)的操作性定义,分析了其构造和分布特征,并设计了一种基于baseNP归约的识别方法,利用MNP结构特性及起始有定成分、语义核心等语言学特征,缓解了最长名词短语长距离依赖与模型观察窗口受限的矛盾。开放测试取得了88.68%的正确率和89.21%的召回率;归约方法全面提升了识别性能,特别是将多词结构的调和平均值提高1%,优化幅度达6%以上,并且对长距离复杂结构有着更好的识别效果。 钱小飞 侯敏关键词:归约 基本名词短语 “地”字结构识别 被引量:3 2006年 “地”字结构是汉语中有标记的状语结构,“地”字结构的自动识别作为浅层句法分析的任务之一可以减少自动句法分析的歧义。本文在分析“地”字结构性质的基础上,利用规则与统计相结合的方法,基于分词文本对“地”字结构进行了对比性的识别研究。实验利用200万字的语料进行训练,将获取的数据用于自动识别,获得了较好的效果。 钱小飞关键词:句法分析 面向大型叙事作品的指人成分识别 本文定义了指人成分的概念,分析了指人成分的构成和分布特征,并面向大型叙事作品,提出了一种基于邻字熵统计和规则发现相结合的指人成分识别方法.实验对小说<英雄出世>的生文本进行了多次抽样测试,取得了86.93%的正确率和91... 钱小飞 陈小荷 董宇 何晓丽关键词:叙事作品 文献传递 面向大型叙事作品的指人成分识别 被引量:1 2008年 本文定义了指人成分的概念,分析了指人成分的构成和分布特征,并面向大型叙事作品,提出了一种基于邻字熵统计和规则发现相结合的指人成分识别方法。实验对小说《英雄出世》的生文本进行了多次抽样测试,取得了86.93%的正确率和91.83%的召回率。 钱小飞 陈小荷 董宇 何晓丽