搜索到385篇“ 大规模语料“的相关文章
- 基于大规模语料的新兴技术识别方法和装置
- 本公开涉及数据分析技术领域,具体涉及一种基于大规模语料的新兴技术识别方法和装置,该方法包括:确定研究领域构建候选文献集,并对候选文献集进行关键词提取,以获得候选关键词数据集;根据候选文献集中候选文献数量以及关键词的相关信...
- 殷俊褚晓泉段毅成赵姝郭双瑞仇瑜李青赵慧军刘德兵
- 大规模语料清洗对齐方法及装置
- 本发明实施例提供一种大规模语料清洗对齐方法及装置,所述方法包括:对历史稿件进行解析和分句,获得句子集合;取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句...
- 袁建
- 日语色彩词「赤い」的认知语义研究——基于大规模语料库
- 2023年
- 该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义;(3)基于身体经验的原型义很重要,是理解扩展义的前提;(4)在认知理据方面,基于隐喻的语义扩展少于基于转喻的语义扩展;(5)语义扩展程度较高。同时,日语学习者在学习日语色彩词时,也要先找到各义项间的认知理据,重点理解和把握原型义,了解日本人认知世界的方式,才能更好地学习扩展义。
- 韩笑钟勇
- 关键词:色彩词大规模语料库认知语言学语义扩展日语教学
- 基于较大规模语料的通用学术汉语词汇及应用研究
- 近年来随着我国对留学生的培养由规模扩大转向质量提升,学生的毕业论文写作问题逐渐吸引学界的关注。学历教育留学生在专业学习中会面临学术论文阅读和写作的问题,但无论在教材还是课程设置上都未对此形成系统化的设置,具体表现在:学术...
- 张茜
- 关键词:对外汉语教育语料库
- 基于大规模语料的新兴技术识别方法和装置
- 本公开涉及数据分析技术领域,具体涉及一种基于大规模语料的新兴技术识别方法和装置,该方法包括:确定研究领域构建候选文献集,并对候选文献集进行关键词提取,以获得候选关键词数据集;根据候选文献集中候选文献数量以及关键词的相关信...
- 殷俊 褚晓泉 段毅成 赵姝 郭双瑞 仇瑜 李青 赵慧军 刘德兵
- 基于大规模语料库的“X不X”结构省略式研究
- 2022年
- “X不X”结构本是典型的正反问格式,但在日常使用中用法逐渐扩大化,衍化出一系列省略形式。省略形式固定化后语义偏侧性更加明显,且更具口语化。省略形式的自然衍生是语音的自然脱落,属于典型的“有义无音”现象。同时“X不X”结构及其省略式也正在逐步语法化,起到充当话语标记的作用。
- 王素改李亚芳
- 关键词:动因
- 人类语言信息传递速率的共性——基于61种语言大规模语料库的计算被引量:3
- 2022年
- 人类语言在形式上纷繁多样,但作为信息传递工具,不同语言都使用发音–听觉信道完成信息传递。本文对覆盖49.8亿人口的61种语言的大规模语音、文本语料库数据进行了计算研究,以探讨不同语言信息传递的速率和策略。计算结果发现人类语言信息传递的速率和策略具有很强的共性:61种不同语言中,语言传递信息的速率都分布在14比特每秒左右,同时在词这一级单位上,不同语言有非常一致的信息密度(约6.8比特每词)和平均语速(约2词每秒),这意味着在词这一级单位上不同语言使用了完全一致的编码策略和信息速率。而不同语言在信息编码问题上的多样性主要体现在音节这一层级上。
- 孔超刘娟
- 关键词:语言共性言语交际信息速率信息编码
- 基于大规模语料库的古文词典构建及分词技术研究被引量:9
- 2021年
- 古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。
- 邢付贵朱廷劭
- 关键词:大数据语料库
- 基于大规模语料库的现代汉语动宾搭配知识库构建被引量:4
- 2021年
- 汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。该文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140个,从BCC语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300万对,形成动宾搭配知识库。
- 王贵荣饶高琦荀恩东
- 关键词:动宾搭配知识抽取知识库
- 从汉字词汇的使用看汉字在东亚国家的前途——基于大规模语料库的考察被引量:2
- 2021年
- 日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点。由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量使用汉字,而韩国汉字消失殆尽,越南彻底废除汉字。但是近年来韩国、越南出现了恢复使用汉字的呼声。根据对日本、韩国、越南的现代语言的大规模数据调查,虽然韩国、越南基本不使用汉字,但是,这些语言中的汉字词汇并没有受到这些国家限制或者废除汉字的语言政策的影响,仍然大量存在,日本汉字词汇的使用量较明治时期也所增长,汉字词汇就像汉字的种子埋藏在这些国家的语言中。随着社会的进步,原先废除汉字的原因正在逐步消失,只要条件成熟,汉字在这些国家的前途是光明的。
- 施建军
- 关键词:汉字词汇大规模语料库信息技术
相关作者
- 鹿文鹏

- 作品数:131被引量:65H指数:5
- 供职机构:齐鲁工业大学
- 研究主题:知识库构建 自然语言处理技术 语义匹配 句子 词义消歧
- 龚才春

- 作品数:25被引量:99H指数:5
- 供职机构:北京市计算中心
- 研究主题:大规模语料 新词 词语 短文 模糊搜索
- 程学旗

- 作品数:676被引量:6,355H指数:29
- 供职机构:中国科学院计算技术研究所
- 研究主题:文本 抽取 大数据 社交网络 标签
- 贺敏

- 作品数:116被引量:141H指数:7
- 供职机构:国家计算机网络与信息安全管理中心
- 研究主题:存储介质 文本 聚类 文本数据 热度
- 贺樑

- 作品数:203被引量:206H指数:8
- 供职机构:华东师范大学
- 研究主题:用户 解释性 语言模型 用户兴趣 基于用户