张俐
- 作品数:21 被引量:190H指数:8
- 供职机构:教育部更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术语言文字电子电信理学更多>>
- 基于序列相交的短语译文获取被引量:4
- 2009年
- 短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。
- 王辰宋国龙吴宏林张俐刘绍明
- 关键词:计算机应用中文信息处理EBMT
- 模糊聚类在自适应矢量量化码本训练中的应用
- 2000年
- 自适应矢量量化在语音信号处理中有广泛的应用,提出了一种基于SFCM算法的自适应矢量量化码本的训练方法,其特点是通过模糊聚类方法,重新调整训练样本与码字之间的隶属度,达到最小编码失真,使码本更适合新说话人,且计算简单.方法的实验结果表明,可以使编码平均失真下降.
- 张俐李晶皎顾树生
- 关键词:矢量量化语音信号处理
- 基于维基百科类别的文本特征表示被引量:17
- 2011年
- 该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。
- 王锦王会珍张俐
- 关键词:文本分类文本表示
- 模糊形式概念分析与模糊概念格被引量:19
- 2007年
- 针对在许多应用领域中,大多数信息都是复杂的、不确定的,而传统的形式概念分析不能表达这些模糊的、不确定的信息问题,介绍了将Zadeh的模糊数学理论与形式概念分析理论相结合所形成的模糊形式概念分析理论.给出并证明了在模糊形式背景下对象集合及属性集合的一些结论.建立了在模糊形式背景下的模糊概念格并证明了该模糊概念格仍然是一个完备格.最后用实例说明了这种模糊概念格的构造方法.
- 胡明涵张俐任飞亮
- 关键词:形式概念分析模糊概念格完备格
- 满文矢量字库和罗马转写满文输入法的实现被引量:3
- 2003年
- 通过研究满文文字的特征,提出满文搭配字母和满文字根的概念,并在满文字根的基础上构建Windows通用矢量字库,由满文字根拼接成满文字母,再由满文字母拼接成满文,最终实现基于矢量字库满文文字的显示·在依据满文搭配字母和拼接规则构建的满文搭配字母表的基础上设计标准罗马转写向满文编码转换算法,基于该算法的罗马转写满文输入法实现了在Windows下应用程序对满文文字的调用和处理,经过多种应用程序测试,满文的显示和输入法使用效果良好·
- 张广渊李晶皎张俐
- 关键词:满文输入法矢量字库
- 加密软件安装到硬盘的研究及实现
- 1997年
- 介绍硬盘指纹的生成。
- 朱禹张俐
- 关键词:指纹操作系统硬盘加密
- WordNet综述被引量:50
- 2001年
- WordNet是一个在线的词典参照系统 ,它是在当前基于人类词汇记忆的心理语言学理论推动下产生的。这个系统中的名词、动词和形容词都聚类为代表某一基本词汇概念的同义词集合 。
- 姚天顺张俐高竹
- 关键词:心理语言学同义词WORDNET词汇
- 基于领域类别信息C-value的多词串自动抽取被引量:8
- 2010年
- 该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点。实验结果验证了方法的有效性。
- 李超王会珍朱慕华张俐朱靖波
- 关键词:中文信息处理领域信息
- 基于词对齐的双语组块对齐
- 本文提出了一种基于词对齐的双语组块对齐的方法。它利用已有的词对齐信息和英语组块识别结果,进行汉语组块的识别和双语组块的对齐。通过对双语组块对齐实例的分析,我们将组块对齐分为三种情况:(1)双语组块对应连续(2)双语组块对...
- 任登君李珩张俐姚天顺
- 关键词:词对齐
- 文献传递
- Co-training机器学习方法在中文组块识别中的应用被引量:16
- 2005年
- 采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。
- 刘世岳李珩张俐姚天顺
- 关键词:计算机应用中文信息处理分类器