薛化建 作品数:7 被引量:21 H指数:4 供职机构: 中国科学院新疆理化技术研究所 更多>> 发文基金: 中国科学院西部行动计划项目 博士科研启动基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
真值发现方法、装置 本公开提供了一种真值发现方法,可以应用于数据集成技术领域。该方法包括:基于数据源与数据源针对目标提出的声明,构建数据源‑声明二分图;基于所述数据源‑声明二分图,利用多跳图注意力网络,获取所述数据源‑声明二分图中的节点的高... 王轶 张国昊 周喜 马玉鹏 赵凡 王保全 薛化建 韩云飞基于子字单元的维吾尔语语音识别研究 被引量:5 2011年 为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。 薛化建 董兴华 周喜 吐尔洪.吾司曼 李晓关键词:维吾尔语 隐马尔科夫模型 连续语音识别 基于发布/订阅模型的异构网络数据交换方法 被引量:6 2020年 消息数据高效传输是混合式网络的一个研究重点.发布/订阅模型实现了消息发布者和消息订阅者之间解耦的消息传递模式,适用于混合网络之间的消息数据传输.通过将发布/订阅模型应用于消息数据交换,规范了消息数据的格式,实现了对各类通信设备的灵活管理以及基于消息内容的动态数据路由;并利用一种基于循环调度的动态负载均衡算法,对低速率网络和高速率网络之间的性能进行合理调度,提高了低速率网络的性能.模拟实验结果表明,在混合式网络中发布/订阅模型能实现可靠的消息数据交换,在负载平衡算法下性能更好. 杨勇 薛化建 任鸽关键词:混合网络 负载均衡 消息路由 维吾尔文网页正文抽取系统的研究与实现 被引量:3 2012年 从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。 蔡李 单艳 薛化建 苏国平关键词:维吾尔文 语料库 WEB文本挖掘 基于词缀库的非监督维吾尔语词切分方法 被引量:7 2011年 在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。 薛化建 董兴华 王磊 王磊 蒋同海关键词:维吾尔语 粘着语 最大后验概率 维吾尔语语音识别语料库中的OOV研究 被引量:4 2012年 鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库。实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率。 张小燕 宿建军 薛化建 王磊关键词:维吾尔语 语料库 语音识别 联盟链的可视化系统及方法 本发明提供一种联盟链的可视化系统及方法,系统包括:信息处理模块,用于对提取的联盟链网络数据、节点数据以及交易轨迹数据进行处理;信息可视化模块,用于基于处理后的数据生成联盟链视图,联盟链视图包括网络层视图、节点层视图以及交... 赵凡 任芃锟 周喜 王轶 王保全 韩云飞 薛化建