Print

基于CRF模型的维吾尔语分词研究

论文摘要

条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.

论文目录

  • 1 技术方案
  • 2 语料库建设
  •   2.1 语料收集
  •   2.2 标注方法
  • 3 条件随机场算法
  • 4 特征模板设计
  • 5 训练分词模型
  •   5.1 实验方案设计
  •   5.2 单一特征实验
  •   5.3 组合特征实验
  •   5.4 实验对比分析
  • 6 实用性验证实验
  • 7 结语
  • 文章来源

    类型: 期刊论文

    作者: 李成华,孙雅婧,张世娟,艾提日也古丽·艾尼瓦尔

    关键词: 条件随机场,维吾尔语分词,特征模板,分词模型,分步实验

    来源: 中南民族大学学报(自然科学版) 2019年04期

    年度: 2019

    分类: 基础科学,哲学与人文科学,信息科技

    专业: 中国语言文字,计算机软件及计算机应用

    单位: 中南民族大学电子信息工程学院,中南民族大学教育学院

    基金: 湖北省自然科学基金资助项目(2017CFB784),中央高校基本科研业务费专项资金资助项目(CZW15043,CZQ14001)

    分类号: H215;TP391.1

    页码: 596-604

    总页数: 9

    文件大小: 734K

    下载量: 107

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/e6ae437f63ca4c2796f2c3a3.html