排序方式: 共有14条查询结果,搜索用时 15 毫秒
1.
基于N元模型的维吾尔文文本分类技术研究 总被引:1,自引:0,他引:1
考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术.其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低.在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类.实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达到86.56%. 相似文献
2.
3.
在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域,三种语言中共享字符比较多,跟阿拉伯字符区域混在一起,没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便。该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征,然后在此基础上设计了维、哈、柯文种识别算法。 实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96.67%以上。 相似文献
4.
通过对目前处于研究发展阶段的后缀数组技术与倒排索引技术的简单介绍,并对两者的优缺点进行了对比,对维、哈、柯文搜索引擎的索引创建进行改进的新方法提出了构思,以实现查询效率和查准率的提高。 相似文献
5.
6.
7.
在对常用压缩技术进行介绍的基础上,结合维吾尔语代码特点来选择合适的压缩技术对文本进行压缩,以实现压缩率的提高,从而减少搜索引擎对数据空间要求。通过初步实验验证所选方法具有一定的正确性,取得了一定的效果。 相似文献
8.
以汉、维、哈、柯等具有多种书写方向的多文种电子词典软件系统开发为背景,首先指出了其中与语种相关的技术难点,提出相应的解决方案,即通过XML的标注属性和字母的UNICODE区域从属关系来判断词语的书写方向;其次计算组成词语的各个字母来自不同语言的概率来判断词语的文种;最后对开源索引工具Lucene进行修改将其成功应用到了电子词典中词库的索引中。应用结果表明该技术方案的可行性和有效性。 相似文献
9.
10.