首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   10篇
  免费   2篇
  国内免费   2篇
工业技术   14篇
  2017年   3篇
  2015年   2篇
  2013年   1篇
  2012年   1篇
  2011年   3篇
  2010年   2篇
  2009年   1篇
  2008年   1篇
排序方式: 共有14条查询结果,搜索用时 15 毫秒
1.
基于N元模型的维吾尔文文本分类技术研究   总被引:1,自引:0,他引:1  
考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术.其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低.在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类.实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达到86.56%.  相似文献   
2.
该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能。  相似文献   
3.
在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域,三种语言中共享字符比较多,跟阿拉伯字符区域混在一起,没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便。该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征,然后在此基础上设计了维、哈、柯文种识别算法。 实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96.67%以上。  相似文献   
4.
通过对目前处于研究发展阶段的后缀数组技术与倒排索引技术的简单介绍,并对两者的优缺点进行了对比,对维、哈、柯文搜索引擎的索引创建进行改进的新方法提出了构思,以实现查询效率和查准率的提高。  相似文献   
5.
6.
以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。  相似文献   
7.
在对常用压缩技术进行介绍的基础上,结合维吾尔语代码特点来选择合适的压缩技术对文本进行压缩,以实现压缩率的提高,从而减少搜索引擎对数据空间要求。通过初步实验验证所选方法具有一定的正确性,取得了一定的效果。  相似文献   
8.
以汉、维、哈、柯等具有多种书写方向的多文种电子词典软件系统开发为背景,首先指出了其中与语种相关的技术难点,提出相应的解决方案,即通过XML的标注属性和字母的UNICODE区域从属关系来判断词语的书写方向;其次计算组成词语的各个字母来自不同语言的概率来判断词语的文种;最后对开源索引工具Lucene进行修改将其成功应用到了电子词典中词库的索引中。应用结果表明该技术方案的可行性和有效性。  相似文献   
9.
该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。  相似文献   
10.
该文提出了一种基于统计和浅层语言分析的维吾尔文语义串快速抽取方法,采用一种多层动态索引结构为大规模文本建词索引,结合维吾尔文词间关联规则采用一种改进的n元递增算法进行词串扩展并发现文本中的可信频繁模式,最终依次判断频繁模式串结构完整性从而得到语义串。通过在不同规模的语料上实验发现,该方法可行有效, 能够应用到维吾尔文文本挖掘多个领域。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号