排序方式: 共有376条查询结果,搜索用时 15 毫秒
1.
双语词嵌入通常采用从源语言空间到目标语言空间映射,通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。然而大型的平行语料难以获得,词嵌入的准确率难以提高。针对语料数量不对等、双语语料稀缺情况下的跨语言词嵌入问题,该文提出一种基于小字典不对等语料的跨语言词嵌入方法,首先对单语词向量进行归一化,对小字典词对正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。在英语—意大利语、德语和芬兰语上进行了实验验证,实验结果证明该文方法可以在跨语言词嵌入中减少梯度下降迭代次数,减少训练时间,同时在跨语言词嵌入上表现出较好的正确率。 相似文献
2.
3.
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量. 相似文献
4.
针对多谐波源谐波责任划分时存在的可获得测试样本有限的不足,提出一种基于选择有效数据段的多谐波源谐波责任划分方法,在有效数据段内,只有一个谐波源负荷变化而其他谐波源负荷基本保持稳定。采用改进的k-means聚类方法,对要计算谐波贡献的谐波源以外的各谐波源谐波电流进行阶梯式的聚类处理,最终划分成多个有效数据集合。然后利用偏最小二乘法估计各数据集合对应的谐波源谐波责任,并加权求和所有集合的谐波责任作为关注时间段总的谐波责任。该方法克服了传统数据选择法难以获得有效时间段的缺点。为验证方法的有效性,在IEEE 14节点标准配电网络上进行仿真分析,结果表明,所提方法能有效解决数据段选择问题,并且优于传统数据选择方法。 相似文献
5.
6.
针对现有差分隐私k-means算法对初始中心点敏感、用户位置数据误差偏大、可用性较低等问题,根据LBS的特点,引入人流密度的概念,提出一种基于差分隐私k-means的混合位置隐私保护方法。根据LBS特点将用户位置点分成离散位置点和非离散位置点,基于差分隐私技术,采用改进聚类算法对位置信息进行泛化和加噪;通过分析用户位置点的稀疏程度来确定离散点,对离散点位置信息采用基于差分隐私的单独加噪技术;对非离散点采用基于差分隐私的改进k-means算法进行泛化处理,以实现用户位置信息的隐私保护。仿真实验表明,在相同隐私预算的前提下,该方法具有较高的数据可用性。 相似文献
7.
通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性。基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务。与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷。 相似文献
8.
商业银行建立一套科学合理的客户细分模型和方法对自身的发展有着重要的意义。针对于商业银行的客户,在前人的研究基础之上,在考虑客户过去的利润贡献、未来可能收益、和忠诚度的基础上,构建了商业银行客户细分模型,提出了一套基于客户终身价值和客户忠诚度的细分方法,之后利用数据挖掘中k-means快速聚类对客户进行细分,并在聚类结果的基础上从客户的心理因素和个性特征的视角出发,对客户进行二次细分。为银行客观评价客户价值、科学细分客户、更有效的实现分层营销和差别服务提供支持。 相似文献
9.
经典谱聚类算法将数据聚类转为图划分问题,在分析其Normalized Cut函数与传统加权核k-means等价基础上,设计了一种基于抽样改进加权核k-means算法的大规模数据集谱聚类算法,算法通过加权核k-means迭代优化避免Laplacian矩阵特征分解的大量资源占用,通过随机映射得到近似奇异值分解,并由近似奇异向量确定各点数据权重及抽样概率,以此得到快速合理抽样,通过数据抽样并将聚类中心约束到抽样点生成的子空间中,避免全部核矩阵的使用,从而降低经典算法的时间空间复杂度。实验结果表明,改进算法在保持与经典算法相近精度基础上,大幅提高了聚类效率,实验验证了改进算法的有效性。 相似文献
10.