排序方式: 共有54条查询结果,搜索用时 27 毫秒
1.
抑郁症日益成为影响现代人生活幸福程度的重要因素。实时有效地识别用户情绪的方法对于抑郁症潜在患者的发现和治疗十分有意义。用户情绪的状态及变化会体现在其生活日志数据上。该文从使用可穿戴设备收集的用户生活日志数据出发,对数据进行了特征方面的分析;进一步地,使用以回归树为弱学习器的集成学习模型,设计了使用全部数据、仅用户自身数据以及仅他人数据进行训练的三组实验构成的对比实验框架,以比较使用不同用户数据对识别结果的影响。实验结果表明,基于生活日志数据的集成学习模型可以有效地识别用户的情绪状态。同时,基于实验结果提出了用户认知不一致的猜想,对于心理学上的抑郁分析也有一定的启发作用。该工作是目前所知第一个利用用户生活日志信息进行情绪识别以及抑郁症患者分析的工作,为后续进一步扩大实验规模和改良实验设计提供了思路。 相似文献
2.
近些年来,随着互联网的迅速发展,用户在各种在线平台上接收到海量的信息,信息爆炸成为一个关键性问题。在此背景下,推荐系统逐步渗透到人们工作生活的各个场景,已成为不可或缺的一环。它不仅可以帮助用户快速获得想要的信息和服务,还可以提高资源利用效率,从而给企业带来更多效益。因此,个性化推荐算法不仅获得了工业界广泛的关注,也是科研领域的研究热点之一。在个性化推荐的研究中,受限于平台与效率等因素,研究者大多无法将算法部署到在线系统上进行评价,因此离线评价成为推荐领域研究的主要方式。然而个性化推荐涉及到的场景复杂,可获得的数据信息多种多样,用户行为多为隐式反馈且存在许多噪声,这使得推荐系统离线评价的实验设定复杂多变,存在大量易被忽视却十分重要的细节。比如在训练采样负例时,既可以仅从用户没有交互过的商品中采样,也可以将验证测试集的商品视作未知交互加入采样池。同样,从训练到测试在很多其他环节也涉及这样的实现细节(如数据集处理、已知负样本的使用、Top-N排序候选集范围等)。这些实验细节通常不会在学术论文中被显式提及,却潜在影响了模型效果的对比,还决定着实验的科学性,甚至会导致相反或错误的分析结论。本文从数据集处理、模型训练、验证与测试、效果评价等多个角度,系统地讨论与反思了推荐系统实验中的细节设定。对于每个环节,我们枚举了若干常见设定,并在真实数据集上验证了其中某些设定的实际影响。实验结果表明一些细节确实会导致关于模型优劣的不同结论。最终我们形成了关于推荐系统实验细节的指导性总结,包括可选、建议、必须的三类设定,希望帮助推荐算法研究者规避实现细节上的陷阱,更科学合理地设计实验。 相似文献
3.
微博环境中用户可以为自己添加标签,用户所添加的标签往往被视为是对自身特点和兴趣的重要描述信息.标签中所包含的信息可能有助于建立精确的用户描述,因此在个性化推荐、专家检索、影响力分析等应用中有潜在的应用价值.首先,在大规模数据上分析和研究了微博中用户添加标签的行为及标签内容分布的特点;之后,通过主题模型对用户的微博内容进行分析,实验结果表明:用户的标签越相似,微博内容也越相似,反之亦然;随后,分析了用户关注关系与微博和标签内容之间的联系,实验结果显示,有关注关系的用户之间微博和标签的内容越相似;基于这个发现,分别使用标签内容和微博内容对真实微博数据中的用户关注关系进行预测,结果表明:基于标签的预测方法其效果明显优于基于微博内容的预测方法,显示出用户标签在描述用户兴趣方面的价值. 相似文献
4.
5.
6.
随着社交网站的流行以及用户的大规模增加,社交网络用户行为分析已经成为社交网站进行网站维护、性能优化和系统升级的重要基础,也是网络知识挖掘和信息检索的重要研究领域。为了更好地理解社交网络用户添加个人标签的行为特征,该文基于大约263万个微博用户的真实数据,对用户标签的分布进行了研究和分析。我们主要考察了用户标签的宏观分布特征,以及用户标签与关注对象的标签分布之间的联系,发现微博用户给自己添加标签时,在开始阶段倾向于使用反映个性的标签,之后会出于从众心理而选用大众化标签。我们将研究发现运用到基于关注关系的标签预测算法中,结果证实相关分析对于社交网站的标签推荐等课题具有一定的参考意义。 相似文献
7.
8.
Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。 相似文献
9.
网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regression 模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论 互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。 相似文献
10.