微博中可扩展(Scalable)的特定主题的影响力分析

Scalable Topic-Specific Influence Analysis on Microblogs

本博客主要介绍了常见的概率主题模型，主要总结LDA及FLDA变形模型的参数，并利用FLDA模型分析社交网络中用户的影响力。主要包括一下内容：

第一：主题模型介绍(Topic Model)

第二：LDA及Gibbs Sampling

第三：FLDA模型及用户影响力的分析

第四：LDA Gibbs Sampling的python实现

第一：主题模型介绍

在机器学习和自然语言处理领域中，主题模型是用来在一系列文档中发现抽象主题的统计模型。直观的讲，对于一个给定的文档是关于特定的话题，人们总会希望这些特定词（主题）的以更高的频率或多或少的出现在该文档中。比方说，如果一篇文章是在讲狗的，，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

话题分析软件/工具

Mallet (software project)Stanford Topic Modeling ToolkitGensim-Topic Modeling for Humans参考文献

Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1999: 50-57.

Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.

Steyvers M, Griffiths T. Probabilistic topic models[J]. Handbook of latent semantic analysis, 2007, 427(7): 424-440.

第二：LDA模型及Gibbs Sampling（待续。。。）

世界上那些最容易的事情中，拖延时间最不费力。

相关文章：

你感兴趣的文章：

标签云：