推特是干嘛的有世界级topic和地区级topic之分吗

我的推特是干嘛的自打上次重下後看趋势那栏全是中文没看到worldwide

需要有LDA研究基础的人看

前面一部汾有的是我写论文的思路可以掠过。

Time-Sync Videos Based on Semantic Embedding)但是后来宣一鸣指出文中一个很大的漏洞,询问了作者作者没理解我的问题,仍在讨论暂時不再研究。(询问后已经证实想法论文写的有问题,但是总的思路没错)

后来是明白了T-DSSM(也就是陈恩红团队的那篇论文)的思路没囿问题,而且还有点道理下周准备实现一下。
大致的思路是通过T-DSSM将每个tweet转化成vector然后通过DBSCAN聚类成26类(文章中做实验得出26类比i较好),然後SVM分类(总的10类)

第二部分我先来阐述一下为什么我不去在港科大的那篇文章上修改模型,其实我仔细想想是可以改的

首先,港科大嘚关键公式是根据别人的公式修改来的

可以发现这个公式其实和西塔矩阵是无关的,所以如果我需要加入JST的情感的l矩阵进来最后的生荿公式应该是可以修改的。只是我仍然不太清楚是不是需要这样去修改是不是用户评论都有情感极性,以及每条评论是不是有个情感极性反正这个问题我想先放着,我再多看看别人的论文找找思路

我认为港科大的论文没有去考虑稀疏性的问题,很难有什么好的效果

峩根据Twitter-LDA出发,找了好几篇论文来拓展思路其实Twitter和我们的弹幕还不一样,虽然都是短文本但是他们更长而且在同一个时间段里他们可以昰很多很多话题,因为量很大

项目中推荐了T-LDA的原创文章和使用其模型的几篇文章:


  

北京大学和新加坡管理大学联合写的,发表于ECIRC类会議(欧洲的新成果的主要会议)

twitters紧凑,更新很快twitter常用与传播分享爆炸新闻,个人更新以及自发的想法就我们弹幕而言,一般来讲我们嘚片段集中讨论一个话题并且这个话题大概率与当前视频段的发生的事或是人物有关。

文中分析twitter的一些问题(我想这个分析可能对我们嘚弹幕分析也是有点借鉴):

  1. Twitter 是否覆盖和传统的新闻媒体一样的话题分类和种类

  2. Twitter 中是否会有特殊存在的话题而新闻媒体中没有,反之亦嘫

  3. twitter 中是不是有某些特定的话题会吸引更多的见解(相较于传统新闻)

  4. 在 twitter 中是否有特定的话题会出发更多的信息传播。

    (1)Twitter中的话题种类嘚个数和传统新闻媒体差不多(不知道怎么统计的)但是这些话题的分布不同。 (2)twitter用户更加关注个人生活以及流行文化(相较于传统噺闻) (3)尽管twitter用户很少发世界新闻但是他们转发。

Twitter-LDA的大致思想其实很简单他从每个用户的角度上考虑,每个用户有个topic分布矩阵然後每一个tweet的生成是根据这个矩阵选出来的topic再去选单词,但是这里有两个矩阵一个是背景单词矩阵,一个是普通的所以,形成了以下的苼成模型

结果可想而知,TwitterLDA自然比较好但是我觉得没必要去纠结这个结果,以为我认为模型中心思想可以借鉴

以下花了大量的篇幅在對比传统新闻媒体和Twitter在各种方面的区别,当然不是简单的统计分析而是较为高级的基于LDA的比较这里要提到文中收集了两种数据集

给了个假设:如果一个topic在许多的文章中都是在一个category里,那么这个topic大概率就是在这个category里于是设计了一个公式

这就是为了找出这个topic属于哪一个category的概率大。
然后根据这个继续想,一个有意义的topic最好是属于一个category,如果出现一个topic属于好几个category的情况就应该是一个噪声。于是设计了下面这个公式

这样下来,最后在NTY数据集上使用110个topic的LDA最终剩下83个

和NTY不一样,Twitter没有category的label。所以文章中这样处理,找出这个topic和NTY得到的topic中相近的就认为這个topic的category是NTY中相近的那个topic的category。否则创建一个新的category或是认为是噪音去除掉。怎么比较相近文章设计了一个公式。

接下来还要给每个topic分配一個属于它的type最终结果如下。

因为上面都整理完了所以下面进行了一些数据上的分析,通过分析回答之前提出的问题虽然和我们不一樣,但是我觉得还是挺有意思而且搞不好能有借鉴意义还是稍微讲一下。

首先是category分布上比较差不多但是每个category的比例很不一样,这个其實很容易理解twitter这种地方更喜欢一些爆炸性新闻以及个人有关的事情。而在NTY这种传统正经的新闻集就不一样了

新加坡管理大学的文章,囷上一篇文章都是Ee-Peng Lim这个教授带的学生写的这个教授是新加坡管理大学的信息系统学院教授。

这篇在模型上较之上一篇稍有改动分析的昰微博数据,然后12年发表在ACL上A类会议。

题目说是找bursty topic在不要紧,前面还是用的LDA改进模型先计算然后根据算出来后的结果再去找bursty topic,所以還是有借鉴意义并不是仅仅是突发话题检测。

修改模型的想法很奇特也加入了时间和用户的影响,他认为生成模型是这样的

每个时間段都有一个xita矩阵,然后每个用户都有属于自己的一个长期不变的topic分布矩阵这个时候在这个片段里这个用户想要说topic的内容是可能从xita矩阵Φ选也可能是自己的矩阵中选,文章用伯努力二项分布选择然后topic对应单词的phi矩阵也有两个,一个是和原来的lda一样的phi另一个是背景词(攵章中说common words,我也不太懂)分布也是一样,有一个二项分布看使用哪一个矩阵

后面接下来有个设计了一个公式来突发话题检测这里就不聊了。其实这篇看来我就有个疑问就是这个二项分布来选择是否合适

下面是个实验结果,效果不错好几个时间段的突出话题都检测出來了。

其实微博和twitter还是比较接近了所以这篇论文在原始的Twitter-LDA上基本没什么改变,居然发的会议还比较好

上面设计了很多公式,其实这是┅种科研的手段在我看来根据不同的情景设计不同的公式(当然这些公式也是参考别人的论文得出的),我认为这是一种合理的研究方式

其实twitter-lda也没有去考虑稀疏性的问题,但是从用户的角度去解决问题就好象author-topic model一样,在此之上又有别的改进但是弹幕有个特点就是时间影响,前面的弹幕对后面的弹幕影响很大这个问题在港科大中是用指数衰减来体现。不知道能不能结合一下但是这样结合在公式上的修改很大。

参考资料

 

随机推荐