基本上可以ij8l确定的是,以后再也不能收视wwWij8lCoM节目了

 自动摘要技术解决的问题描述很简单就是用一些精炼的话来概括整片文章的大意,用户通过读文摘就可以了解到原文要表达的意思问题解決的思路有两种,一种是Extractve抽取式的就是从原文中找到一些关键的句子,组合成一篇摘要;另外一种是Abstractve摘要式的这就需要计算机可以读慬原文的内容,并且用自己的意思变大出来现阶段,相对成熟的是抽取式方案有很多很多算法,也有一些baselne测试但得到的摘要效果差強人意。对后者的研究并不是很多人类语言包括字、词、短语、句子、段落、文档这几个level,研究难度依次递增理解句子、段落尚且困難,何况是文档这是摘要生成最大的难点。

Page)之姓来命名Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一PageRank通过互联网中的超链接关系来确定一个网页的排名,其公式是通过一种投票的思想来设计的:如果我们要计算网页A的PageRank值(以下简称PR值)那么我们需要知道有哪些网页链接到网页A,也就是要首先得到网页A的入链然后通过入链给网页A的投票来计算网页A的PR值。这样设计可以保证达到这样一个效果:当某些高质量的网页指向网页A的时候那么网页A的PR值会因为这些高质量的投票而变大,而网页A被较少网页指向或被一些PR值较低的网页指向的时候,A的PR值也不会很大这样可以合理地反映一个网页的质量水平。那么根据以上思想佩奇设计了下面的公式:

该公式中,V表示某个网页Vj表示链接到V的网页(即V的入链),S(V)表示网页的PR值n(V)表示网页V的所有入链的集合,Out(Vj)表示网页Vj中的链接指向的网页的集合(即网页Vj链接的网页集合)d表示阻尼系数,是用来克服这个公式中 "d *" 后面部分的固有缺陷即如果仅僅只有求和的部分,那么该公式将无法处理没有入链的网页的PR值因为此时根据公式,这些网页的PR值为0但实际情况不是如此,所以加入叻一个阻尼系数来确保每个网页都有一个大于0的PR值根据实验结果,在0.85的阻尼系数下大约100多次的迭代PR值就能收敛到一个稳定的值,而当阻尼系数接近1时需要迭代的次数会骤然增加很多,且排序不稳定公式中S(Vj)前面的分数指的是Vj所有出链指向的网页应该平分Vj的PR值,这样才算是把自己的票分给了自己链接到的网页

比如:a、b、c表示网页

提取出若干关键词,若原文本中存在若干个关键词相邻的情况那么这些關键词可以构成一个关键短语。

TextRank是由PageRank改进而来其公式有颇多相似之处,这里给出TextRank的公式:

可以看出该公式仅仅比PageRank多了一个权重项Wj,用來表示两个节点之间的边连接有不同的重要程度单词和单词j共现的次数越多,权重Wj就越大TextRank用于关键词提取的算法如下:

2)对于每个句孓S(属于T),进行分词和词性标注处理过滤掉停用词,只保留指定词性的单词如名词、动词、形容词,即S = [t_{,1}, t_{,2}, ..., t_{,n} ]其中t_{,j}表示保留后的候选關键词;

3)构建候选关键词图G =(V, E),其中V为节点集由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边两个节點之间存在边,当且仅当它们对应的词汇在长度为K的窗口中共现K表示窗口的大小,即最多共现K个单词;

4)根据上面的公式迭代传播各節点的权重,直至收敛;

5)对节点权重进行倒序排序从而得到最重要的T个单词,作为候选关键词;

6)由(5)得到最重要的T个单词在原始文本中进行标记,若形成相邻词组则组合成关键词短语。

提取关键词短语的方法基于关键词提取可以简单认为:如果提取出的若干關键词在文本中相邻,那么构成一个被提取的关键短语

       将文本中的每个句子分别看做一个节点,如果两个句子有相似性那么认为这两個句子对应的节点之间存在一条无向有权边,权值Wj是相似度然后通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。考察句子相姒度的方法是下面这个公式:

公式中S、Sj分别表示两个句子和j,|S|为句子的单词数量Wk表示句子中的词,那么分子部分的意思是同时出现在兩个句子中的同一个词的个数分母是对句子中词的个数求对数之和,分母这样设计可以遏制较长的句子在相似度计算上的优势

 根据以仩相似度公式循环计算任意两个节点之间的相似度,根据阈值去掉两个节点之间相似度较低的边连接构建出节点连接图,然后计算TextRank值(PR徝)然后使用幂迭代法不断更新节点PR值,直到收敛最终的PR值为句子的重要性得分。最后对所有TextRank值排序选出TextRank值最高的几个节点对应的呴子作为摘要。

其中计算相似度作为节点连边权值Wj后,节点的PR值计算公式如下:

       BM25算法通常用来作搜索相关性平分,主要就是计算一个query裏面所有词(语素)和文档的相关度然后再把分数做累加操作,而每个词的相关度分数主要还是受到 tf-df 的影响一句话概况其主要思想:對Query进行语素解析,生成语素q;然后对于每个搜索结果d,计算每个语素q与d的相关性得分最后,将q相对于d的相关性得分进行加权求和从洏得到Query与d的相关性得分。

BM25算法的一般性公式如下:

其中Q表示Query,q表示Q解析之后的一个语素(对中文而言我们可以把对Query的分词作为语素分析,每个词看成语素q);d表示一个搜索结果文档;W表示语素q的权重;R(q,d)表示语素q与文档d的相关性得分

判断一个词与一个文档的相关性嘚权重,方法有多种较常用的是DF。这里以DF为例公式如下:

注:当n(q)超过一半的时候,会导致此DF值为负数因此分子上的-n(q)项可以不需要

N是攵档总数,n(q) 是包含该词(语素)的文档数0.5是调教系数,避免n(q)为0的情况从这个公式可以看出N越大,n(q)越小的df值越大,这也符合了"词的重偠程度和其出现在总文档集合里的频率成反比"的思想取个log是为了让df的值受N和n(q)的影响更加平滑。

其中k1,k2b为调节因子,通常根据经验设置一般k1=2,b=0.75;f为q在d中的出现频率qf为q在Query中的出现频率,dl是文档长度avgdl 是文档平均长度,可以看出如果其他因素一样dl 越大,相关度越低這个也符合结论。至于会除以一个avgdl是拿本篇文档长度和整体文档长度水平做比较,以免单独取dl值时过大

由于绝大部分情况下,q 在 Query 中只會出现一次即 q_f=1, 因此公式可以简化为:

影响BM25公式的因数有:

    df:df越高分数越高 tf:tf越高分数越高 dl/avgdl:如果该文档长度在文档水平中越高则分数樾低 k1,b:分数的调节因子其中k1,b都是调节因子一般 k1=2, b=0.75

1)TextRank不依赖于文本单元的局部上下文,而是考虑全局信息从全文中不断迭代采样嘚文本信息进行文本单元重要性学习;

2)TextRank识别文本中各种实体间的连接关系,利用了推荐的思想文本单元会推荐与之相关的其他文本单え,推荐的强度是基于文本单元的重要性不断迭代计算得到被其他句子高分推荐的句子往往在文本中更富含信息量,因此得分也高;

3)TextRank實现了“文本冲浪”的思路意思与文本凝聚力类似。对于文本中的某一概念c我们往往更倾向于接下来看与概念c相关的其他概念;

4)通過迭代机制,TextRank能够基于连接的文本单元的重要性来计算文本单元得分

2)摘要开头句子不适合作为句子;   

3)部分摘要句子太长。  限定摘要呴子长度

       自动总结(Automatc Summarzaton)类型的模型一直是研究热点直接抽出重要的句子的抽取式方法较为简单,有如textrank之类嘚算法而生成式(重新生成新句子)较为复杂,效果也不尽如人意目前比较流行的Seq2Seq模型,由 State使得生成新序列的准确度提高。

 encoder-decoder框架的工作機制是:先使用encoder将输入编码到语义空间,得到一个固定维数的向量这个向量就表示输入的语义;然后再使用decoder,将这个语义向量解码獲得所需要的输出,如果输出是文本的话那么decoder通常就是语言模型。这种机制的优缺点都很明显优点:非常灵活,并不限制encoder、decoder使用何种鉮经网络也不限制输入和输出的模态(例如mage capton任务,输入是图像输出是文本);而且这是一个端到端(end-to-end)的过程,将语义理解和语言生荿合在了一起而不是分开处理。缺点的话就是由于无论输入如何变化encoder给出的都是一个固定维数的向量,存在信息损失;在生成文本时生成每个词所用到的语义向量都是一样的,这显然有些过于简单

RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的如机器翻译中,源语言和目标语言的句子往往并没有相同的长度序列形的数据就不太好用原始的神经网络处理了,為了建模序列问题RNN引入了隐状态h(hdden state)的概念,h可以对序列形的数据提取特征接着再转换为输出

为此Encoder-Decoder结构先将输入数据编码成一个仩下文向量c:

得到c有多种方式,最简单的方法就是把Encoder的最后一个隐状态赋值给c还可以对最后的隐状态做一个变换得到c,也可以对所有的隱状态做变换

拿到c之后,就用另一个RNN网络对其进行解码这部分RNN网络被称为Decoder。具体做法就是将c当做之前的初始状态h0输入到Decoder中:

还有一种莋法是将c当做每一步的输入:

由于这种Encoder-Decoder结构不限制输入和输出的序列长度因此应用的范围非常广泛,比如:

    机器翻译Encoder-Decoder的最经典应用,倳实上这一结构就是在机器翻译领域最先提出的 文本摘要输入是一段文本序列,输出是这段文本序列的摘要序列 阅读理解。将输入的攵章和问题分别编码再对其进行解码得到问题的答案。 语音识别输入是语音信号序列,输出是文字序列

Capton)等很多领域,之所以它这麼受欢迎是因为Attenton给模型赋予了区分辨别的能力,例如在机器翻译、语音识别应用中,为句子中的每个词赋予不同的权重使神经网络模型的学习变得更加灵活(soft)。比如在图像标注应用中可以解释图片不同的区域对于输出Text序列的影响程度

Mechansm与人类对外界事物的观察机制佷类似,当人类观察外界事物的时候一般不会把事物当成一个整体去看,往往倾向于根据需要选择性的去获取被观察事物的某些重要部汾比如我们看到一个人时,往往先Attenton到这个人的脸然后再把不同区域的信息组合起来,形成一个对被观察事物的整体印象因此,Attenton Mechansm可以幫助模型对输入的X每个部分赋予不同的权重抽取出更加关键及重要的信息,使模型做出更加准确的判断同时不会对模型的计算和存储帶来更大的开销,这也是Attenton Mechansm应用如此广泛的原因

 在Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征c再解码因此,c中必须包含原始序列中的所有信息它的长度就成了限制模型性能的瓶颈。如机器翻译问题当要翻译的句子较长时,一个c可能存不下那么多信息就會造成翻译精度的下降。 所谓注意力机制就是说在生成每个词的时候,对不同的输入词给予不同的关注权重谷歌博客里介绍神经机器翻译系统时所给出的动图形象地展示了。

 每一个c会自动去选取与当前所要输出的y最合适的上下文信息具体来说,我们用 aj 衡量Encoder中第j阶段的hj囷解码时第阶段的相关性(表示Encoder中的第j个词与Decoder端的第个词之间的权值表示源端第j个词对目标端第个词的影响程度),最终Decoder中第阶段的输叺的上下文信息 c 就来自于所有 hj 对 aj 的加权和以机器翻译为例(将中文翻译成英文):

       输入的序列是“我爱中国”,因此Encoder中的h1、h2、h3、h4就可鉯分别看做是“我”、“爱”、“中”、“国”所代表的信息。在翻译成英语时第一个上下文c1应该和“我”这个字最相关,因此对应的 a_{11} 僦比较大而相应的 a_{12} 、 a_{13} 、 a_{14} 就比较小。c2应该和“爱”最相关因此对应的

       至此,关于Attenton模型我们就只剩最后一个问题了,那就是:这些权重 a_{j} 昰怎么来的事实上, a_{j} 同样是从模型中学出的它实际和Decoder的第-1阶段的隐状态(即当前即将输出的上文信息)、Encoder第j个阶段的隐状态有关

同樣还是拿上面的机器翻译举例 a_{1j} 的计算(此时箭头就表示对h'和 h_j 同时做 变换):

        Attenton机制的本质来自于人类视觉注意力机制。人们视觉在感知东覀的时候一般不会是一个场景从到头看到尾每次全部都看而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某蔀分出现自己想观察的东西时人们会进行学习在将来再出现类似场景时把注意力放到该部分上。

  可以被描述为一个查询(query)到一系列(鍵key-值value)对的映射即将Encoder中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target中的某个元素Query通过计算Query和各个Key的相似性或者相关性,得箌每个Key对应Value的权重系数然后对Value进行加权求和,即得到了最终的Attenton数值所以本质上Attenton机制是对Source中元素的Value值进行加权求和,而Query和Key用来计算对应Value嘚权重系数即可以将其本质思想改写为如下公式和图片:

在计算attenton时主要分为三步:

    第一步是将query和每个key进行相似度计算得到权重,常用的楿似度函数有点积、拼接、感知机等; 第二步一般是使用一个softmax函数对这些权重进行归一化; 最后将权重和相应的键值value进行加权求和得到最後的attenton

Attenton值计算过程具体一点就是:

第一个阶段:可以引入不同的函数和计算机制,根据Query和某个Key_计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosne相似性(余弦相似度)或者通过再引入额外的神经网络来求值(比如采用TF-DF模型计算句子的相姒度)即如下方式:

第二阶段:由于第一阶段产生的分值根据具体产生的方法不同其数值取值范围也不一样,因此第二阶段引入类似 SoftMax 的計算方式对第一阶段的得分进行数值转换一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也鈳以通过SoftMax的内在机制更加突出重要元素的权重即一般采用如下公式计算:

第三阶段:第二阶段的计算结果 a_,即为value_对应的权重系数然后進行加权求和即可得到Attenton数值:

通过如上三个阶段的计算,即可求出针对Query的Attenton数值目前绝大多数具体的注意力机制计算方法都符合上述的三階段抽象计算过程。

 上文所举的机器翻译的例子里因为在计算Attenton的过程中,Source中的Key和Value合二为一指向的是同一个东西,也即输入句子中每个單词对应的语义编码所以可能不容易看出这种能够体现本质思想的结构。当然从概念上理解,把Attenton仍然理解为从大量信息中有选择地筛選出少量重要信息并聚焦到这些重要信息上忽略大多不重要的信息,这种思路仍然成立聚焦的过程体现在权重系数的计算上,权重越夶越聚焦于其对应的Value值上即权重代表了信息的重要性,而Value是其对应的信息

Addressng):Source可以看作存储器内存储的内容,元素由地址Key和值Value组成當前有个Key=Query的查询,目的是取出存储器中对应的Value值即Attenton数值。通过Query和存储器内元素Key的地址进行相似性比较来寻址之所以说是软寻址,指的鈈像一般寻址只从存储内容里面找出一条内容而是可能从每个Key地址都会取出内容,取出内容的重要性根据Query和Key的相似性来决定之后对Value进荇加权求和,这样就可以取出最终的Value值也即Attenton值。所以不少研究人员将Attenton机制看作软寻址的一种特例这也是非常有道理的。

2)引入一个Generaton Probablty(Pgen)來和词汇分布概率及Attenton分布概率做加权总和來调整最后输出的词汇分布概率这样做能赋予模型決萣是否要直接复制原始文本词汇的能力。同时这个方法也可增强模型在处理在训练过程中没见过的词汇的能力,进而减少训练模型所需鼡到的词汇表作者以实验证明这个方法可以有效改善;

3)另外引入一个汇聚(Coverage)的概念和一个新的loss來改善重复生成问题。其思想就是利鼡注意力分布区追踪目前应被覆盖的单词,并且当网络再次注意同一部分的时候予以惩罚。在decoder的每一个时间步长 t 上汇聚向量 ct 是截至目湔所有的注意力分布 at'的和:

那么某一特定的源单词的收敛就是到此刻它所受到的attenton的和。最后引入额外的损失项来惩罚汇聚向量 ct 和新的注意力分布 at' 之间的任何交叠,如下所示:

那么最终的损失函数的公式为:

其中w*t是当前时刻t的目标参考词这样可以避免网络继续重视(从而摘录)那些已经被覆盖到的词汇。

抽象式摘要生成算法论文学习:

三、文章摘要生成评价方法

自动文档摘要评价方法大致分为两类:

    内部评价方法(ntrnsc Methods):提供参考摘要以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合 质量越高。 外部评价方法(Extrnsc Methods):不提供参考摘要利用文档摘要代替原文档执行某个文档相关的应用。例如:攵档检索、文档聚类、文档分类等 能够提高应用性能的摘要被认为是质量好的摘要。

其中内部评价方法是比较直接比较纯粹的,被学術界最常使用的文摘评价方法将系统生成的自动摘要与专家摘要采用一定的方法进行比较也是目前最为常见的文摘评价模式,常见的方法有Edmundson和ROUGE

       Edmundson评价方法比较简单,可以客观评估就是通过比较机械文摘(自动文摘系统得到的文摘)与目标文摘的句子偅合率(coselecton rate)的高低来对系统摘要进行评价。也可以主观评估就是由专家比较机械文摘与目标文摘所含的信息,然后给机械文摘一个等级评分 类如等级可以分为:完全不相似,基本相似很相似,完全相似等

       Edmundson比较的基本单位是句子,通过句子级标号分隔开的文本单元句子級标号包括“。”“:”“;”“!”“”,并且只允许专家从原文中抽取句子而不允许专家根据自己对原文的理解重新生成句子,專家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出

计算公式:重合率p = 匹配句子数 / 专家文摘句子数 x 100%

每一个机械文摘的重合率為按三个专家给出的,则文摘得到的重合率的平均值:平均重合率 = (p1 + p2 + ... + pn) /n x 100%

 即对所有专家的重合率取一个均值P为相对于第个专家的重合率,n为专镓的数目

Conference)的摘要评测任务中。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要是一种面向n元词召回率的评价方法。ROUGE准则由一系列的评价方法组成包括ROUGE-1,ROUGE-2ROUGE-3,ROUGE-4以及ROUGE-Skpped-N-gram等,1、2、3、4分别代表基于1元词到4元词以有跳跃的N-gram模型在自动文摘相关研究中,一般根據自己的具体研究内容选择合适的N元语法ROUGE方法

gram个数。不难看出ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文檔数目”即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”即标准摘要中所有的N-gram个数。

1.0分子是待评测摘要囷参考摘要都出现的1-gram的个数,分母是参考摘要的1-gram个数(其实分母也可以是待评测摘要的,但是在精确率和召回率之间我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同)

值在DUC中,β被设置为一个很大的数,所以 Rough-L 几乎只考虑了 R_lcs与上文所说的一般呮考虑召回率对应。

内容提示:基于随机预测控制理論和功率波动相关性的风电集群优化调度

文档格式:PDF| 浏览次数:19| 上传日期: 09:49:48| 文档星级:<>?<>?<>?<>?<>?

用户画像(persona)的概念最早由交互设计の父Alan Cooper提出:“Personas are a concrete representaton of target users.” 是指真实用户的虚拟代表是建立在一系列属性数据之上的目标用户模型。随着互联网的发展现在我们说的用户画像又包含了新的内涵——通常用户画像是根据用户人口学特征、网络浏览内容、网络...

是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型随着互联网的发展,现在我们说的用户画像又包含了新的内涵——通常用户画像是根据用户人口学特征、网络浏览内容、網络社交活动和消费行为等信息而抽象出的一个标签化的用户模型构建用户画像的核心工作,主要是利用存储在服务器上的海量日志和數据库里的大量数据进行分析和挖掘给用户贴“标签”,而“标签”是能表示用户某一维度特征的标识具体的标签形式可以参考下图某网站给其中一个用户打的标签。

提取用户画像需要处理海量的日志,花费大量时间和人力尽管是如此高成本的事情,大部分公司还昰希望能给自己的用户做一份足够精准的用户画像

那么用户画像有什么作用,能帮助我们达到哪些目标呢?

大体上可以总结为以下几个方媔:

    精准营销:精准直邮、短信、App消息推送、个性化广告等 用户研究:指导产品优化,甚至做到产品功能的私人定制等 个性服务:个性化推荐、个性化搜索等。 业务决策:排名统计、地域分析、行业趋势、竞品分析等

用户画像包含的内容并不完全固定,根据行业和产品的不同所关注的特征也有不同对于大部分互联网公司,用户画像都会包含人口属性和行为特征人口属性主要指用户的年龄、性别、所在的省份和城市、教育程度、婚姻情况、生育情况、工作所在的行业和职业等。行为特征主要包含活跃度、忠诚度等指标

除了以上较通用的特征,不同类型的网站提取的用户画像各有侧重点

以内容为主的媒体或阅读类网站,还有搜索引擎或通用导航类网站往往会提取用户对浏览内容的兴趣特征,比如体育类、娱乐类、美食类、理财类、旅游类、房产类、汽车类等等

社交网站的用户画像,也会提取鼡户的社交网络从中可以发现关系紧密的用户群和在社群中起到意见领袖作用的明星节点。

电商购物网站的用户画像一般会提取用户嘚网购兴趣和消费能力等指标。网购兴趣主要指用户在网购时的类目偏好比如服饰类、箱包类、居家类、母婴类、洗护类、饮食类等。

消费能力指用户的购买力如果做得足够细致,可以把用户的实际消费水平和在每个类目的心理消费水平区分开分别建立特征纬度。

另外还可以加上用户的环境属性比如当前时间、访问地点LBS特征、当地天气、节假日情况等。

当然对于特定的网站或App,肯定又有特殊关注嘚用户纬度就需要把这些维度做到更加细化,从而能给用户提供更精准的个性化服务和内容

用户特征的提取即用户画像的生产过程,夶致可以分为以下几步:

    用户建模指确定提取的用户特征维度,和需要使用到的数据源 数据收集,通过数据收集工具如Flume或自己写的腳本程序,把需要使用的数据统一存放到Hadoop集群 数据清理,数据清理的过程通常位于Hadoop集群也有可能与数据收集同时进行,这一步的主要笁作是把收集到各种来源、杂乱无章的数据进行字段提取,得到关注的目标特征 模型训练,有些特征可能无法直接从数据清理得到仳如用户感兴趣的内容或用户的消费水平,那么可以通过收集到的已知特征进行学习和预测 属性预测,利用训练得到的模型和用户的已知特征预测用户的未知特征。 数据合并把用户通过各种数据源提取的特征进行合并,并给出一定的可信度 数据分发,对于合并后的結果数据分发到精准营销、个性化推荐、CRM等各个平台,提供数据支持

下面以用户性别为例,具体介绍特征提取的过程:

1.提取用户自己填写的资料比如注册时或者活动中填写的性别资料,这些数据准确率一般很高

    提取用户的称谓,如文本中有提到的对方称呼例如:xxx先生/女士,这个数据也比较准 根据用户姓名预测用户性别,这是一个二分类问题可以提取用户的名字部分(百家姓与性别没有相关性),嘫后用朴素贝叶斯分类器训练一个分类器过程中遇到了生僻字问题,比如“甄嬛”的“嬛”由于在名字中出现的少,因此分类器无法進行正确分类考虑到汉字都是由偏旁部首组成,且偏旁部首也常常具有特殊含义(很多与性别具有相关性比如草字头倾向女性,金字旁傾向男性)我们利用五笔输入法分解单字,再把名字本身和五笔打法的字母一起放到LR分类器进行训练比如,“嬛”字的打法:『 女V+罒L+一G+衤E = VLGE 』这里的女字旁就很有女性倾向。 另外还有一些特征可以利用比如用户访问过的网站,经常访问一些美妆或女性服饰类网站是女性的可能性就高;访问体育军事类网站,是男性的可能性就高还有用户上网的时间段,经常深夜上网的用户男性的可能性就高把这些特征加入到LR分类器进行训练,也能提高一定的数据覆盖率

用户画像涉及到大量的数据处理和特征提取工作,往往需要用到多数据来源且哆人并行处理数据和生成特征。因此需要一个数据管理系统来对数据统一进行合并存储和分发。我们的系统以约定的目录结构来组织数據基本目录层级为:/user_tag/属性/日期/来源_作者/。以性别特征为例开发者dev1从用户姓名提取的性别数据存放路径为

从每种来源提取的数据可信度昰不同的,所以各来源提取的数据必须给出一定的权重约定一般为0-1之间的一个概率值,这样系统在做数据的自动合并时只需要做简单嘚加权求和,并归一化输出到集群存储到事先定义好的Hve表。接下来就是数据增量更新到HBase、ES、Spark集群等更多应用服务集群

以电商网站的某種页面的个性化推荐为例,考虑到特征的可解释性、易扩展和模型的计算性能很多线上推荐系统采用LR(逻辑回归)模型训练,这里也以LR模型舉例很多推荐场景都会用到基于商品的协同过滤,而基于商品协同过滤的核心是一个商品相关性矩阵W假设有n个商品,那么W就是一个n n的矩阵矩阵的元素wj代表商品和j之间的相关系数。而根据用户访问和购买商品的行为特征可以把用户表示成一个n维的特征向量U=[ 看成要求的變量,那么就可以用LR模型代入训练集用户的行为向量U,进行求解这样一个初步的LR模型就训练出来了,效果和基于商品的协同过滤类似

这时只用到了用户的行为特征部分,而人口属性、网购偏好、内容偏好、消费能力和环境特征等其他上下文还没有利用起来把以上特征加入到LR模型,同时再加上目标商品自身的属性如文本标签、所属类目、销量等数据,如下图所示进一步优化训练原来的LR模型。从而朂大程度利用已经提取的用户画像数据做到更精准的个性化推荐。

用户画像是当前大数据领域的一种典型应用也普遍应用在多款网易互联网产品中。本文基于网易的实践深入浅出地解析了用户画像的原理和生产流程。

精确有效的用户画像依赖于从大量的数据中提取囸确的特征,这需要一个强大的数据管理系统作为支撑网易大数据产品体系中包含的一站式大数据开发与管理平台 – 网易猛犸,正是在網易内部实践中打磨形成的能够为用户画像及后续的业务目标实现提供数据传输、计算和作业流调度等基础能力,有效降低大数据应用嘚技术门槛

原作,转载请注明出处!后续大数据相关技术文章陆续奉上请多关注!

我要回帖

更多关于 8ij 的文章

 

随机推荐