就增加。并且呢,还解释了这种力量背后的三种社会学的原因
即机遇,信任和动机。这样一种认识已经存在多年了 笼统地讲,也没有什么不对的
但是如果能有数据来支持这种认识,将会是一件令人高兴的事
2006年,两位学者在Science上面发表了一篇文章,说的就是这个事情
通过大数据分析支持了这种认识
这一节呢,我们就来讨论用数据验证三元闭包原理的基本方法
要做这样的分析呢,要先解决两个问题
第一,就是要将三元闭包原理最初的定性的陈述
转变成一种可以定量考察的表达 第二呢,就是要找到一种合适的社会网络数据
然后才是做数据的统计分析 咱们先来看第一个问题
什么叫把原来的说法变成一个能够定量考察的说法
拉波波特阿最初的表述是这样的
如果两个相互不认识的人,有了一个共同的朋友
那么他们两个在未来成为朋友的可能性就增加,那么这样一种说法呢
我们可以转变成下面这样,就是如果两个 互不相识的人的共同朋友数越多
则他们俩在未来成为朋友的可能性
也就越大。仔细体会一下这两种
表述在精神上是一致的。而且呢
对应到三元闭包的三条基本的
原因也是一致的。也就是说,两个人的共同朋友
越多,相遇的机遇当然也就越大,相互的
信任也就会越强。那个共同朋友促成他们俩
相识的聚合的动机也就越强 这就是说,
如果我们能验证这个变换后的陈述,也就验证了
拉波波特最初提出的原理。仔细
品味后面这个陈述,我们
很容易想象这么一个坐标空间
啊,这么一个坐标空间 横轴呢是社交网络中,两个不相识的人
当前共同朋友数
纵轴则是未来他们成为朋友的概率 这就成为我们做数据验证的基础
这就是我们做数据验证的基础。如果,如果在这个上面
有一些数据。这些数据
假如表现出某种正相关的形势
这也就验证了我们的陈述。这是第一个问题
第二个问题是,我们用什么数据呢?其实
我们很难得到现实生活网络的数据 但是有可能得到某种在线社交网的数据
2006年,那两位学者的工作用的就是
美国一所大学两万多学生在一年里的通信关系数据
那个数据里只关心谁和谁在什么时间发生过通信,而不关心他们的
这个通信的内容 这样就得到了一个以天为单位
不断演化的社交网络,比方说某两个人,这个A,有个A
有个B,这比方说都是学校的学生,那他们
在某一天以前,从来没有发过,相互发过什么邮件
因此呢他们在那个社交网络里面就没有边,没有边
但是他们可能分别和另外一个人,比方有个C
有过通信,比方说有过通信,那么这地方就有这边,就有这边
于是就有这种这样的边 那么C呢就是他们的共同的朋友,那么这样的共同的朋友
可能还有D,也就是有,可能有某个D,也是分别
跟他们有过联系关系,有过通邮件的关系,还可能有个E
也可能跟他们有通邮件的关系
那么过了一些天,这个A和B就开始通信了
他们可能开始通信了,那么呢,他们 之间就有了一条边,就有了一条边,一旦他们发生通信有了一条边
这就叫完成了三元闭包
我们呢,要看这样的事件的可能性 和这个共同朋友数的关系
这是我们要考察的基本的事情。也就是说
我们有这么两种情况,假定我们有两种情况,一种情况比方说现在是这样子的
我们问将来是不是有这种可能
第二种情况呢,现在是这样子的
我们问将来是不是有这种可能,也就是说,这下边有边的增加,这种边的增加
问什么呢?问上面这种情况和下面这种情况哪种可能
更大,哪种可能性更大。所以我们会看到,按照刚才那个原理
如果那个原理能够被证明的话,被验证的话,那么下面这种可能性
应该比上面那种可能性大,因为下面这种可能性中,
原来最初两个人,他有四个朋友,上面只有两个朋友,我们说了,我们希望看到的是,
朋友数越多,他们未来成为朋友的可能性就越大。
那么这个可能性怎么衡量呢?我们从这一个具体的说法,
我们来尽量体会一下。我们假设,
刚才我们有那么一个社会网络,电子邮件社会网络。
其中有100对节点,100对,随便说一个数字,100对节点
那么这100对节点呢,某一个时刻之前他们相互之间都没有边,
这100对节点对对之间没有边, 但是他们分别都有恰好的,有5个共同的朋友,
好,如果在一个月里,
其中,这100对节点里头,其中有20对,两两之间发生了通信,
还有80对依然没有发生通信, 那我们就说,这个两个互不相识,
但有5个共同朋友的人,
我们前面说了,他们都不相识,这100对节点最初都不相识,
但是都有5个共同的朋友,对吧,就是两个不相识但有5个共同朋友的人,
在一个月里,在一个月里,因为我们这个地方说了一个月里,
将成为朋友的概率为0.2。为什么是0.2呢?因为那100对里头,
100对里头,现在我们说了,有20对节点,他们现在发生了通信,有80对还没有。 所以,这样
表达出来的0.2就是我们所说的概率,如果,啊,如果,
这个网络中还可能有120对节点,
他们之间在某个时刻以前也是没有边, 但分别有7个共同的朋友,
那么一个月里呢,其中30对节点之间发生了通信,
于是我们就说,两个不相识但有7个共同朋友的人,
在一个月里,将成为朋友的概率为
0.25。0.25就是
30除以120。这就是说啊,
以共同朋友数为横轴,比方说我们
在这儿画一下。以共同朋友,这个横轴是以共同朋友数为横轴。
纵轴呢,是这个他们在未来某一个时刻前成为朋友的概率。
那对我们刚才来说呢,我们这个共同朋友比方说有一个5,比方这是个5。
这是个7,比方这是个7。那么刚才这个,我们这个概率这地方,这个就算1,这个地方算1。
那么这个5的时候,刚才说的等于是0.2,0.2大概是在这个地方,大概在这个地方。
这个0.25可能就比它高一点点, 这我刚才说的这么两个例子呢,大概我们就得到了,
我们关心的这一个,两个数据点,两个数据点。
好了,下面这个图,这个图
就是2006年,那两位学者在电子邮件数据上得到的结果,
得到的结果。 而且我们看到,这两个量,也就是共同朋友数,横轴,
和这个成为朋友的概率。它们总体上,是呈一种正相关的关系。
这也就是这个趋势,这也就是趋势。
下面呢我们就来
看看,由于用这个网络大数据,
来考察社会科学中得到的一些个定性的认识是很有意义的。
我们下面呢,就来通过一个简单的例子
具体展示这个前面介绍的方法。前面我们大概说了这个意思,下面我们看一个具体例子,一步一步做下去。
现在我们考虑,我们得到了,考虑我们得到了某一个假想社会网络的
两个不同的快照,像这个样子。我们
假定这很小,我们只有6个节点,6个节点。6个节点的一个社会网络,和它两个不同时间的
它们这个社会网络的样子。它们的边是不一样的,不一样的。
我们来看看这个三元闭包现象,是怎么随着共同朋友数变化的。
首先我们看看这第一个快照,就是这个快照。
它里头有6个点,有这么些边。我们特别关心的是,
缺哪些边。也就是某两个节点之间它们没有边,哪些呢?
我们能够把它数出来,就这些。比方说1和4之间没有边,1和6也没有边,2和3也没有边。
所以在这里头,一共缺7条边。
我们就看看这个7条边,什么时候,或是在下一个快照里头,
哪些变成边了。这7个节点中间哪些变成了。
这是第一部,我们先看看它们有哪些没有边。然后看看这些没有边的两个节点,它们对应的
共同朋友数有多少。你比方说这个1和4,
这两个节点,这两个节点。1,这是1,
这是4。它们有几个共同朋友啊?这个5是它们的一个共同朋友,
这个2也是它们的一个共同朋友。这个1和4,
好像就有这么两个共同朋友了。你比方说这个3,不是它们的共同朋友,因为3并没连到4,
所以1和4有两个共同朋友。 那么1和6呢,1和6,1和6,2算一个,3算一个,
5也算一个,1,2,3。2,3,5都是1和6的共同朋友。
所以我们这么数下去,我们就能得到它们这个,
没有边的两个节点的
共同朋友数,或者我们在图里边我们就把它叫共同邻居数。就是2、3、2
2、3、2、3、0、2、2,大家数一数都对,你们看3和4这个,
3和4这个呢,它们两个就没有共同朋友,那也是可能的,并不是说一定都有共同朋友。
那么3和4,它们没有共同朋友。好这是第二步,第三步就要看看,
在下一个快照中,在我们最关心的这个快照中,这个快照中,这个里头,
哪些个原来不是边的变成了边, 你比方说2和5,
这个是2,这个对应的位置,2和5,是有边了。
这个1和4是有了,多了一条两条三条四条,四条边,
所以我们就能对上,1和4有,2和3有,2和3有
那么2和5,4和6也有。其他的,也还没有。
这就是说我们看到了一个社会网络,一个变化的一个
一个情况,变化的一个情况。
好,那我们下面要干嘛呢?下面我们就要来想,做
刚才我说的那个数据了,从这个得到的数据中分析到我们要想的结果。这个结果呢,
一方面我们可以画一个刚才的那个坐标图,在画坐标图之前,我们也许很方便
做一个这样的一个,一个表。比方,共同朋友数是0的时候,
共同朋友数有几个是0呢?有一个是0的,在原来共同朋友有一个是0的,
后来有几个变成了朋友了?一个都没有。这个0的没变成朋友,所以这个结果呢,大概就是0。
共同朋友为1的情况,在我们整个例子中没有,没有就把它放过,就没有它,没有它。
共同朋友数是2的情况,整个呢在1、2、3、4有4种情况,
有4种情况,其中3种情况呢,在后来
变成朋友了,你看,4种情况啊,
1、2、3、4,那么有3个变成朋友了,还有一个没有。 所以,
成为朋友的概率,在这个情况下,那就是四分之三,那就是0.75。
就是这个,那么3的情况怎么样呢?
3的情况原来是两个,你看这两个, 但是有一个变成,变成这个朋友了,那就应该多少?
那就应该是0.5,0.5。4的情况没有,就是没有。
这个就是,我们列出了这个我们要的数据,
然后,为了直观起见,我们可以把这个数据呢,放到一个
坐标里头。比方说这是0,那我们就在这个左边里头画几个点吧,
比方0就是0了,1没有,不管它。2呢是0.75,0.75。这个地方算1啊,
2,0.75在这, 比方说大概在这,大概在这。3呢0.5大概在这。
这就是我们画图的,或者说通过这个数据来进行分析的
这个过程。当然你看这个好像不是正相关的,当然这是我们随便举了个例子。
另外呢,也很重要的一个看法是呢,在真实的这种验证的工作中,
我们第一,是需要网络的规模足够大, 第二呢,需要数据的跨度的时间足够长。
为什么需要这两个呢,我们这个当然很简单只是示意这个过程,是吧?
那么这两条很重要,网络的规模足够大。二是需要数据跨度的时间足够长。
前者呢,保证了在两个快照之间, 能够得到足够多的数据点,也就是说我们这个横轴啊,
这个横轴它应该能够列到比较多的数据,
能够得到,这样的话呢我们就可能呢看到趋势,
我们主要想看趋势,主要想看趋势。后者我们需要数据的跨度时间足够长,
就是保证我们可以有足够多的,
快照之间进行比较。我们刚才这个例子只是两个快照。那么我们其实是要在
很多很多的快照对之间进行比较。也就说,对每一个自变量,对每一个自变量,横轴的自变量,比方说一个2,
比方说这个3,我们刚才有,刚才有,3这样的,这样的情况,
对每一个自变量呢,我们要得到很多这种值,
得到很多这种值,比方这个3,可能有很多这种值,
最后呢,是要取它们的一个均值,
作为这个真正的,一个,一个我们考察的,来推导我们结论的一个数据,
这样,结果才有统计意义。好,
这一段呢,我们讲了一个很重要的问题,也就是,
我们以三元闭包原理的验证为例,我们看到了一种利用大数据分析
定量考察某些社会科学定性认识的方法。
这是一个例子,但这个例子应该给我们带来一些个启发。
这个里头有两个关键。一,是将社会科学原理的
一种定性的描述,转化为便于定量分析的表述,
形成这种数据指标。就是我们对这个例子来说,那就是与共同朋友数对应的概率,
就是我们要的数据指标。然后就是选择合适的数据,或者说
选择合适的网络,对我们来说就是合适的社会网络,
以及呢,从这个原始数据中,提炼出那种
指标数据的方法。刚才我们通过这个简单的例子呢,应该把这个方法,都给大家介绍了一遍。