知道了研究数据与数据的区别 知道了数据的各种形态,那么数据从哪里来呢?实证研究要用数据
都需要自己去采集吗? 为了理解数据的来源,我需要再次强调没有数据就没有研究。
不过这并不意味着,研究需要的数据都需要研究者自己去采集
即使需要搜集数据,也不一定需要研究者到现场去采集。
认为实证研究的数据都是研究者自己采集的 那是一个很大的误区,尽管只要有实证研究,就一定要有数据。
正因为如此,实证研究其实已经积累了 很多的数据。经常有同学跟我说:“老师,我要做一个研究”
我可能反馈他的第一句话就是:“你的数据从哪里来?” 而不会问他怎么调查数据。
数据从哪里来和怎么调查数据是两回事,希望大家能够明白。
那么,用于研究的数据到底从哪里来呢?还记得北京大学本科生
入学机会的地区不平等的例子?其中涉及地区划分的数据从哪里来?
从政府部分来,对不?Morphy等人的研究数据从哪里来?
从新西兰和英国的调查数据中来,也不是他们自己搜集的。
这就是研究数据的第一类来源:已经存在的数据。
研究数据的第二类来源,是将要产生的数据。
不管采用什么方式产生,调查也好,自动 积累也好,现在没有,但是不久的将来会有的数据。
先来看看已有的数据,注意,已有并不意味着
所有已经存在的数据都可以拿来做研究,理论上是可以,但实践中
还有诸多的影响因素。已有的数据,指的是已经公开的,且可以直接使用的数据。
一般来讲,凡是公开的数据正是出版的数据、发布的数据,都是可以 直接使用的数据,譬如
政府的各类统计数据,包括经济、就业、人口、健康、教育、产业
等等的统计数据,不仅仅中国政府,任何一个运作正常的政府 都有这样的数据;再比如,上市公司的公开数据
根据上市相关的法律,公司的财务数据、生产数据 应该都是公开的;还有呢,研究机构或者研究者个人公开的数据
这一类数据有很多都可以直接拿来用;在所有这些已经存在的数据中
有相当的部分是无需授权就可以使用的数据,比如,正式出版物提供的数据
只需要在使用说明中正式说明出处,就不需要授权。
除了无须授权的公开数据,也有一部分数据是需要授权的。
其中既包括了公开的数据,也包括未公开的数据。
有些已经公开的数据,尤其是学术性的调查数据
按照学术规范呢,虽然已经公开了,不过,如果你要使用,还是需要申请并且被授权。
大多数的学术研究数据,无论是机构性的还是个人性的数据 都采用了这样的规则。
一些没有公开的数据呢,通过授权形式,也是可以使用的,比如说,行为痕迹管理机构的数据- ,包括政府数据
赢利和非赢利服务机构的数据;什么叫政府数据? 大家每年的收入,政府是了解的。
按照世界上主要国家的法律,公民是有义务向国家申报每年收入状况的
国际要根据这些数据来收取个人所得税;在中国
几乎任何一笔收入,只要不是灰色收入,都是经过机构的,都有管理
只要有管理的,都有痕迹数据;再比如说,银行数据,每个人
都有银行账号,各位都有,每年的收入支出,只要是经过银行卡的,都有数据。
这些都叫行为管理机构的数据。还有电性数据,包括电脑呀、电话呀
只要是通过网络通信的数据,都有人帮你记着。
有的同学可能会担心了:“老师,他们保存多长呀?”,很难说啊。
北京大学的李晓宁教授,专门搜集网页数据 中国自互联网诞生以来所有中文网页的数据,他都收着。
说到网上行为,建议大家看一本书,讲的就是行为痕迹数据,叫《删除》,Schonber- ger写的。
这一类的数据,对于社会科学研究而言
是一座金矿,老一代的学者已经没有技术能力来运用这些数据了 但是对青年学者,对你们,是一座金矿。
除此以外呢,一些主要的数据管理机构做了一些数据集成的工作。
对学术研究而言,比如说,ICPSR,是大家不应该忽视的
一个数据源,目前看来,似乎是世界上最大的学术数据源。
在中国国内也有,比如北京大学呀,中国人民大学、清华大学、中国疾病控制中心 都有类似的数据。接下来我要给大家介绍几个主要的数据来源
ICPSR,美国大学联盟的数据集成中心,机构呢是在密歇根。
ISSS,北京大学中国社会科学调查中心,我创办的
主要的数据源为CLPS;“中国家庭跟踪调查”也是北京大学委托我创立的
NSRC,中国人民大学中国调查与数据中心,主要的数据源是CGSS,中国综合社会调查
CDC,中国疾病控制中心,主要的数据源包括了慢病、流行病、艾滋病等多种 涉及健康与疾病的调查。
每一个机构的网页,大家通过搜索引擎就可以找到,这里呢,我就不花时间了。
如果大家有需要,请在讨论版上提出来,我们可以专门录一段视频 供大家参考。如果依据数据使用的时序
对大多数研究者来说,已有的数据就是二手数据。
二手数据指什么?指已经被使用过的,我们拿来再做分析
同样的数据集,使用不同的方法,甚至不同的研究主题和研究目的。
当然对于二手数据的再分析,可以使用不同的数据集,也可以采用相同的方法,相同的主题
或者不同的主题。前者呢,是为了检验或者商榷;后者,则可以用于不同的研究目的。还有
也可以用不同的数据集,不同的方法以达成特定的研究目的。
问题是二手数据从哪里来呢?可以从研究主持者那里来
也有研究主持者,在自己的研究完成之后,就把数据交给了数据管理机构
数据管理机构呢,是最大的二手数据来源,我提醒一下,按照学术规范
研究者发表研究成果需要说明数据来源,千万别忘记了。
要使用二手数据,就免不了产生技术性的问题 比如数据格式的转换呀,从编码呀,数据的加工呀等等
技术性的问题,可以参考哈佛大学和MIT联合建立的IQSS
他们一直在探讨非常前沿的数据加工方法。
基本的技术,我们在数据整理的部分再详细讲。
除了已经存在的数据,第二大类来源就是将要产生的数据。
没有人会无缘无故地搜集数据,只要是搜集数据,总是有目的的。
那么,将要产生的第一类数据,就是系统采集的数据,比如说
政府统计数据呀,公司统计数据呀,各类来源的大数据呀 再比如学术机构,作为基础设施建设的系统调查数据
这里,像美国的GSS,由芝加哥大学调查的数据 PSID,密歇根大学调查的数据;HRS,密歇根大学调查的
数据;Understanding Society,艾塞克斯大学调查的数据等等。
几乎主要的国家都有大型的以学术研究为目的的综合性数据。
中国也有,大家已经知道一些了
比如,CFPS,CGSS,GSS(c),CHIPS,CHNS,CHFS等等
这一些数据,大家运用搜索引擎一搜,就能搜到,因为它们太有名了。
除了综合性的数据,还有专题性的数据,比如,北京大学曾毅 教授主持的中国老人健康长寿影响因素研究
清华大学李强教授主持的中国城镇化与劳动移民 类似的数据非常地多,大家可以根据自己的兴趣
用相关的数据来试一试。
对初学者而言呢,大家在试的时候,千万要注意数据的优势与不足
任何一个数据集,只要不是专门为某个研究目的设计的,都会希望
尽量照顾到更多的需求。这就构成了一个难题 到底是用综合数据,还是用专题数据?
如果着眼于综合数据,就不一定能够满足专业兴趣的要求和需求。
还是我们的例子:入学机会不平等研究, 做这项研究需要用到地区性的当年高中毕业生人数
地区性的当年的经济收入数据、地区性的当年城乡户籍人口数据。
如果用综合数据,这些专题数据显然就找不着。
在政府数据中,倒是可以找到一些,但是,你需要根据专题去清理、去加工。
除此以外,考入北京大学的学生人数和iii 北京大学的招办就有,其实这种困难是比较好克服的,怕就怕
你非常有兴趣地研究问题,去哪儿却也找不到数据。
如果没有办法从既有的综合性数据中获取必须的数据
那就得自己加工数据了,我举一个例子:“个性化”研究的数据。
阎云翔教授使用了人类学的数据 我自己呢,则从CFPS和CJSS两个数据集中
加工了一些数据,尽管如此,还是不能完全满足我的研究要求 这个时候就得自己开始采集数据了。
将要采集的数据包括你自己采集的数据,其中的一类
就是社会调查数据;注意,社会调查数据在这里是一个比较狭窄的说辞
社会调查数据,理论上,我们找到的数据都是调查数据,虽然调查方式不一样,那也是调- 查数据呀
比如说,你请计算机系的同学帮你使用网络爬虫爬下来的数据,那也是调查数据 但是在这里,特指专题性的
通过自己设计、调查执行获得的研究数据
包括刚才讲的大数据。所以需要特别提醒大家的是:自己调查数据是一个
不得已的选择,对任何研究者而言,都应该是第二选择
而不是第一选择,如果你的研究能够使用已经存在的数据,尤其是很多人用过的数据
最好用这样的数据;为什么呢?第一,数据的可靠性已经被检验过了;第二呢,研究的成果具- 有可比性
有同样的数据做不同的研究,具有很好的可比性。
如果依据研究设计
需要通过调查来获取数据,这需要一项专门的能力,包括组织能力 也是这我们这门课希望培养的能力,它包括了,比如说
获取数据的能力呀、评估数据质量的能力呀、有效运用 数据的能力呀,更重要的是,如果需要通过调查获取数据
还一定要有资源;如果说没有数据,就无法做实证研究,那么没有资源就无法通过调查获- 取数据。
无论是运用已经存在的数据,还是自己通过调查采集的数据
为了有效地运用数据,我们还需要知道数据的时间维度特征。
从数据之间在时间维度上的关联性来看,我们可以把数据分为 截面数据和跟踪数据。截面数据,cross
section data 就是一个始点上的数据;我们知道事物的发展总是在时间维度上展开的。
大多数的专题研究 只要没有声明跟踪研究,那都是截面数据。在综合性的调查中,比如说:GSS,
CGSS 都是截面数据。如果每一个始点的调查 调查内容具有可比性,例如,用于计算CPA的调查
在这类调查中获得的数据就是缺失数据,最典型的缺失数据还有人口普查数据。
跟踪数据,经济学中又叫“面板数据”,是pannel data的直译
非常糟糕的翻译,让人无法理解 我们还是叫跟踪数据比较好。这是一类锁定调查对象以后,不更换调查对象
在时间维度上不断进行调查的数据,经过多长时间调查一次,需要根据变量属性的特征来确定。
在学术界,最悠久的一个数据集就是PSID
从1968年到现在,还在跟踪调查;我创立的CFPS也是这一类
两种数据各有优缺点,运用方法呢,也有不同的要求。
这些已经属于研究生课程的内容,在这里就不讲了 知道有这些不同的数据就好。下边对这一节的内容做一个小结。
十年前在中国做研究也许找不到数据 十年以后的今天,情况就不一样了,数据不那么短缺了。
研究数据有多种、多重的来源 好好运用既有的数据是研究者的第一选择;第二
获取已经存在的数据有很多个方法,也有多种途径 第三,万一没有办法获取需要的研究数据,那就只好自己动手。
有同学说:“既然有这么多的数据,这门课是不是可以不学了?” 我的回答是:“这门课你不仅要学,而且要认认真真地学”
因为,如果你不了解数据是怎么获得的,你就没有能力甄别 已有的数据到底可不可靠、可不可用,你甚至都不知道上哪儿去找数据。
无论是运用已有的数据,还是自己调查数据,都需要知道 截面数据、跟踪数据的特征、优势、劣势。
这一部分的内容就到这里。这一周的内容跨度比较大
从研究问题到研究数据,内容也比较多,从知识到技能。
这里呢,做一个简要的归纳。
在实证研究中,研究问题是社会情境下 事物之间关系模式的概念化或者变量化表述。
这一些问题主要来自于理论与现实之间的张力,既可以从理论演绎中来 也可以从生活实践的归纳中来。
对研究者而言呢,选择研究问题,需要满足可行、妥当、重要三原则。
可行,自己要有能力做,才是最重要的。
研究问题的操作化,就是把研究问题转化为具体的研究题目。
研究题目,表述的是两个概念或者变量之间的关联。
研究数据,指的是结构化的、反应事物属性的、满足研究目的的数据集。
在不同的情境下,数据具有不同的形态 原始数据一般不能直接用于研究。
研究数据有多种多样的形态,对研究而言,重要的是 结构化的、有变量、数值、变量、属性标签的数据。
研究数据的来源多样,自己调查数据是研究者不得已的选择。
即使如此,掌握数据采集的知识与能力,是用好数据的基础。
这一周的内容就到这里,谢谢大家。