下一章 上一章 目录 设置
30、上场
论 ...
-
论文的第一个真正的问题,是他不知道从哪里切进去。
那个"谁来定"的议题——定义权的问题——他在脑子里转了将近一周,越想越大,从一个统计口径偏差的分析问题,越走越往上走,走到了政策制定的权力结构,走到了数据采集者和被采集者之间的信息不对称,走到了更大的东西,大到他开始不确定自己是在写一篇经济学院学生论文,还是在写一本书。
他把已有的草稿打开,盯着那六百字的框架看了一会儿,然后把文档关掉,打开新的便签,在上面写:**这篇论文最想回答的那一个问题是什么?**
写完,他盯着这个问题,没有立刻写答案,就是放在那里,让它在那里。
---
那天下午他去找了课题组的导师。
导师办公室在经济学院三楼,朝南,那天的光打进来,把桌面的一角照得很亮,其他地方是室内的暗,对比很清楚。导师在看材料,看见他进来,抬了抬眼镜,示意他坐,然后把手边那份东西放下,"想好了吗。"
他,"框架想了一个,但范围太大了,不知道怎么收。"
"太大是正常的,"导师说,"你那个核心问题是有价值的,但'谁来定'这四个字在学术层面是空的,你需要落地,需要找一个具体的政策案例,在那个案例里,定义方式的不同造成了可以量化的差异,你把那个差异算出来,那篇论文才有底座。"
陈屿澈,"您的意思是先找案例,再往上推。"
"对,"导师说,"你现在是反过来的——你有了一个大命题,在找支撑它的材料,这样写出来的东西容易空。从案例往上走,结论才是实的。"
他把这句话在脑子里记住了,"那案例找什么方向。"
导师想了一下,"就业统计,"他说,"这个你做过,你也知道那个领域的口径问题,而且可比数据多,好做。更重要的是,就业统计里'谁算就业'这件事,在不同的统计主体眼里差异极大——政府的口径、研究机构的口径、当事人自己的认知,三者之间的缺口,是最直接的定义权问题的样本。"
陈屿澈在那里坐了一会儿,把这个方向在脑子里转了一下,感觉到那篇论文的轮廓开始往具体的方向收紧了,那种感觉是实的,不是之前那种越想越宽、越走越虚的漂浮感。
"案例数据怎么找,"他问。
导师,"国家统计局有年度就业调查公开数据,劳动经济研究所也有,有几个研究团队做过横向比较,你找出来,把三套口径的就业率数字排在一起,那个缺口一目了然。"
他把这几个来源记下来,谢过导师,出了办公室,在楼道里站了一会儿,把今天谈的事在脑子里整理了一遍,然后往图书馆走。
---
乔予安那边,项目组的启动会是在周三的傍晚。
那是她第一次正式参与那个联盟的工作,一共六个人围着桌子坐下,负责人把下一期调研的框架先介绍了一遍,然后说这期最大的工作是重新设计调研工具,把上一期暴露出来的问题修掉。
他把目光转向乔予安,"我们上次沟通过,乔同学对指标设计有一个方案,今天可以先说一下思路。"
乔予安把准备好的那份文件在脑子里过了一遍,然后说,"我的出发点是把指标分成两层,第一层测可及性,第二层测实用性,这两层是独立的,分开来测,分开来分析,最后再看两层之间的关系,那个关系才是真正有意义的结论。"
她说完,沉默了一会儿,坐在她对角的那个做数据分析的成员——上次见面时他比负责人更感兴趣——这次反而先开了口,说,"这个拆法理论上没问题,但实际执行起来,两层的样本怎么对应?你总不能让同一个被访者回答两套完全独立的问卷。"
这是一个真实的问题,不是刁难,乔予安听完,想了两秒,"不需要两套问卷,"她说,"可及性的问题和实用性的问题可以在同一张问卷里,只是在分析阶段分层处理,不是在问卷阶段分开,你把哪些题归入哪一层,是在编码阶段做的决策,不是在采集阶段。"
那个成员,"那编码标准怎么确定,谁来定——"
他说到这里,停了一下,好像意识到这个问题他自己还没有答案。
乔予安,"这是这期调研需要先解决的问题,在正式采集数据之前,我们要先明确:这个'有没有用到资源'是我们来判断,还是被访者自己来判断,标准不同,编码方式就不同,结论就不同。这件事不能等到采集完之后再决定,要在设计阶段锁定。"
讨论室里安静了一下。
负责人在桌边记着什么,抬起头,"那这个标准,你有建议吗。"
"我有一个初步想法,"乔予安说,"但需要先看一组现有数据来验证,我找到了一个教育部公开的基础教育数据库,里面有一套外来务工随迁子女的学籍数据,我想用那个数据先做一个预分析,看看我那个分层框架能不能跑通,如果跑通了再定编码标准,如果跑不通再改框架。"
"你找到那个数据库了?"负责人停笔,"那个数据我们查过,以为要申请才能用。"
"公开部分可以直接用,"她说,"有一部分学籍数据是按地区分年度公开的,不需要申请,够做预分析了。"
负责人看了她一眼,然后点头,"那这块你来推进。"
---
那天晚上,乔予安回到宿舍,把那个数据库的接口打开,把几个地区的近五年数据导出来,开始整理。数据比她预想的干净,字段对应得上,她花了将近两个小时,把预分析的框架跑了一遍,结果是:分层是成立的,但有一个地区的数据里,两层之间的差异异常大,大到超出了正常的统计浮动范围。
她把那个地区的数据单独拉出来看了一会儿,觉得那里有一个值得深挖的东西,但那是下一步的事,今天先记下来。
她在文档里加了一行备注:**某地区数据异常,可及性与实用性缺口过大,建议追加访谈。**
然后关电脑,去洗漱。
---
同一个夜晚,陈屿澈那边,他在图书馆坐到将近十点,把那三套就业统计的口径数据找出来,整理成了一张对比表,把同一年份、同一地区的就业率数字放在一起——三个口径,三个数字,最低的和最高的之间差了将近十一个百分点。
他盯着那个数字看了一会儿。
十一个百分点,不是误差,是定义的差异,是"谁算就业"这个问题,在三个不同的主体那里,有三个不同的答案。
他把那张对比表存进文件夹,在文件夹名字后面加了一个括号:"案例一"。
然后他拿起手机,想了一下,给她发了一条,"我找到案例了,就业统计,三套口径的就业率,同一地区同一年份差了十一个点。"
她那边回来的时候,他已经到了宿舍,"那个缺口是怎么来的。"
"定义,"他说,"政府口径把灵活就业算进去了,研究机构只算正规雇佣,当事人自己有时候觉得自己没有就业,哪怕他们在政府的数字里是就业的。"
她,"所以你有三个'就业率',但没有一个是真的,或者说三个都是真的,只是在说不同的事。"
他,"嗯。"
她,"你那篇论文的案例有了。"
"有了,"他说,"框架还要再想,但底座是实的了。"
然后她那边发来,"我今天那个项目组的数据预分析也跑通了,有一个地区的异常值想了解一下,你做就业统计的时候有没有碰到过某个地区的数据结构特别奇怪的情况,我说的那个地区是——"
她把地区名发过来了。
他看了一下,"碰到过,那个地区的统计报告历年来口径换得最频繁,导致纵向比较很难做,不是数据本身有问题,是那几年政策变化导致统计定义一直在换,你那个可及性和实用性的缺口大,可能就是这个原因。"
她,"所以那个缺口不是真实的社会差异,是统计方法的人为产物。"
"不一定,"他说,"也可能两个都有,需要把政策变化那几年单独剔出来,剔完之后剩下的部分如果缺口还大,那才是真实的差异。"
她那边停了一会儿,然后回,"我明天改一下预分析,加一个时间分段。"
"嗯,"他说,"有结果了发给我看。"
---
那天深夜,周新发来了一条消息。
陈屿澈已经准备睡了,看见震动,把手机拿起来。
周新说,"上次我跟你说的那个人,他前几天又联系了我,这次没有问你或者她,问了一个别的事,我觉得你要知道一下。"
他回,"说。"
"他问我还记不记得当年竞赛有一道题,那道题的答案在公布之前,组里有没有人提前讨论过,"周新说,"他是这么问的:'后来那道题出了争议,你记不记得当时讨论的时候陈屿澈说了什么,大概什么意思就行。'"
陈屿澈把这段话看完,没有立刻回。
那道有争议的题——他记得,组里当时确实有过争论,关于那道题的标准答案,他和另一个人意见不一致,当时他说了什么,他还记得,不多,两三句,但说了。
他想,一个随机的旁观者不会问"当时陈屿澈说了什么",这句话的结构是:他在验证他自己记忆里已经有的某个内容,他想知道的不是陈屿澈有没有发言,是陈屿澈当时到底说了什么——他在校对。只有当年在场的人才需要校对。
周新又发来,"我没有正面回他,就说记不太清了,他也没有再追,说了几句别的就结束了。他说话还是那样,每句都平,让你说不出来哪里有问题。"
陈屿澈回,"嗯,你做得对,继续不说,他再联系你还是这样。"
周新,"好,你自己保重。"
"嗯。"
他把手机放下,在黑暗里坐了一会儿。
那道题,当年在场的是组里五个人,林峰和赵雪他已经基本排除了,剩下的那个方向,他这半年里一直在那里,没有往别处走。这一条消息,不是新的发现,但是另一根钉子,钉进了他早就知道的那个位置,让那个位置更稳了。
他打开抽屉,把那张折起来的纸取出来,在最后一行下面加了一行:
**校对记忆·验证发言内容。只有当年在场的人才知道那道题有争论,才需要回来校对。**
然后把纸重新折好,放回去,合上。
宿舍里的呼吸声和台灯的光圈各自在,他在黑暗里坐了一会儿,然后躺下,把眼睛闭上。
那件事是清楚的,越来越清楚,但今晚他不需要做任何事,明天他有论文要写。