下一章 上一章 目录 设置
18、第十八章 点估计 真实,是唯 ...
-
真实,是唯一的点估计。
陆明远发现自己在做一件以前从未做过的事:预测。
之前所有的分析,都是回头看——看她已经走过的路,看她已经留下的数据,看她已经发生的情感。那是历史,是过去,是无法改变的。
但现在,他想做一件不一样的事:向前看。他想知道,如果她没有走,如果她还活着,如果日子继续过下去,她会怎么样?
他想做点估计。
点估计是统计学里的一种方法,用样本数据来估计总体的某个参数。比如,用样本均值估计总体均值,用样本比例估计总体比例。点估计给出一个具体的数值,而不是一个范围。
但他没有未来的数据。他只有过去。他需要用过去的数据,来估计未来的她。
他需要先选一个模型。
从之前的分析看,最好的模型是那个包含出差天数和健康的模型:
Y = 8.54 - 0.047 ×出差天数 + 1.87 ×健康
R? = 0.71,调整R? = 0.69
这个模型简单,解释力强,变量少,不容易过拟合。
他决定用这个模型来做点估计。
但问题是,未来的出差天数和健康,他不知道。
他需要先估计这两个变量。
先估计健康。
如果她没有走,如果她活到了2022年、2023年、2024年……她的健康状况会怎么样?
2019年复发,2020年确诊,2021年去世。这是现实。但如果她没有走,她应该是在2020年确诊后,经过治疗,病情稳定下来,然后进入长期的带病生存状态。
他咨询过医生。和她同一种癌症的患者,如果治疗有效,五年生存率大概在30%左右。也就是说,有30%的人可以活过五年。
她会是那30%吗?
他不知道。但他需要一个估计。
他假设:如果她还活着,2022-2026年,她仍然是不健康的。但“不健康”有不同的程度。2020-2021年是重度不健康,住院、化疗、手术。如果活下来,后面可能是中度不健康,需要定期复查、长期服药,但可以正常生活。
他的健康虚拟变量是1表示健康,0表示不健康。这个二分法太粗了。他需要更细的分类。
他定义一个新的健康变量:健康程度,0-3分。
3分:完全健康,像2015年以前那样。
2分:轻度不健康,有些小毛病,但不影响生活。
1分:中度不健康,需要治疗,但可以正常活动。
0分:重度不健康,住院、卧床、无法自理。
根据日记,她各年的健康程度:
1989-2015:3分
2016:第一次查出问题,但没告诉他,应该是2分(轻度)
2017:2分
2018:2分
2019:复发,应该是1分(中度)
2020:确诊,住院,0分(重度)
2021:最后一年,大部分时间住院,0分
如果她没有走,2022年及以后,会怎么样?
他咨询医生后,做如下假设:
2022年:治疗后稳定,出院,但需要定期复查。1分(中度)
2023年:继续稳定。1分
2024年:可能复发?假设没有复发,继续稳定。1分
2025年:1分
2026年:1分
2027年:如果五年不复发,算临床治愈,可以恢复到2分(轻度)
2028-2030年:2分
这是最乐观的估计。也可能复发,也可能恶化,也可能……
但他需要一个点估计。他选择这个乐观的路径。
再估计出差天数。
如果她没有走,他的出差天数会怎么样?
他回忆2020-2021年。2020年,疫情,他出差43天。2021年,他请假陪她,出差12天。这两年是非常态。
如果她没有走,2022年及以后,他还会像以前那样出差吗?
他不知道。但他知道,经过这件事,他变了。他不会再像以前那样,把出差当成逃避。他会想多陪她。
但他也需要工作。统计局的工作,出差是不可避免的。
他需要做一个合理的估计。
看历史数据:2007-2019年,他的平均出差天数是98天。最低是2009年的85天,最高是2019年的118天。
2020-2021年是非常态,不考虑。
如果她没有走,他应该会减少出差。但减少多少?
他想起2018年,他陪她去医院后说过“明年少出点差”。但2019年,他出了118天,历史最高。
他说过的话,往往做不到。
但他这次想做到。
他假设:如果她还活着,他会把出差天数控制在平均水平以下。比如,每年70天左右。
70天,比历史最低的85天还低,比2020年的43天高。是一个合理的折中。
2022年:70天
2023年:70天
2024年:70天
2025年:70天
2026年:70天
2027年:如果她恢复得好,他可能会稍微多出一点差?但他不会。他假设保持70天。
2028-2030年:70天
这是一个稳定的估计。
现在,他有了未来9年(2022-2030年)的健康程度和出差天数。
但模型需要的是健康虚拟变量(1/0)和出差天数(连续)。
健康虚拟变量:他需要把健康程度(0-3分)转化成1/0。他决定:2-3分为健康(1),0-1分为不健康(0)。
那么:
2022年:健康程度1分 →健康虚拟变量0
2023年:1分 → 0
2024年:1分 → 0
2025年:1分 → 0
2026年:1分 → 0
2027年:2分 → 1
2028年:2分 → 1
2029年:2分 → 1
2030年:2分 → 1
出差天数:全部70天。
代入模型:
Y = 8.54 - 0.047 ×出差天数 + 1.87 ×健康
2022年:8.54 - 0.047×70 + 1.87×0 = 8.54 - 3.29 = 5.25分
2023年:同上,5.25分
2024年:5.25分
2025年:5.25分
2026年:5.25分
2027年:8.54 - 3.29 + 1.87 = 7.12分
2028年:7.12分
2029年:7.12分
2030年:7.12分
这就是点估计的结果:如果她还活着,2022-2026年,她的情感指数大约是5.25分;2027年以后,恢复到7.12分。
5.25分是什么水平?和她1995-1996年差不多,比2003年的7分低,比2014年的8分低,但比2019年的2分高很多。
7.12分是什么水平?和2003年的7分接近,比2014年的8分略低,但已经是很好的水平了。
他看着这些数字,心里五味杂陈。
5.25分。这是她如果活着,2022年的情感指数。
2022年,她已经走了。他只能算出一个数字,想象她如果还在,会是什么样。
5.25分,是一个不好不坏的分数。比那些平淡的年份(3-4分)高,但比那些开心的年份(7-9分)低。是“还行”的水平。
她会“还行”地活着。他出差70天,她身体不好,但他在。5.25分,是“你在,但不够”的分数。
2027年以后,她身体好了,7.12分。那是“你在,我也好”的分数。
但这一切,都不会发生了。
陆明远又做了一个点估计:用状态虚拟变量模型。
模型:Y = 5.43 - 1.54×D7 - 2.12×D8 - 3.65×D9 + 3.21×D10 + 1.87×D11 + 2.34×D12 + 2.98×D13
D7是状态2(出差多,健康),D8是状态3(出差少,不健康),D9是状态4(出差多,不健康),D10是结婚,D11是非典,D12是三亚,D13是最后。
未来9年,没有这些特别事件(D10-D13都是0)。只有状态变量。
2022-2026年:他出差少(70天<98),她不健康,所以是状态3,D8=1。
代入:Y = 5.43 - 2.12 = 3.31分
2027-2030年:他出差少(70天),她健康,所以是状态1,D7=0,D8=0,D9=0,Y = 5.43分
这个模型给出的估计更低:2022-2026年只有3.31分,2027-2030年5.43分。
3.31分,是什么水平?和2009-2012年的那些平淡年份差不多,比2019年的2分高,但比她大部分年份都低。
为什么这个模型估计这么低?因为状态3(他出差少,她不健康)的平均情感本来就低。2020-2021年虽然是状态3,但因为有“最后”这个特别事件,所以加了2.98分。去掉特别事件,状态3就是3.31分。
这说明,如果她没有走,如果没有“最后”这个特别事件,2020-2021年她的情感也不会那么高。是因为她知道时间不多了,所以才那么珍惜,所以才那么开心。
如果她活着,日子正常过,2022-2026年,可能就是3.31分。比2019年好一点,但也好不了太多。
两个模型给出不同的估计:5.25分 vs 3.31分。
哪个更可信?
第一个模型是连续变量模型,用出差天数和健康做预测。
第二个模型是虚拟变量模型,用状态做预测。两个模型的R?差不多(0.71 vs 0.76),但第二个模型用了更多特别事件的虚拟变量,那些特别事件在未来都不存在,所以预测可能偏低。
他想,也许真实的估计在两者之间。4分左右。
4分是什么水平?是她大部分平淡年份的水平。是“还行,但也没什么可高兴”的水平。
她如果活着,可能就是4分。不高不低,不好不坏,平平淡淡地过完余生。
但4分,比2021年的8分差远了。
2021年,她最后一年,情感指数8分。那是她三十三年里第二高的年份(最高是1990年的9分)。那一年,他一直在,她一直在等,但等的不是他回来,是离开。
那一年,她的开心,是因为知道时间不多了,所以每一分钟都珍贵。是因为知道要走了,所以每一次见面都珍惜。是因为没有未来了,所以把所有的爱都集中在当下。
如果她活着,如果还有未来,她就不会那么开心。因为未来意味着不确定,意味着他可能还会出差,意味着日子还会平淡,意味着一切可能回到从前。
她最后的高分,是用未来换的。
陆明远想起她日记里的一句话。
2021年4月:“今天天气好,他推我出去走走。花开得很好。我知道这是最后一次看这些花了。所以特别好看。”
最后一次。因为知道是最后一次,所以才特别好看。
如果还有下一次,如果明年还能看,可能就没那么珍惜了。可能就会想,明年再看吧,今天累了,不去了。
人的情感,就是这样。不是由客观事物决定的,是由预期决定的。知道要失去了,才懂得珍惜。知道是最后一次,才用力感受。
他的点估计,估计的是“如果还有未来”的她。但那个她,不是真正的她。真正的她,已经用未来换了最后的高分。
他又做了一个点估计:估计如果他还像以前一样出差,她会怎么样。
假设2022-2030年,他继续像2007-2019年那样,平均出差98天。
健康假设同上。
用第一个模型:
2022-2026年:不健康,出差98天,Y = 8.54 - 0.047×98 = 8.54 - 4.61 = 3.93分。
2027-2030年:健康,出差98天,Y = 8.54 - 4.61 + 1.87 = 5.80分
3.93分和5.80分。
比之前估计的低一些。出差多,分数就低。
用第二个模型:
2022-2026年:状态4(出差多,不健康),Y = 5.43 - 3.65 = 1.78分。
2027-2030年:状态2(出差多,健康),Y = 5.43 - 1.54 = 3.89分
1.78分和3.89分。
1.78分,和2019年的2分差不多。如果他还像以前那样出差,她即使活着,也会继续不开心,甚至会再次跌到2019年的水平。
这个估计,让他心惊。
他想起2019年。那一年,他出差118天,她复发,没告诉他。她的情感指数2分,历史最低。
如果他继续那样,2022-2026年,她虽然不会复发(假设),但情感也不会好。1.78分,几乎是抑郁的水平。
她会怎么样?会一个人扛着,会花钱填补空白,会写日记但很少提到他,会在平淡的日子里慢慢消沉。
也许会再次复发,也许不会。但情感上,她已经死了。
他差点让她这样。
他又做了一个点估计:估计最好的情况。
假设他完全不出差,每年0天。
2022-2026年:不健康,出差0,Y = 8.54 - 0 + 1.87×0 = 8.54分。
2027-2030年:健康,出差0,Y = 8.54 + 1.87 = 10.41分(超过10分,说明模型外推失效)。
8.54分,是她最后两年的水平。10.41分,是根本不存在的完美。
但8.54分,是他能做到的最好。如果他完全不出差,如果他一直陪着她,如果她把最后两年的日子过成永远——那就是8.54分。
但他做不到。他需要工作。他不可能完全不出差。
70天,是他能做的折中。5.25分,是折中的结果。
陆明远把这些点估计画成一条线,和她的历史曲线连在一起。
1989-2021年,是她的真实曲线。高高低低,起起伏伏,最后在2021年冲高到8分,然后戛然而止。
2022-2030年,是他画的虚线。有三条:
虚线A(最好情况):一直8分以上。
虚线B(折中情况):5-7分。
虚线C(最坏情况):2-4分。
真实的她,停在2021年。虚线的她,活在不同的可能里。
他想,如果她能选,她会选哪条虚线?
她会不会选C?因为C最接近真实——2019年就是2分,她习惯了。C虽然低,但熟悉。
她会不会选B?因为B有希望,有未来,有平淡但还行的日子。
她会不会选A?因为A有他一直在,有8分以上的每一天。
他不知道。
但他知道,她选了真实。她选了2021年的8分,然后离开。她没有选任何虚线。
那天晚上,陆明远做了一个梦。
梦里他站在一个岔路口,前面有三条路。每条路上都有一个人,都是林墨。
第一条路上的林墨,穿着病号服,坐在轮椅上,但他推着她。她的表情平静,带着一点笑。那是虚线A的林墨。
第二条路上的林墨,穿着家居服,一个人在散步。她的表情平淡,不笑也不哭。那是虚线B的林墨。
第三条路上的林墨,穿着那件白衬衫,扎着马尾,站在远处看着他。她的表情复杂,有笑,有泪,有不舍,有释然。
他知道,那是真实的林墨。
他问:“你选哪条路?”
她不说话,只是看着他。
他问:“你为什么不选?”
她笑了,说:“我已经选了。”
他问:“你选了哪条?”
她说:“我选了来找你。”
他愣住了。
她说:“所有的虚线,都是没有你的路。只有真实的路,有你。”
她指了指第一条路:“那条路上有你推着我,但你推着的,是一个病人。你照顾我,你陪我,但你心里,是愧疚,是责任,是补偿。”
她指了指第二条路:“那条路上没有你。我一个人走,平平淡淡,不高不低。但我不想要。”
她指了指自己:“这条路上,有你。你在找我,你在读我的数据,你在写那些信。你在。”
她朝他走来,走到他面前,伸出手,摸了摸他的脸。
“你选的,就是真实。”
她消失了。
陆明远醒了。
凌晨四点,窗外还是黑的。他躺在床上,想着她的话。
你选的,就是真实。
他选了真实。他选了没有她的真实。他选了有数据、有回忆、有那些信的真实。
他没有选那些虚线。那些她活着的、但可能不开心的、可能平淡的、可能重复的虚线。
他选了真实。真实里有她的离开,有他的后悔,有他三十一年的分析,有这十九封信。
真实,是唯一的点估计。
“林墨:
我做了点估计。用两个模型,三种假设,画了三条虚线。
虚线A:我完全不出差,你一直开心,8分以上。
虚线B:我出差70天,你平平淡淡,5-7分。
虚线C:我像以前一样出差,你回到从前,2-4分。
三条虚线,三个可能的你。
但真实的你,不在任何一条虚线上。真实的你,停在2021年,8分,然后离开。
我想问你,如果你能选,你会选哪条虚线?
你托梦告诉我:你不选虚线。你选真实。
你说,真实里有我。我在找你,我在读你的数据,我在写那些信。我在。
那些虚线里,也许有我推着你,但那是愧疚的我。也许没有我,那是平淡的你。也许有从前的我,那是重复的日子。
你不想要愧疚的我,不想要平淡的你,不想要重复的日子。你只想要真实。
真实里有你的离开,有我的后悔,有我们三十三年的纠缠。真实里有数据,有信,有每一个不眠的夜晚。真实里有爱。
我懂了。
点估计,估计的是未来。但未来不存在。存在的只有过去和现在。
过去,是你留下的数据。现在,是我在读这些数据。
这就是真实。
谢谢你,用三十三年教会我什么是点估计,什么是未来,什么是真实。
从今以后,我不再估计。我只读数据,只写信,只想你。
这就是我的真实。”
她在听吗?
她一直在听……