《数焰》星越蔓蔓 ^第19章^ 最新更新：2026-04-27 09:00:00 晋江文学城手机版

首页古言现言纯爱衍生无CP+ 百合完结
 分类排行全本包月免费中短篇 APP 反馈

19、第十九章区间估计他的区间估 ...

　　他的区间估计，是关于一个不存在的未来。

　　陆明远盯着那个数字——5.25。
　　这是他用点估计算出来的，如果她还活着，2022年的情感指数。
　　一个具体的数字，精确到小数点后两位。
　　但生活真的可以这么精确吗？他站在阳台上，看着五月的北京，天已经蒙蒙亮了。楼下有人在遛狗，狗在跑，人在追。那只狗会精确地跑多少步吗？那个人会精确地几点几分追到吗？
　　不会的。生活不是点，是区间。
　　他想起统计学里另一个概念：区间估计。点估计给出一个具体的数值，区间估计给出一个范围，告诉你在一定的置信水平下，真实值落在这个范围内。
　　比如，95%的置信区间，意味着如果重复抽样100次，有95次区间会包含真实值。
　　他需要给那个5.25做一个区间估计。
　　做区间估计，首先要知道标准误。
　　他之前做的回归模型，有标准误。模型是：
　　Y = 8.54 - 0.047 ×出差天数 + 1.87 ×健康
　　这个模型的标准误是多少？他翻出之前的回归结果：
　　出差天数的系数标准误 = 0.012
　　健康的系数标准误 = 0.78
　　常数项的标准误 = 1.23
　　但做预测的区间估计，还需要考虑更多的误差来源。不仅仅是系数的标准误，还有模型本身的误差，还有未来变量的不确定性。
　　他需要做预测区间。
　　预测区间的公式是：?± t × SE_pred
　　其中SE_pred是预测的标准误，包括两部分：估计系数的误差，和模型残差的误差。
　　他先算残差的标准差。从之前的残差看，模型3（只含出差和健康）的残差标准差大约是1.34。
　　样本量n=15，自由度df=12，t值（95%置信水平）≈ 2.18。
　　预测标准误的近似公式：SE_pred = σ× √(1 + 1/n + (X_new - X?)? / Σ(X_i - X?)?)
　　但这是针对简单回归的。他的模型有两个自变量，公式更复杂。
　　他用一个近似：预测区间 ≈?± 2 ×残差标准差。
　　因为在大样本下，预测区间大约是点估计加减两倍的标准差。他样本小，但可以近似。
　　残差标准差1.34，两倍是2.68。
　　所以，2022年的预测区间大约是：5.25 ± 2.68，即2.57到7.93分。
　　这个区间很宽。从接近2019年的水平，到接近2021年的水平，都有可能。
　　这说明什么？说明点估计只是一个点，真实值可能落在很宽的范围内。未来是不确定的，她的情感也是不确定的。
　　但这是用模型做的区间估计。模型本身是建立在过去数据上的，未来可能和过去不一样。
　　他需要另一种区间估计：用她的历史数据，直接估计她的情感可能落在什么范围。
　　他把她的情感指数（作为妻子的她）从小到大排序：
　　2,2,2,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,7,7,8,8,9,9
　　一共33个数据。
　　最小值2，最大值9。
　　中位数是多少？第17个数是4，第18个数也是4，中位数4。
　　四分位数：下四分位数（Q1）是3，上四分位数（Q3）是5。
　　四分位距IQR = 5-3 = 2。
　　常见的区间估计：50%的数据落在Q1和Q3之间，即3到5分。95%的数据落在Q1-1.5×IQR到Q3+1.5×IQR之间，即3-3=0到5+3=8分。
　　所以，从历史数据看，她的情感指数，95%的情况下落在0到8分之间。主要集中在3到5分。
　　她的历史均值是4.55分，标准差2.12。95%的置信区间是4.55 ± 1.96×2.12/√33 ≈ 4.55 ± 0.72，即3.83到5.27分。
　　这个区间和模型给出的区间不一样。模型给出2.57到7.93，历史数据给出3.83到5.27。模型区间更宽，因为包含了未来出差和健康的不确定性；历史区间更窄，因为只是基于过去的数据，假设未来和过去一样。
　　但未来不会和过去一样。她有变化，他有变化，世界有变化。
　　陆明远想起一个概念：贝叶斯区间估计。
　　贝叶斯方法把先验信息和样本信息结合起来。他的先验信息，是对她的了解——三十三年的数据，十九个章节的分析。他的样本信息，是2022年的点估计。
　　他可以用贝叶斯方法，更新对她的理解。
　　先验分布：从历史数据看，她的情感均值是4.55，标准差2.12。假设正态分布。
　　样本信息：模型预测2022年为5.25，预测标准误1.34。
　　后验均值 = (先验均值/先验方差 + 样本均值/样本方差) / (1/先验方差 + 1/样本方差)
　　先验方差 = 2.12? = 4.49
　　样本方差 = 1.34? = 1.80
　　后验均值 = (4.55/4.49 + 5.25/1.80) / (1/4.49 + 1/1.80) = (1.01 + 2.92) / (0.223 + 0.556) = 3.93 / 0.779 = 5.05
　　后验方差 = 1 / (1/4.49 + 1/1.80) = 1 / (0.223 + 0.556) = 1 / 0.779 = 1.28
　　后验标准差 = √1.28 = 1.13
　　后验95%置信区间 = 5.05 ± 1.96×1.13 = 5.05 ± 2.21 = 2.84到7.26分。
　　这个区间，介于历史区间和模型区间之间。
　　他更新后的理解：2022年，她的情感指数最可能落在2.84到7.26分之间，最可能的点是5.05分。
　　但区间估计，不只是给出一个范围。更重要的是，这个范围告诉我们不确定性有多大。
　　2.84到7.26，跨度4.42分。这个跨度有多大？差不多是从“很不好”到“很好”的整个范围。
　　也就是说，即使做了这么多分析，即使有了三十三年的数据，即使用了最好的模型，他对2022年的预测，仍然有很大的不确定性。
　　未来是不确定的。生活是不确定的。她是不确定的。
　　这个不确定性，不是模型的失败，是生活的本质。
　　陆明远又做了一个区间估计：估计她如果还活着，未来十年的平均情感。
　　他模拟了1000条可能的路径。
　　路径1：她健康恢复得好，他出差控制得好，未来十年平均7分。
　　路径2：她恢复得一般，他出差稍多，未来十年平均5分。
　　路径3：她恢复得差，他出差多，未来十年平均3分。
　　……
　　他写了一个小模拟程序，用蒙特卡洛方法。
　　输入：
　　健康恢复的概率：30%恢复得好（健康虚拟变量=1），50%恢复得一般（1），20%恢复得差（0）——这个假设有点问题，需要重新想。
　　他用更科学的方法：从她的历史健康数据出发，估计她未来健康的概率分布。
　　1989-2015年，她健康了27年。2016-2021年，她不健康了6年。健康概率27/33=82%，不健康概率18%。
　　但未来，她已经得过癌症，健康概率会降低。他咨询医生，类似情况的患者，五年后健康概率大约50%。
　　他假设：2022-2026年，她健康概率20%，不健康80%。2027-2030年，如果活过五年，健康概率50%，不健康50%。
　　出差天数：他假设有30%的可能他继续像以前一样出差（平均98天），50%的可能他减少出差（平均70天），20%的可能他大幅减少出差（平均50天）。
　　然后模拟1000次，每次随机抽取健康状态和出差天数，用模型计算当年的情感，然后取十年平均。
　　结果：
　　1000次模拟的平均值 = 4.87分
　　标准差 = 1.34分
　　95%的区间 = 2.24到7.53分
　　最可能的结果是4.87分，但有可能低到2.24分，也有可能高到7.53分。
　　这个区间，和之前的差不多。未来的不确定性，依然很大。
　　他看着这个区间，2.24到7.53。
　　2.24分，是2019年的水平。那一年，她复发，他出差118天，她情感指数2分。
　　7.53分，是2003年的水平。那一年，非典，他在家，她情感指数7分。
　　未来十年，她可能活得像2019年一样痛苦，也可能活得像2003年一样开心。可能介于两者之间，也可能更差或更好。
　　但最可能的，是4.87分。和她过去三十三年的平均值（4.55）差不多。
　　也就是说，即使经历了这一切，即使他改变了，即使她恢复了，她的平均情感，可能还是和过去一样。
　　不高不低，不好不坏，平平淡淡。
　　陆明远想起她日记里的一句话。
　　那是1998年写的，她三十岁。她说：“我好像看到了自己的一生。就是这样的日子，一天一天过下去。没什么不好，也没什么特别好。就是普通。”
　　普通。她用了这个词。
　　三十岁的时候，她就知道自己会普通。会有一个普通的婚姻，普通的家庭，普通的工作，普通的一生。
　　后来确实如此。她的事业有高峰，但大部分时间普通。她的情感有起伏，但大部分时间普通。她和他的关系有甜蜜，但大部分时间普通。
　　普通，就是她的区间。
　　但他知道，她不普通。
　　她的不普通，不在那些平均值里，不在那些区间估计里，不在那些平平淡淡的日子里。
　　她的不普通，在1989年的认识，在1990年的结婚，在2003年的非典，在2014年的三亚，在2020-2021年的最后。
　　那些年份，是异常值，是离群点，是跳出区间的存在。
　　区间估计，估计的是普通。异常值，才是她真正的自己。
　　陆明远做了一张图。
　　横轴是年份，纵轴是情感指数。他画了两条线：一条是她的真实曲线，一条是她的预测区间。
　　真实曲线在1989-2021年之间起伏。预测区间从2022年开始，是一个越来越宽的带子。
　　2022年，预测区间是2.84到7.26。
　　2025年，因为不确定性累积，区间更宽：2.1到8.0。
　　2030年，区间宽到1.5到8.5。
　　这个带子像一个喇叭，越往后越宽。因为时间越远，不确定性越大。
　　但真实曲线，在2021年就停了。她没有走进这个喇叭。她停在那个点上，8分。
　　8分，是喇叭的上半部分，但不是最上。最上是8.5分，她没到。她停在一个刚刚好的地方。
　　他想起一个概念：置信区间与真实值。
　　在统计学里，置信区间是一个随机区间，而真实值是固定的。如果做100次抽样，100个置信区间里，有95个会包含真实值。
　　但在这里，真实值是固定的——她已经走了，她的情感停在2021年。他的区间估计，是关于一个不存在的未来。
　　这个未来，永远不会变成真实。所以他的区间估计，永远无法被验证。
　　这让他想起一句话：人生没有如果，只有结果。
　　结果就是，她走了。他只能估计那些如果，但那些如果永远不会发生。
　　那天晚上，陆明远做了一个梦。
　　梦里他站在一个很大的广场上，广场上有一个巨大的喇叭形状的东西，口朝上，越来越大。他知道那是他的预测区间。
　　林墨站在喇叭外面，穿着那件白衬衫，扎着马尾。她看着他，不说话。
　　他问：“你为什么不进来？”
　　她指了指喇叭，说：“那是你的未来，不是我的。”
　　他问：“那你的未来呢？”
　　她笑了，说：“我没有未来。我只有过去。”
　　她走进喇叭，但喇叭没有变大，她也没有变小。她就站在喇叭里面，但喇叭的边界绕过了她，像水流绕过石头。
　　她说：“你看，你的区间，不包括我。”
　　他愣住了。
　　她说：“你的区间，是关于一个不存在的我。真正的我，不在里面。”
　　她伸出手，摸了摸喇叭的边缘，说：“这个喇叭，是你用过去的数据做的。但未来不是过去的简单延伸。未来有突变，有意外，有死亡。”
　　她看着他，说：“我就是那个意外。”
　　然后她消失了。
　　喇叭还在，但里面空空的。
　　陆明远醒了。
　　凌晨四点，窗外还是黑的。他躺在床上，想着那个梦。
　　她是那个意外。是他所有预测的意外。是他的区间无法覆盖的点。
　　他可以用过去的数据做任何复杂的模型，可以用任何先进的统计方法，可以计算出任何精妙的区间。但有一个东西，他永远无法预测：死亡。
　　死亡是所有预测的终点。是所有区间的边界。是所有模型的失效点。
　　2021年11月17日，下午三点四十七分。那个时刻，她的情感指数变成了无穷大？还是变成了零？还是变成了无法定义？
　　他只知道，从那以后，她不在他的任何区间里了。
　　“林墨：
　　我做了区间估计。用模型，用历史数据，用贝叶斯方法，用蒙特卡洛模拟。我画了一个喇叭，越来越宽，从2022年一直画到2030年。
　　2.24到7.53，这是未来十年你的情感可能落进去的区间。
　　但我知道，你不会落进去。因为你不在了。
　　你是所有区间的例外。是所有预测的失效点。是所有模型的边界。
　　那些区间，是关于一个不存在的你。关于一个我幻想的、如果你还活着、如果你还在这里、如果你还和我一起慢慢变老的你。
　　但真正的你，不在那里。
　　真正的你，停在2021年，8分。然后消失。
　　你消失的那一刻，我所有的区间都失效了。因为区间需要未来，而你没有未来了。
　　但我还是画了。画那些越来越宽的喇叭，画那些可能的数字，画那些永远不会发生的如果。
　　因为画这些的时候，我觉得你还在。我觉得你还在未来等我。我觉得那些区间里，有一个可能的你，正在过着可能的余生。
　　我知道那是假的。但我需要那些假。
　　谢谢你，用三十三年教会我什么是区间估计，什么是未来，什么是死亡。
　　从今以后，我会继续画那些喇叭。画到我也变成喇叭的那一天。
　　然后，我们就可以在同一个区间里了。”

[灌溉营养液]

昵称：

评分： 2分｜鲜花一捧 1分｜一朵小花 0分｜交流灌水 0分｜别字捉虫 -1分｜一块小砖 -2分｜砖头一堆

打开/关闭本文嗑糖功能

内容：

注:1.评论时输入br/即可换行分段。

2.发布负分评论消耗的月石并不会给作者。

查看评论规则>>

19、第十九章 区间估计 他的区间估 ...

19、第十九章区间估计他的区间估 ...