晋江文学城
下一章 上一章  目录  设置

21、第二十一章 贝叶斯更新 贝叶斯 ...


  •   贝叶斯更新没有终点,就像思念没有终点。

      陆明远发现,自己每天都在做同一件事:更新。
      更新对过去的理解,更新对她的认识,更新对自己错误的认知。每一天,都有新的发现;每一个发现,都让他重新审视那些以为已经懂了的东西。
      他想起贝叶斯更新。
      贝叶斯更新是统计学里的一种方法,用新的信息来更新对某个事件的信念。先验信念 + 新数据 = 后验信念。然后后验信念成为新的先验,再迎接下一个数据,不断迭代。
      三十三年,一万两千多天,每一天都是一个新数据点。他用这些数据,不断更新对她的理解。
      但有一个问题:她走了。没有新的数据了。他的更新,只能基于过去。
      他需要把过去的数据,重新过一遍。用贝叶斯的眼睛。
      他先从最简单的信念开始:她爱他吗?
      先验:他假设有50%的概率她爱他。因为爱不爱这种事,没法预设。
      第一个数据点:1989年,他们认识。她笑了,说“你好,我是林墨”。那个笑,是真的。他更新信念。
      后验概率 = (先验概率×似然) / 证据
      似然:如果她爱他,看到这个笑的概率是90%;如果不爱,看到这个笑的概率是10%。
      证据 = 0.5×0.9 + 0.5×0.1 = 0.5
      后验 = (0.5×0.9)/0.5 = 0.9
      90%。她爱他的概率,从50%升到90%。
      第二个数据点:1990年,结婚。她说“以后我就是你老婆了”。如果她爱他,说这句话的概率95%;如果不爱,概率5%。
      证据 = 0.9×0.95 + 0.1×0.05 = 0.855 + 0.005 = 0.86
      后验 = (0.9×0.95)/0.86 = 0.855/0.86 = 0.994
      99.4%。几乎确定了。
      第三个数据点:1994年,吵架最多的一年。她日记里写“他走了,我一个人哭”。如果她爱他,写这句话的概率80%(因为爱才会因为吵架难过);如果不爱,概率20%(因为不爱也会难过,但程度不同)。
      证据 = 0.994×0.8 + 0.006×0.2 = 0.7952 + 0.0012 = 0.7964
      后验 = (0.994×0.8)/0.7964 = 0.7952/0.7964 = 0.9985
      99.85%。还在上升。
      他继续更新。
      1998年,她日记里写“有时候觉得,一个人也挺好”。这句话让他不安。如果她爱他,说这句话的概率?爱他的人,也会偶尔觉得一个人挺好,但概率不高。他设20%。如果不爱,概率80%。
      证据 = 0.9985×0.2 + 0.0015×0.8 = 0.1997 + 0.0012 = 0.2009
      后验 = (0.9985×0.2)/0.2009 = 0.1997/0.2009 = 0.994
      降到99.4%。还是很高,但降了一点。
      2003年,非典,他在家。她日记里写“真好”。如果她爱他,写这句话的概率95%;如果不爱,5%。
      证据 = 0.994×0.95 + 0.006×0.05 = 0.9443 + 0.0003 = 0.9446
      后验 = (0.994×0.95)/0.9446 = 0.9443/0.9446 = 0.9997
      升到99.97%。
      2008年,父亲去世。她日记里写“我一个人回去,一个人办丧事,一个人回来”。如果她爱他,写这句话的概率?爱他的人,会希望他在,所以写这句话时带着失望,概率70%。如果不爱,可能无所谓,概率30%。
      证据 = 0.9997×0.7 + 0.0003×0.3 = 0.6998 + 0.00009 = 0.69989
      后验 = (0.9997×0.7)/0.69989 = 0.6998/0.69989 = 0.99987
      还是99.99%。
      2014年,三亚之旅。她日记里写“三亚真好。但更好的,是和他一起”。如果她爱他,写这句话的概率98%;如果不爱,2%。
      证据 = 0.99987×0.98 + 0.00013×0.02 = 0.97987 + 0.0000026 = 0.9798726
      后验 = (0.99987×0.98)/0.97987 = 0.97987/0.97987 = 0.9999999
      基本上100%了。
      2019年,复发,没告诉他。她日记里写“他不知道”。如果她爱他,写这句话的概率?爱他所以不告诉他怕他担心,概率90%。如果不爱,可能也无所谓,概率10%。
      证据 = 0.9999999×0.9 + 0.0000001×0.1 = 0.8999999 + 0.00000001 = 0.89999991
      后验 = (0.9999999×0.9)/0.9 = 0.9/0.9 = 1
      100%。
      2020年,确诊,他在。她日记里写“他在,我就不怕”。如果她爱他,写这句话的概率99.9%;如果不爱,0.1%。
      后验还是100%。
      2021年,最后一年。她日记里写“谢谢你”。如果她爱他,写这句话的概率99.99%;如果不爱,0.01%。
      后验还是100%。
      三十三个数据点更新下来,她爱他的概率,从50%升到100%。
      但这是用他设定的似然算的。似然是他主观判断的。换了别人,可能有不同的似然。
      他需要更客观的似然。
      他从她的日记里,提取那些直接表达情感的句子,统计频率。
      “他”出现的次数:372次。总日记篇数:528篇。平均每篇0.7次。
      “想他”出现的次数:87次。平均每篇0.16次。
      “等他”出现的次数:56次。平均每篇0.11次。
      “爱他”出现的次数:只有3次。中国人不常写这个字。但3次,也在那里。
      这些频率,可以作为似然的依据。
      如果她爱他,这些词出现的概率应该高。如果不爱,应该低。
      他用这些频率重新做贝叶斯更新。
      先验还是50%。
      第一个数据点:1989年,日记里出现“他”的次数?那年她刚开始写日记,提到他很多。他算了一个综合似然。
      结果和之前差不多。最后概率还是趋近100%。
      但他知道,这个100%是数学上的。实际上,没有什么是100%确定的。
      贝叶斯更新的魅力就在这里:它可以无限接近1,但永远到不了1。因为总有不完全的信息,总有没观测到的数据,总有未知的可能性。
      她可能有不爱他的时刻。1998年,她说“一个人也挺好”的时候,可能真的想过离开。2008年,他不在的时候,可能真的恨过他。2019年,她一个人扛着的时候,可能真的后悔过。
      但那些时刻,都被爱覆盖了。爱不是一条直线,是起伏的曲线。有高峰,有低谷,但平均值很高。
      贝叶斯更新捕捉的,就是这个平均值。
      他换了一个问题:她幸福吗?
      先验:50%。
      数据点1:1990年,日记里写“开心”的次数。那年写了23次“开心”。如果她幸福,写“开心”的概率高;如果不幸福,概率低。
      后验:78%。
      数据点2:1994年,写“难过”的次数。那年写了12次“难过”。如果她幸福,写“难过”的概率低;如果不幸福,概率高。
      后验:65%。
      数据点3:2003年,写“真好”的次数。那年写了8次“真好”。后验:82%。
      数据点4:2008年,写“哭”的次数。那年写了7次“哭”。后验:51%。
      数据点5:2014年,写“开心”的次数。那年写了15次“开心”。后验:79%。
      数据点6:2019年,写“难受”的次数。那年写了9次“难受”。后验:43%。
      数据点7:2020年,写“不怕”的次数。那年写了5次“不怕”。后验:58%。
      数据点8:2021年,写“谢谢”的次数。那年写了4次“谢谢”。后验:67%。
      三十三个数据点更新下来,她幸福的概率是67%。
      和他之前用频率学派算的一样。
      贝叶斯更新可以一步一步看,也可以一次性看全部。
      他做了一次性更新:用所有三十三个年份的数据,同时更新。
      先验:50%。
      数据:三十三个年份的情感指数(从日记里读出来的1-10分)。
      他假设情感指数服从正态分布。如果她幸福,均值7分,标准差2;如果不幸福,均值3分,标准差2。
      然后计算似然:每个年份的情感指数,在两种假设下的概率密度,相乘。
      结果:
      似然比 = 7.8×10^12
      后验概率 = 1 / (1 + (0.5/0.5) / 7.8e12) = 1 / (1 + 1/7.8e12) ≈ 1
      还是100%。
      但如果用更严格的标准:幸福和不幸福的分布有重叠,有些年份(比如5分)既可能是幸福也可能是不幸福。这样算出来的后验概率,是99.7%。
      99.7%,不是100%。有0.3%的概率,她是不幸福的。
      那0.3%,是哪些年份?是1998、2008、2019这些低谷。是那些她一个人在日记里写“累”“难过”“一个人”的年份。
      陆明远看着这个0.3%,久久说不出话。
      0.3%,三千分之一。三十三年里,有大约0.1年,也就是一个月左右,她可能是不幸福的。
      那一个月,是哪些天?他不知道。但她知道。她写在日记里了,只是他没看见。
      现在他看见了。
      那些天,是1998年的某几天,她写“一个人也挺好”的时候。是2008年的某几天,她写“我一个人回去”的时候。是2019年的某几天,她写“他不知道”的时候。
      那些天,他不幸福。她也不幸福。
      他继续做贝叶斯更新,用一个新的问题:他爱她吗?
      先验:他以为自己爱她,概率100%。但现在他怀疑了。他真的爱她吗?如果爱,为什么让她等那么久?如果爱,为什么在她最需要的时候不在?如果爱,为什么那些年没有好好陪她?
      他设先验为50%。因为他需要诚实。
      数据点1:1990年,他每天给她打电话。如果爱她,打这么多电话的概率90%;如果不爱,10%。
      后验:90%。
      数据点2:1994年,吵架后他摔门出去。如果爱她,摔门出去的概率30%(因为爱也会吵架,但不会轻易走);如果不爱,70%。
      后验: (0.9×0.3) / (0.9×0.3 + 0.1×0.7) = 0.27 / (0.27+0.07) = 0.27/0.34 = 0.794
      降到79.4%。
      数据点3:2003年,非典期间天天在家陪她。如果爱她,陪她的概率95%;如果不爱,5%。
      后验: (0.794×0.95) / (0.794×0.95 + 0.206×0.05) = 0.7543 / (0.7543+0.0103) = 0.7543/0.7646 = 0.9865
      升到98.7%。
      数据点4:2008年,她父亲去世,他出差没陪她。如果爱她,做出这个行为的概率?很难说。他当时觉得工作需要,但现在看来,是逃避。设概率20%。
      后验: (0.987×0.2) / (0.987×0.2 + 0.013×0.8) = 0.1974 / (0.1974+0.0104) = 0.1974/0.2078 = 0.95
      降到95%。
      数据点5:2014年,带她去三亚。如果爱她,做这件事的概率90%;如果不爱,10%。
      后验: (0.95×0.9) / (0.95×0.9 + 0.05×0.1) = 0.855 / (0.855+0.005) = 0.855/0.86 = 0.994
      升到99.4%。
      数据点6:2019年,他出差118天,历史最高。如果爱她,出这么多差的概率?他不知道。设30%。
      后验: (0.994×0.3) / (0.994×0.3 + 0.006×0.7) = 0.2982 / (0.2982+0.0042) = 0.2982/0.3024 = 0.986
      降到98.6%。
      数据点7:2020-2021年,他一直在陪她。如果爱她,陪她的概率99%;如果不爱,1%。
      后验: (0.986×0.99) / (0.986×0.99 + 0.014×0.01) = 0.97614 / (0.97614+0.00014) = 0.97614/0.97628 = 0.99986
      99.99%。
      三十三个数据点更新下来,他爱她的概率,从50%升到99.99%。
      但那0.01%的不确定性,永远在那里。那是1994年的摔门而去,是2008年的缺席,是2019年的118天。那些行为,是他爱的不完美证据。
      他想起一个概念:先验的敏感性。
      贝叶斯更新的结果,依赖于先验的选择。如果他一开始就相信自己是爱她的,先验设90%,那最后就是99.999%。如果他一开始就怀疑自己,先验设10%,那最后可能是80%多。
      不同的先验,导致不同的后验。
      他选哪个先验?
      他选50%。因为他不想欺骗自己。他要诚实地面对那些年,那些行为,那些伤害。
      50%的先验,99.99%的后验。这个结果告诉他:即使诚实地面对自己的错误,他仍然是爱她的。那些错误,是爱的瑕疵,不是爱的反面。
      他继续做贝叶斯更新,用最后一个问题:他们还会重逢吗?
      先验:0%。因为他理智上知道,人死了就是死了,不会重逢。
      但贝叶斯更新可以处理主观信念。他设一个很小的先验:0.1%。万一呢?万一有灵魂,万一有来生,万一有重逢。
      数据点1:她走的那天,下午三点四十七分,他握着她的手。她的手慢慢变凉。这个数据,不支持重逢。如果会重逢,这个场景的概率?他设50%。如果不会重逢,这个场景的概率100%(因为必然发生)。
      似然比 = 0.5/1 = 0.5
      后验 = (0.001×0.5) / (0.001×0.5 + 0.999×1) = 0.0005 / (0.0005+0.999) = 0.0005/0.9995 = 0.0005
      0.05%,比先验还低。
      数据点2:她走后,他梦见她。梦里的她,穿着白衬衫,扎着马尾,和活着时一模一样。如果会重逢,做这种梦的概率?也许80%。如果不会重逢,做这种梦的概率?也很高,日有所思夜有所梦,80%。
      似然比 = 0.8/0.8 = 1
      后验不变,还是0.05%。
      数据点3:他看她的数据,发现那些完美的正态分布,那些精心安排的异常值,那些只有他能懂的密码。如果会重逢,她会这样安排吗?也许90%。如果不会重逢,她也会这样安排,因为这是她留给他的信。概率90%。
      似然比 = 0.9/0.9 = 1
      后验还是0.05%。
      数据点4:他写完二十二封信,感觉她一直在听。如果会重逢,这种感觉的概率?也许70%。如果不会重逢,这种感觉的概率?也很高,因为思念会产生幻觉,70%。
      似然比 = 0.7/0.7 = 1
      后验不变。
      没有数据能提高这个概率。因为所有数据,在两种假设下的似然都差不多。
      他需要奇迹。但奇迹,不会发生在贝叶斯更新里。
      他放弃了。0.05%就0.05%。两千分之一。够低了,低到可以忽略。
      但他发现,他无法忽略。那个0.05%,一直在那里。像一个微弱的光,在黑暗中闪烁。
      他知道那是非理性的。但他无法消灭它。因为那是希望。
      贝叶斯更新可以处理理性信念,但处理不了希望。希望是先验,不是后验。希望是在没有任何数据支持的情况下,仍然相信。
      他仍然相信。0.05%的相信。
      那天晚上,陆明远做了一个梦。
      梦里他站在一个巨大的贝叶斯公式前。先验、似然、证据、后验,一个个符号在跳动。他输入数据,输出结果。一次又一次,后验越来越精确。
      她站在他旁边,看着那些数字。
      她说:“你还在算?”
      他说:“嗯。”
      她说:“算到什么时候?”
      他说:“算到算不动为止。”
      她笑了,说:“那你永远算不完。”
      他问:“为什么?”
      她说:“因为总有新的数据。每一天,每一刻,每一次想起我,都是新数据。你的后验,会一直更新。”
      他愣住了。
      她说:“贝叶斯更新没有终点,就像思念没有终点。”
      她伸出手,摸了摸他的脸。
      “你愿意一直更新吗?”
      他说:“愿意。”
      她说:“那就好。”
      她消失了。贝叶斯公式还在,数字还在跳动。
      陆明远醒了。
      凌晨四点,窗外还是黑的。他躺在床上,想着那个梦。
      贝叶斯更新没有终点。就像思念没有终点。
      他还会继续更新。用每一天的新数据,更新对她的理解,更新对自己的认识,更新对爱的信念。
      那些新数据是什么?是每天想起她的次数,是每次梦到她的画面,是每一封信写完后的感受。是继续生活,继续等待,继续相信。
      后验变成先验,再迎接新数据。无限迭代。
      直到某一天,他不再有新的数据。那一天,就是他和她重逢的日子。
      “林墨:
      我做了贝叶斯更新。
      先验:50%你爱我。后验:100%。
      先验:50%你幸福。后验:67%。
      先验:50%我爱你。后验:99.99%。
      先验:0.1%我们会重逢。后验:0.05%。
      这些数字,是我用三十三年的数据,一点一点更新出来的。
      最后一个概率,低得可怜。0.05%,两千分之一。
      但我无法消灭它。
      因为那是希望。
      贝叶斯更新可以处理理性,但处理不了希望。希望是先验,不是后验。希望是在没有任何数据支持的情况下,仍然相信。
      我仍然相信。
      0.05%的相信,也是相信。
      而且,贝叶斯更新没有终点。每一天,每一次想起你,都是新数据。我的后验,会一直更新。
      也许有一天,某个数据会让那个概率变大。也许是另一个梦,也许是另一个发现,也许是另一个奇迹。
      也许不会。
      但我会继续更新。继续相信,继续等待。
      因为思念,就是永不停歇的贝叶斯更新。
      谢谢你,用三十三年教会我什么是先验,什么是后验,什么是永不停歇的爱。
      从今以后,我会每天更新。更新对你的思念,更新对自己的理解,更新对重逢的等待。
      直到那一天。
      那一天,我们会重逢。
      然后,贝叶斯更新结束。因为不再需要更新了。真相就在眼前。”
      他想,天亮之后,他要去看她。告诉她,他懂了什么是贝叶斯更新,什么是永不停歇的思念,什么是0.05%的希望。
      她,会听的。

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>