频率派和贝叶斯派
传统的方法叫频率派。关于频率和概率的区别,很多人不熟悉。简单的说,概率说的是事情未来发生的可能性,而频率说的是对某事情进行观察或者实验,发生的次数和总次数的比值。
概率是事情本身的一个固有属性,是一个固定值,而频率是变化的,样本越大,频率越接近概率。根据大数定理,当样本无穷大时,频率等于概率。
你抛硬币10次,不见得会正面反面各5次,但是你抛1万次,那基本是正反各50%。比如那个黑盒子,你不断的从里面随机的拿球出来,统计黑球和红球的比例,次数“足够多”时,你得到的那个频率,就接近真实的概率。
这个方法用了上百年,现在仍然被广泛使用,比如某某疾病的发病率,飞机和火车的出事概率等等 ,都是利用大样本的统计,逼近真实概率。
但是,我们稍微深入的思考一下,就会发现这个方法的两个局限:
第一,你只有积累了一定数量的样本,才能有一个对概率的初步判断,你只扔5次,只取10个球,基于小样本得出的概率很可能错的离谱。
第二,如果这个黑盒子够黑,你连里面总共有多少个球都没概念,甚至里面的球的总数量都是变化的,这时你就没法判断什么叫“足够多”。
现实世界里,我们碰到的大量问题,根本找不到这么多现成的数据。还有很多新兴事物,压根没有先例,一种新发现的疾病,一个新的产品,一种新的市场策略,那怎么判断概率呢?瞎蒙吗?
也对,也不对。
这就需要贝叶斯学派了。
贝叶斯学派的观点是,概率是个主观值,完全就是我们自己的判断,我可以先估计一个初始概率 ,然后每次根据出现的新情况,掌握的新信息,对这个初始概率进行修正,随着信息的增多,我就会慢慢逼近真实的概率。
这个方法完美的解决了频率派的两个问题,我不用等样本累积到一定程度,先猜一个就行动起来了,因为我有修正大法,而且我也不关心是不是“足够多”,反正我一直在路上。
贝叶斯学派诞生两百多年来,一直倍受争议,甚至连co-founder拉普拉斯自己都放弃了,因为大家觉得这个摸着石头过河的方法太扯了,太不科学了。直到最近几十年,随着计算机技术的进步才大放异彩,现在的人工智能、图像识别、机器翻译等,背后无不采用了贝叶斯方法。
那我们需要看看,贝叶斯方法究竟是怎么摸着石头过河的。
贝叶斯定理(Bayes' Theorem)
这一部分涉及一些数学公式和计算,但说实话 ,只需要小学算术水平就可以了。
贝叶斯定理如下:
A是你要考察的目标事件,P(A) 是这个目标事件的先验概率,又叫初始概率,或者基础概率。B是新出现的一个新事件。P(A|B) 的意思是当B出现时A的概率,在这里就是我们需要的后验概率。P(B|A) 是当A出现时B的概率。
P(B) 是B出现的概率,在这里具体计算稍微复杂一些,指当A出现时B的概率和当A不出时(用A_来表示)时B的概率的总和,用公式表达就是 P(B) = P(B|A) * P(A) + P(B|A_) * P(A_)。P(B|A) / P(B) 可以看作一个修正因子。(期乐会官方微信公众号平台ID:qlhclub)
上述解释你可以忽略,简化的理解为:
后验概率 = 先验概率 x 修正因子
举个例子。
比如你新进入一家公司,你不确定这里MBA学历对员工升迁的作用,而这个对你的个人发展很重要,因为你要决定接下来是不是去读一个MBA学位。由于新来,压根没有样本,这时候你可以采用贝叶斯定理。
P(A) 是你根据过往经验事先估计的,MBA对升迁有多大好处?比如你先预估一个30%。这时候,出现了一个新信息B,小王升迁了,而且小王是MBA。那么,P(B|A) 是说当MBA管用时,小王升迁的概率,比如你现在的判断是80%。
小王可能本身就有能力且业绩突出,就算没有MBA也可能会升迁啊,所以P(B|A_) = 50%(发现了吗,这个公式自动的帮助我们避免走极端)。
个人观点 仅供参考 不作为投资建议