舍恩伯格那种放弃关系而只考察相关性的思,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动
为什么我们知道的多,困惑却更多?【推荐语】我们都在预测:太阳会不会照常升起?广州恒大能不能夺得冠军?A股明天会不会大涨?朋友创办的这家公司能不能获得风险投资?我们也无时无刻不在验证过往的预测,而且往往带有成本和收益,比如赌球、炒股或者创业,结果都会带来正负收益。
在预测和(证伪)之间,是我们无意识的或精心建构的理论。从笛卡尔到康德,从卡尔·波普到索罗斯,关于我们如何发现规律并作出预测,有无数的研究和哲学探讨。而今天,随着大数据时代的来临,又有很多专家开始反思这个经典的认识论问题,并为之添加谈资和养料。
舍恩伯格是大数据概念的著名吹鼓手,其著作《大数据时代》认为,随着人们看待数据的方式的变化—从局部变为全部以及从变为凌乱,思维方式也应该转型,即从关系转向相关性。或者说,只要知道是什么,而不需要知道为什么。
他在书中提到这样一个例子:统计学家们用二手车数据建立了一个算法系统,来预测哪些车更可能出现质量问题。相关性分析表明,橙色车出现质量问题的可能性只有其他车的一半。
这是为什么呢?因为橙色车的车主更爱车?橙色车在制造方面更精良?还是因为橙色车更显眼、出车祸的概率更小?不知道,舍恩伯格也认为无须知道。
不过,这种看重相关性而不追究关系的思,其实是不利于预测和下一步行动的。比如,我们是不是应该车主把车漆成橙色呢?这样会使车辆减少质量问题吗?不知道。因为橙色和车辆出现质量问题之间的内部关系,我们不清楚。
有个经典的社会学考题是这样的:冰淇淋的销量和案的发生率存在线性关系,即一个增长,另一个也增长。不过,两者之间显然没有关系,而只有相关关系。另一个变量,即天气变暖,才是两者之间的真正桥梁。
所以,舍恩伯格这种放弃关系而只考察相关性的思,与其说是一种进步,倒不如说是一种思维紊乱。因为它不利于我们的下一步预测,也无法采取行动。
而新书《信号与噪声》恰好是一针剂。作者纳特·西尔弗认为,在任何一个数据丰富的领域,寻找预测模式都很容易。关键是要分辨出这些模式到底是噪声还是信号。而关于概率运算的贝叶斯,仍然是西尔弗推崇的一种预测思。
他举了天气预报、选举预测、地震预测、棋牌游戏、股市、等多个领域的例子,认为我们对未来的预测,应该基于可能性,以概率的方法思考问题,在不断试错中进步。像天气预报就是这样的典型,比如气象小姐会说,明日降水概率为60%。而且,西尔弗指出,在过去25年里,飓风中心的预测准确率提高了350%,这是其他领域根本无法企及的进步。