当前位置 : 中医|西医 → 文章正文

    信息越多问题越多在大数据时代如何做预测?读《信号与噪声!医药学论文

    来源:本站整理| 作者:佚名 | 时间:2013-09-06 17:59:13

      20世纪60年代,美国在每个发明者的每项专利上的耗资都接近150万美元(通货膨胀因素考虑在内)。这一数字在信息时代初期有增无减,1986年更是成倍增长,最高达到300万美元。

      因为越来越注重新技术带给我们的实惠,20世纪90年代我们又一次提升了科学研究的生产力。各项研究不再硬钻“牛角尖”,计算机开始被用于改善人们的日常生活,促进经济发展。通常情况下,许多预言从长远角度看算作进步,而从短期角度看则成了倒退;而许多从长远来看似乎可以预知的事情,同时也会妨碍我们进行完美的计划。

      “大数据”的承诺与陷阱

      时下最流行的术语要数“大数据”了。根据国际商业机器公司(IBM)估计的数据来看,现在我们每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。

      信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》的前主编克里斯•安德森曾经在2008年的一篇文章中说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”

      本书着重介绍了前沿科学和高端技术,我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己,但我们却可以作为数字的发言人,赋予它们意义。这就好比对恺撒密码解码一样,我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。要提高数据分析的质量,首先要对我们自身提出更高的要求。如果对我的情况不甚了解,你可能就会对前面的提法颇感意外。我在数据和统计学领域还算小有建树,曾经据此做出不少成功的预测。2003年,由于厌倦了咨询工作,我设计了一个名为“PECOTA”的系统,主要用来预测美国职业棒球联盟球员的各项数据。这个系统有很多创新点——其预测是概率性的,比方说其中为每位球员都列出了一系列可能出现的结果——当我们将这些预测结果与比赛系统给出的结果进行比较时,发现这套系统的性能更加优越。2008年,我建立了“FiveThirtyEight”(538网站,因538张选举人总票数得名)网站,试图对即将举行的美国总统进行预测。该网站对两位美国总统候选人在美国50个州中的竞选结果进行了预测,结果命中49次竞选,只有1次失手。另外,我的网站还预测出美国选举的35个席位归属。

      美国总统过后,很多出版商找到我,希望我能为《点球成金》和《经济学》这类关于物征服大世界的书籍估个价。本书涵盖很多行业和领域,从金融领域,到,对这些行业和领域中的数据驱动预测机制进行了调查。

    上一页  [1] [2] [3] [4] [5] [6]  下一页


合作伙伴: 开心笑话
Copyright 2010-2012 大戏院论文网 All Rights Reserved. 如需合作请联系站长
技术支持:FXT