请选择 进入手机版 | 继续访问电脑版

中国卧龙网

 找回密码
 立即注册

“大数据革命”的陷阱

2014-8-18 15:58| 发布者: 编辑| 查看: 33| 评论: 0

摘要: 大数据正在最广泛的层面为人们提供研究人类行为及互动的新机会。 然而据本期《政策论坛》的作者披露,对这些数据集的分析一直都很复杂...

 

 

大数据正在最广泛的层面为人们提供研究人类行为及互动的新机会。
然而据本期《政策论坛》的作者披露,对这些数据集的分析一直都很复杂,原因是对如此多的大数据的收集方式并非像收集“小数据”的方式那样仔细。David Lazer及其同事用谷歌流感趋势(GFT)作为一个大数据分析失准的例子——他们提出了在这一新的研究与分析时代向前推进的建议。
文章的作者解释了为什么大数据的傲慢,或者说大数据可取代(而非补充)传统数据收集以及算法动力学的假设,或者说由工程师为改善谷歌搜索功能而做出的改变,造成了该搜索服务的故障。(例如,GFT错误地预测了因为流感样疾病而看医生的人数要比疾病控制中心所预测的人数多出2倍以上。)
尽管Lazer及其同事提出GFT是一个良好的开端,但他们也呼吁谷歌应继续让他们的数据及分析分别变得更加透明及具有可重复性。谷歌、推特及脸书的基础运算法决定了用户能够就卫生、政治及朋友等得到怎样的信息。因此他们说,研究人员需要更好地了解全世界数百万工程师和消费者的行动是怎样不断地重写着这些运算法则的。

大数据正在最广泛的层面为人们提供研究人类行为及互动的新机会。

然而据本期《政策论坛》的作者披露,对这些数据集的分析一直都很复杂,原因是对如此多的大数据的收集方式并非像收集“小数据”的方式那样仔细。David Lazer及其同事用谷歌流感趋势(GFT)作为一个大数据分析失准的例子——他们提出了在这一新的研究与分析时代向前推进的建议。

文章的作者解释了为什么大数据的傲慢,或者说大数据可取代(而非补充)传统数据收集以及算法动力学的假设,或者说由工程师为改善谷歌搜索功能而做出的改变,造成了该搜索服务的故障。(例如,GFT错误地预测了因为流感样疾病而看医生的人数要比疾病控制中心所预测的人数多出2倍以上。)

尽管Lazer及其同事提出GFT是一个良好的开端,但他们也呼吁谷歌应继续让他们的数据及分析分别变得更加透明及具有可重复性。谷歌、推特及脸书的基础运算法决定了用户能够就卫生、政治及朋友等得到怎样的信息。因此他们说,研究人员需要更好地了解全世界数百万工程师和消费者的行动是怎样不断地重写着这些运算法则的。

 

 


鲜花

握手

雷人

路过

鸡蛋
返回顶部