上财信管 | 暑期在线学术讲座一周回顾(8.30-9.5)

上海财经大学信息管理与工程学院
2021-09-05 19:38 浏览量: 1836

8月30日至9月5日,我院邀请国际知名学者开展1场线上讲座,内容主要涵盖人工智能领域研究前沿领域。

人工智能领域研究前沿系列

TITLE:

Science Wants Numbers About People: The Numbers Are Likely Wrong

8月31日,卡塔尔计算机研究所的Jim Jansen教授为学院师生带来了题为“Science Wants NumbersAbout People: The Numbers Are Likely Wrong” 的学术讲座,他通过人数估计这一问题,介绍了网络大数据中的统计偏差问题,以及针对该类问题的一些解决方案。

决策制定问题中往往依赖数据驱动的支持,然而由于我们往往难以确保数据的可靠性,这种情形在日常生活中随处可见,尤其当这些数字涉及到“人”时。比如在去年结束的美国大选中,社交媒体上的民调结果显示共和党具有较大优势,但是实际结果是民主党险胜。此外教授还举了许多类似的案例(如根据平均值制定的决策无法适用于大多数个体,以及基于数据驱动的决策制定并非完全客观):

图1 其他的两个案例

Jim Jansen教授的团队针对86个全球网站的大规模网络流量研究中的数字,比较了两种网络分析工具。一种工具是以站点为中心的服务(如左图,Google Analytics),一种工具使用以用户、站点和网络为中心的方法的三角测量(如右图,SimilarWeb)。

图2 两种网络分析工具示意图

然而评估的三个标准分析指标的结果数字在统计上是不同的。哪一组数字是“正确的”?演绎分析表明,这两种方法都是不准确的,事实上针对这类数字没有GoldStandard,即使每年价值数千亿美元的广告和其他决策是都是基于这些不可靠的数字所做出的。

图3 三种标准分析指标结果

举个简单的例子,比如针对图3中的uniquevistors的指标,我们希望得到的是一段时间中的不重复的访客数量,通常的做法是统计Cookies的数量来衡量这一指标,然而事实上人们会周期性地更换计算机,网络浏览器,一些用户会设置浏览器不记录Cookies,这些情形都会导致可能多个Cookies会指向同一个用户,这就使得unique vistors的统计误差非常大。再比如针对bounce rate(跳出率)指标,一些短暂的访问可能来自用户偶然地错误点击,一些长时间的访问则可能是因为用户临时有事离开,导致在当前页面上停留了很长的时间:

图4 三种被错误统计是跳出行为的案例

因此许多带有“计数”(counting)性质的统计数字,通常是通过某种其他手段“衡量”(measuring)得到的,这是该类问题出现的本源,因为往往我们难以切实地去逐一计数这类统计指标的具体数字。因此我们需要对这些与“人”相关的数字持有怀疑的态度,在使用某个统计指标前,首先判断它究竟是通过counting得到的,还是通过measuring得到的,如果是后者,尽量去估计它的统计偏差。

图5 Countingv.s. Measuring

在讲座的最后,Jim教授分别就数据质量,跳出率等概念进行了更多地阐述。对于如何获取到真实可靠的数据,往往需要综合多方平台提供的数据进行考量。进一步地,针对数据可能存在的偏差,需要切实关注用户的行为模式,对数据偏差产生的原因进行刻画,从而能够更好地对与“人”相关的数据进行应用。

文/图:曹阳

上财信息

可点击底部菜单

查看每周讲座回顾

编辑:刘蕊

(本文转载自 ,如有侵权请电话联系13810995524)

* 文章为作者独立观点,不代表MBAChina立场。采编部邮箱:news@mbachina.com,欢迎交流与合作。

收藏
订阅

备考交流

免费领取价值5000元MBA备考学习包(含近8年真题) 购买管理类联考MBA/MPAcc/MEM/MPA大纲配套新教材

扫码关注我们

  • 获取报考资讯
  • 了解院校活动
  • 学习备考干货
  • 研究上岸攻略

最新动态