数据局限性的思考

数据局限性的思考

亚马逊的算法与用户体验

亚马逊电商平台服务对象是它的用户,所以它的算法必然是为用户的体验服务

即:用最快的时间买到想要的性价比高的产品,并且给亚马逊带来正向收益,飞轮效应

我们和亚马逊客户之间始终隔阂亚马逊算法,如果算法真的完全满足它的初始设定,那么你满足算法需求等于满足用户需求

这个隔阂距离无法完全消除但会逐渐减小

反过来看,算法并不只是遵从用户习惯,也能影响用户习惯(商业目的),这是一个博弈过程

数据的局限性

数据的局限性来源于数据样本的有限而非数据本身,所以通过有限的数据观察一定要注意它的边界。

对卖家来说,算法本身是黑箱,即便有专利可以参考,但你无法确认亚马逊是否用了该专利以及部署时候的调参,同样的逻辑不同的参数也是不同的结果。

是否还记得“火鸡”的故事?

在火鸡饲养场里,有一只火鸡发现,第一天上午9点钟主人给它喂食。然而作为一个卓越的归纳主义者,它并不马上作出结论。它一直等到已收集了有关上午9点给它喂食这一经验事实的大量观察;而且,它是在多种情况下进行这些观察的:雨天和晴天,热天和冷天,星期三和星期四……它每天都在自己的记录表中加进新的观察陈述。最后,它的归纳主义良心感到满意,它进行归纳推理,得出了下面的结论:“主人总是在上午9点钟给我喂食。”可是,事情并不像它所想像的那样简单和乐观。在圣诞节前夕,当主人没有给它喂食,而是把它宰杀的时候,它通过归纳概括而得到的结论终于被无情地推翻了。大概火鸡临终前也会因此而感到深深遗憾。

数学角度的理解

假设有三个可能行的数学公式,你需要确认

y=x

y=x^2

y=x^3

也许你善于观察的x,y变化,但在x 属于 0.9999到1.0001之间,这三个函数的差距很小,你也许在0.9999到1.0001之间观察到了几十万个sample.但是数据的“质量”堪忧,你无法得到好的结果。

  • 多数据优于好模型
  • 好数据优于多数据
  • 二八原则
Share