现在大数据,机器学习,深度学习火爆之极!
大数据森罗万象,各种算法被传得神乎其神,各种指标指数表现优异,尤其是号称千人千面,能做到特意化处理每个用户。无论内行外行均似懂非懂,统统感觉到这种高科技产品是如此神秘莫测。公司似乎不应用个大数据和算法就无法称为科技公司了,马上就被时代的车轮碾压的体无完肤。
但是大家对于大数据时代的基石——数据,大家又知道多少呢?对其应用又能做到几成那?
历代高科技的行业都会披着一层神秘的面纱,让你似懂非懂,但是总是感觉不明觉厉,不由自主地相信改变未来的世界就是她了!
01 数据精度与信息密度
所以我举几个简单的例子,便于大家理解。
现实中,可能发生有利害关系的两个人,对于涉及本身利益的情况都会有选择的保留,隐瞒或者歪曲,甚至虚假夸大。所以一般都会选择信得过的第三方进行了解,做为依据。
- 例A,你找一个人,去问另一个人的情况,能问你想问的所有问题(月薪,单位,学校学历,家境,背景等),这种情况下你愿意付多少酬劳?
- 例B,你找一个人,去问另一个人的情况,但是不能问事实的描述,而仅仅是几个可选的评估指标(收入区间,单位性质,学历层次,消费月均等),这种情况下你愿意付多少酬劳?
- 例C,你找一个人,去问另一个人的情况,她会报几个她自己认为有用的单一评价(收入评分,单位等级,学历等级,消费等级等),这种情况下你愿意付多少酬劳?
进一步推广,很多人都想了解一个人的情况,然后只能问某个人,但是这个人每次都只能回报自己的单一评价,请问这种情况下你愿意付多少酬劳?
假如不给你展示所有她知道的事实内容,也不告诉你所有你想知道的事实内容,而告诉你几个她认为非常有用的评价。
各位看明白现在的情况了么?转换一下,看看从被询问的人处都能得知什么?
- 例A,我们可能从被询问的人处得知,想要了解的人——月薪1W,三大通信商ABCD的总部人事主管(职级M3),人大直硕,父母都是公务员,北京两套100平的房子,一辆奥迪A6L。
- 例B,我们可能从被询问的人处得知,想要了解的人——月薪1W-3W,事业单位,研究生学历,有房有车,消费月均8K。
- 例C,我们可能从被询问的人处得知,想要了解的人——收入评分80,单位等级2,学历等级2,消费等级3。
显而易见,数据越精细越具体,其中蕴含的信息量越大,即信息密度与数据精度成正相关。
02 相对评价与算法评估
继续以上例子,我们可以详细介绍一二。
- 例A,明确要求你知晓自己想要评估的方面,以及可以通过那些方面予以论证,评估的准确性只受到被询问人的了解程度,你自身对于产品的认知与应用能力所限。由于被询问人所属全是事实描述,其本身就具备一定的外部评估性。如你要找结婚对象,只要某一方面极端优秀就可以拍板见一面看看,例如清北毕业,或者国企事业单位高级管理,月入30万的老板等。毕竟多元化的世界,评价并非一维的。
- 例B,就是你想到的的评价还不一定能提供,即使能提供也是缩水模糊过的,信息价值很低。其所提供的数据越分层宽泛,越价值低下。其评价做出依据,尚不透明,评价人的水平也有待商榷。
- 例C,提供的是个相对值,就是存在比较的情况才有意义;而且做出比较评价的人的水平,以及评价标准是不透明的或者难以解读。这就好比,一个穷酸书生问媒婆,张家姑娘好不好?媒婆说特别好,特别适合您;当地的员外问同一个媒婆,张家姑娘好不好?媒婆也说特别好,特别适合您;这明显不是一回事,书生需要的是一个可以照顾自己,能做饭能洗衣能吃苦的女孩子,甚至可以懂一点琴棋书画。而员外需要一个懂世故,能持家的大家闺秀。需求本身就不一样,怎么可以用同一标准含糊确定好与坏呐?
评价是主观的,受利益及所处环境所影响,对不同的人有不同的评价;即使对于不同的人而言,同一件事也是可以有不同的评价。
这里面还有被询问的人是否具备相应的专业评估实力,第三方不偏不倚的中立态度(例如媒婆的专业度与可信度的问题);
现在我们把被询问的人改成时下最流行的大数据算法模型,那么就可以相当明白当前的处境了;
你收集一堆数据,整出一套算法,搞出一套评判体系,但是用户凭什么相信你认可你。就这个难度比较大,所以市场上总是通过各种数据比赛,各种学校光环什么的提升,起到城门立木的作用。
总结一下当前:
- 第三方仅提供处理过的指标值,或者相对评价得分(出于自己利益考量和数据隐私监管)
- 大部分算法模型提供的结果,均属于定量分析;且相对结果限定在数据集的两个极值之间,泛化能力不足
- 算法模型的实用性与可信度不能适应实际项目的落地部署,做到具体问题具体调整,即使有调整也相当有限。
03 大数据之殇——少即是多
工作中主要靠自己的理解,而不是学校里那种标准答案。不同的理解,可能铸就截然不同的产品。
数据化产品要的是真实的价值,而不光是市场的空洞认可但拒不付费,正所谓叫好不叫座(纯粹为了营销的除外)。
大数据讲究海量数据中提取弱相关数据,通过高等数学构成的算法,进行提取有效信息。
但是再多的石块也提炼不出金子,且数据模型无法特异化捏合有效信息。
数据本身没有价值,数据承载的信息才有价值。
举个具体的例子:
A:数据显示,这个是白色的小盒——你赶紧有用么?
B:然后我们换个角度看,这是个知名品牌化妆品,是不是很想了解一下?
C:这个是赠品,是不是认知又反转了?
算法本身结果单一,不能因具体事情而引入外部特意的信息。这其中还有反复添加新的数据,引入新的信息而发生的结果翻转。
总结一下:
- 角度不同,纬度不同,深度不同,看到的问题不同;
- 看问题的人对同样的事情,会有不同的感受和想法。