数据大盗:小米与拼多多的电商数据是如何被卖到华尔街的?

2018-07-13    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用
就在小米上市前夜,华尔街的一位华裔基金经理点开了一封未读邮件,邮件写道:

“想知道小米的销售数据吗?我们提供实时数据,按照品牌和产品分类。线上的数据是从天猫和京东获取的;产品数据包括手机、扫地机器人等。而且,我们还提供小米和其他品牌厂商的对比。如果感兴趣,请点击回复。”

 

 

神秘邮件瞬间激起了这位基金经理的兴趣。

毕竟,华尔街玩的就是一场信息游戏。在股票市场,谁能提前得知消息,谁就可以预先布局,从而产生“阿尔法”(超额收益)。

正在疑惑这封邮件来自哪里,他的目光正好扫到了署名处:Sandalwood。

登录Sandalwood官网,这家公司的主业看起来像是投资咨询。而事实上,Sandalwood是一家数据交易商。

01 “数据大盗”

今年以来,越来越多涉及中概股的投资者,开始听说并谈论起“数据大盗”这个神秘的存在。

狭义地说,所谓“数据大盗”,是指那些通过特定互联网网络技术手段,从电商公司的平台上获取相关上市公司销售数据,继而将这些数据“清洗”整理后,出售给机构投资者的“另类数据公司”。

在他们的工作流程中,主要分为这几个步骤:收集数据,清洗数据,分析数据,销售数据。

作为其中的典型代表之一,Sandalwood系由一位名为Tony的华裔创立于2015年,自称是亚洲最大的上市公司数据公司之一。

 

 

Sandalwood只是另类数据的玩家之一

Sandalwood的主要工作,除了主动爬取相关电商平台的数据之外,还从多家原始数据公司买入原生数据或清洗好的数据,进行销售。

不同于那些初级“数据大盗”,Sandalwood本身还是一个数据平台,并号称客户可以通这个平台访问7个独特的数据源。

Sandalwood 的客户,一般是资本市场中的买方,也就是那些代表他人投资股票和债券的基金——他们是寻求超额回报最积极的参与者。

更详细地说,Sandalwood 最看重的客户,是美国对冲基金中的量化基金。他们多看重并使用数据来产生“阿尔法”。

众所周知,华尔街对于“阿尔法”的追求从来没有停下过脚步。在过去的150年中,“阿尔法”的来源平均每10-20年就要变化一次。

在20世纪50年代,最初的对冲基金发明了多头/空头股票策略。在20世纪80年代,数学和计算机比手持式计算器更具优势。在21世纪初,阿尔法是高频交易。

这些策略或工具一度让那些能够首先使用它们的人比其他人更有优势。但随着它们变得越来越普遍,它们的优势消失了,投资者不得不寻找新的策略工具。

目前看来,在如今的数字经济中,使用那些由海量数据掩盖下的独特的、金融市场以前不知道的信息内容,是“阿尔法”的下一个来源。

 

 

客户希望从数据中获得优势,这便对Sandalwood所代表的另类数据公司们提出了更高的要求。他们需要数据比现在使用的更快或更准确,或者它必须提供以前无法获得的独特见解。

Sandalwood们常见的数据采集手段,包括比如网络爬虫,信用卡跟踪,电子邮件破解,地理位置软件,卫星,主流APP应用等——这些我们会在下文逐一揭示。

但是为了区别于对手,所有“数据大盗”都必须拼命去寻找更快更准确的数据来源。为此,其中的部分从业者选择了直接和电商平台进行交易,直接获取第一手的产品销售数据。

有利润的地方就会有交易。对于数据交易商而言,还有什么从电商平台获取的直接数据更好呢;对于电商平台而言,身坐在价值连城的海量电商数据之上,为什么不变现呢?

有了第一手的领先数据,数据交易商便可以轻而易举地打败其他对手,也帮助对冲基金赢得了“阿尔法。

02 风险:内幕交易与隐私保护

对于这样的好用的信息,对冲基金往往一掷千金,数据公司几十万美金的年费似乎不在话下。

摩根大通估计,投资管理行业对大数据的支出在20亿-30亿美元,而且这个数字的年增长率,在以每年两位数的速度狂奔。

如此火爆的数字交易产业合法吗?

之前,美国证券交易委员会(SEC)已成功起诉涉及数据公司的内幕交易案件。该案件涉及两名数据分析师通过分析信用卡交易获取重大非公开信息。

由于他们未经数据所有者同意而获得访问权,因内幕交易而被起诉,并被迫支付超过1800万美元的罚款。

SEC曾指控美国第一资本投资国际集团(Capital One)雇佣的两名数据分析师,在2013年11月至2015年1月期间,对至少170家上市公司有关的信用卡交易专有数据库进行搜索。被告人Bonan Huang和Nan Huang使用这些数据,在上市公司财报发布前利用期权交易股票。

内幕交易是指,知悉证券交易内幕信息的知情人和非法获取内幕信息的人,利用内幕信息自己买卖证券、建议他人买卖证券,或者泄露内幕信息使他人利用该信息买卖证券,从中牟利或者避免损失的行为。

这其中涉及到几个关键的概念,包括可以影响市场价值的重要信息(Materiality)、未公开(Dissemination)的以及信托责任(Fiduciary Duty)。

 

 

数据交易产业链中的内幕交易风险在于,有相当体量的数据是能够带来优势的,也就是产生出影响市场价值的信息。

问题在于,由于数据集需要购买,一些机构有渠道购买,但普通投资者则无法获取该信息。

所以尽管理论上数据集是可以公开采集和购买的,但事实上并非如此。所以,在某些情况下,如果使用或出售某些数据,特别上市公司季报公布前的销售数据,将涉嫌构成内幕交易。

在美国,对内幕交易的定罪不仅要求证明信息是重要的和非公开的,还要证明违反了信托责任(Fiduciary Duty),也就是说信息是在未经所有者同意的情况下获得的。

由于许多电话和信用卡公司在其合同中包含允许其出售信息的条款,因此该条件很少得到满足。但是随着数据的不断增多,同意不充分的可能性增加,从而增加了违反受托人义务的风险。

在欧洲,虽然不需要这一条来证明内幕交易,但其他方面的标准更高。

除此之外,隐私则是一个更大的问题——难道你忘了当前仍令脸书(Facebook;NASDAQ:FB)焦头烂额额那档子事?

03 数据采集手段:从爬虫到卫星

为了能够得到买家的青睐,数据公司的采集数据的手段可谓无所不用其极,其获取渠道至少包括:网络爬虫,信用卡跟踪,电子邮件破解,地理位置软件,卫星,主流APP应用……

【1】爬虫数据

网络爬虫是一种常用的收集数据的手段,许多的原始数据采集公司,都在公共网站、社交媒体、在线社区、邮件插件上搜索可能有价值的信息。

例如从应用程序和用户评论的下载,到航空公司和酒店通过票务网站接收预订的信息。而通过社交媒体网站,则可以获取有关消费者观点和趋势的提示。

 

 

网络爬虫可以跟踪很多东西,从杂货到汽车销售的价格趋势。分析师可以通过抓取消费者网站上产品的评论,来评估新产品的推出和产品生命周期。

比如下图所展示的一家叫做Thinknum的数据销售公司,不仅提供多家在美上市公司的领先数据,还提供相关的投资分析服务:

 

 

包括特斯拉车的库存数据,以及各社交网络上和用户的交互数据。

 

 

以及刚刚在香港上市的小米的社交网站的数据。当然,这是免费版的界面,相信付费版中提供的内容会更加丰富。

 

 

而这家名为Yipit Data的数据分析公司,不但覆盖多家已经上市的中概股,就是连刚刚递交招股说明书的拼多多的数据,它都有!

 

 

【2】信用卡追踪数据

这里面另一个重要的数据来源,便是对消费者信用卡的跟踪。这些数据可以直接显示消费者真实的身份信息,以及在哪些产品上花钱的信息。

虽然它只能描绘出局部的销售趋势,但结合其他数据集,它们可以为机构投资者提供非常重要的判断依据。

于是,信用卡公司便成为了一座金矿。信用卡交易数据是最有价值的细分市场之一,是消费类公司收入的头等指标。

 

 

【3】数据废气(exhaust data)

数据废气指公司记录保存的副产品数据。许多科技公司都产生了数据废气,作为其核心活动的副产品,例如银行记录,超市扫描仪数据或供应链数据。

这些数据废气是由一些可存储的选项产生的,操作和首选项,例如日志文件,插件,临时文件,甚至是为数字化完成的每个流程或事务生成的信息。

其中最有价值的莫过于接口废气。这是指网站从前使用的数据接口,后来不用了也没有删除。一些数据公司便可以介入这些接口,获取上市公司的数据。

【4】地理定位信息

智能手机配备了位置服务,允许我们使用地图或天气功能,但也让移动运营商随时了解我们的位置。

这些数据对于希望了解我们正在访问的商店、酒店或餐馆,以及寻找消费趋势线索的机构投资者来说,非常的有价值。

【5】传感器及卫星数据

无论是来自卫星、智能手机、物联网还是其他,传感器产生的数据都是增长最快、价值越来越高的另类数据。传感器产生的数据包括卫星图像数据,行人步行和汽车交通,船舶位置。

传感器数据通常是非结构化的,并且比个人或流程生成的数据流要大得多。卫星成像可能是最常见的例子,但地理位置数据越来越重要,因为它用于跟踪零售店的步行流量。

传感器数据将变得越来越重要,因为物联网正在变得更加普及,尤其是将微处理器和网络技术,嵌入个人和商业电子设备。

林林总总赘述了这么多,想必你仍好奇开头那位基金经理,对于数据大盗与“另类数据”最终作何处理。根据他的陈述,就在当晚,他已将邮件打印了出来,并放入了第二天会议的文件夹中。

标签: 大数据 电商 电商公司 电商平台 电子邮件 互联网 金融 媒体 数据分析 数据库 搜索 网络

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:数据中心运维的二次革命

下一篇:关于商业部署机器学习,这有一篇详尽指南