公司金融专题

SESSION 2:另类数据——当财报人人都有,Alpha 从哪里来?

3 / 16

1608年:从望远镜到期货——情报差是最古老的Alpha

当每一个分析师都能打开 Bloomberg 终端,每一个散户都能在美国证监会(SEC)官网下载 10-K;当彭博、路透、FactSet 把过去只有机构才能看到的数据塞到每个人手里——信息不对称还剩下多少?超额收益(Alpha)从哪里来?

答案是:从别人还没看到的数据来

这节课讲的是一个在过去十年里从边缘走到中心的金融词汇——另类数据(Alternative Data,简称 Alt Data)。它的核心逻辑很简单:如果财报数据是所有人都有的公开情报,那么真正的 Alpha 就藏在”财报发布之前就能看到经济活动”的数据里。卫星图像、信用卡刷卡记录、门店 WiFi 停留时间、招聘广告数量、App 下载量、货运集装箱的 AIS 信号——每一个都是一个偷偷打开的”上帝视角”窗口。

另类数据的全景——从卫星图到消费刷卡记录 NIST 对大数据的官方分类。对冲基金在这张图上找”别人还没挖过的井”——先挖到的人拿 Alpha,后来的人只剩数据噪音。

一、一个 400 年前的比喻:威尼斯商人的望远镜

1.1 从望远镜到卫星

1608 年,荷兰人发明了望远镜。最初的用途是军事——观察远处的敌军舰队。但很快,威尼斯商人们发现了一个更商业化的玩法:在圣马可大教堂的钟楼上架望远镜,比其他商人提前几小时看到满载香料的商船进港

提前几小时意味着什么?意味着你可以在价格还没反应之前,提前买入或卖出香料期货合约。威尼斯作为地中海贸易中心,任何一艘船的到来都会改变市场供需。那些最早看到船影的商人,赚走了市场价差的大头

这就是另类数据的原始形态一个信息优势,来源于比别人更早、或从一个别人没想到的角度,观察经济活动本身

400 年后,望远镜变成了卫星、信用卡 API、门店 WiFi、招聘网站爬虫。但底层逻辑没变:谁能最先看到正在发生的事,谁就能在数据公开之前完成交易

1.2 信息公开化的诅咒

为什么 Alt Data 在 2010 年以后才爆发?因为在这之前,信息优势主要来自获取传统数据的能力差异

到 2020 年代,传统数据已经彻底商品化(commoditized)——所有人都能在三分钟内知道苹果上个季度卖了多少 iPhone。这是好事吗?对散户是,对机构投资人不是。因为机构的生存逻辑是”比别人多知道一点”,当这个”一点”消失时,机构就必须找到新的信息不对称来源

答案就是 Alt Data。

二、传统数据 vs 另类数据:范式的转变

2.1 什么是”传统数据”

一个基本的分类框架是这样的——金融分析师过去 50 年赖以为生的数据,基本都来自以下几个源头:

类别代表来源典型信息
公司披露10-K、10-Q、8-K、Proxy(DEF 14A)营收、利润、高管薪酬、风险披露
市场行情Bloomberg、Refinitiv、FactSet股价、交易量、信用利差、隐含波动率
政府数据美联储、BLS、Census、BEA就业、通胀、GDP、消费者信心
行业数据Euromonitor、IBISWorld、Gartner市场份额、价格指数、容量
卖方研究投行分析师报告、评级机构盈利预测、目标价、信用评级

这些数据有一个共同特点:它们都是事后的、聚合的、延迟的、公开的

10-K 是事后——你看到的是上季度或上年度已经发生的事。BLS 非农就业报告是滞后的——每个月第一个周五发布上个月的数据。连 Bloomberg 上最”实时”的股价,也已经反映了其他所有人知道的信息。

在传统数据的世界里,Alpha 来自你对信息的更好解读,而不是更早获取。你要比别人更聪明地理解 10-K 里的一句话、比别人更深入地分析一个管理层电话会议的语调、比别人更精细地拆解毛利率的变动驱动——这是 Warren Buffett 年轻时的游戏

但在信息公开化的时代,这个游戏越来越难赢——因为你的对手不再是一群在奥马哈翻年报的小作坊,而是一群在 Goldman、Citadel、Renaissance 的数千人研究团队,每个人都用同样的 Bloomberg、读同样的 10-K。

2.2 另类数据的定义

另类数据的定义其实很松:任何不是传统金融数据源(财报、Bloomberg 终端、政府统计)、但能为投资决策提供信号的数据集,都属于 Alt Data。

它的特点是:

换句话说:传统数据告诉你”过去发生了什么”,另类数据告诉你”正在发生什么”

三、另类数据的六大家族

不同行业、不同资产类别需要不同的 Alt Data。过去十年里,大致形成了六个”数据族系”——每一个都对应不同的经济信号,不同的采集成本,不同的法律边界。

3.1 消费者交易数据(Consumer Transactions)

这是影响力最大的一类 Alt Data——因为消费行为直接决定了几乎所有消费品公司的营收。

案例:Chipotle 2015 E. coli 危机

2015 年 10-11 月,美国快餐连锁 Chipotle 爆发大肠杆菌(E. coli)污染事件。股价从 750 美元一路跌到 400 美元。那么问题来了——投资者怎么知道危机的底什么时候到?

靠管理层的季度电话会议太慢,每三个月一次。靠 Chipotle 自己发的”本月同店销售”月报也要到次月中旬。但如果你订阅了信用卡数据,你可以每周甚至每天看到 Chipotle 门店的客流与交易量。几家买方机构确实是这么干的——他们在 2016 年 2 月(比管理层公告早一个月)就发现同店销售跌幅开始收敛,然后开始逐步建仓。股票在 2017 年 Q1 反弹到 500 美元。信用卡数据把一个”宏观股价”问题,变成了一个”周度运营”问题

3.2 位置与人流数据(Geolocation / Foot Traffic)

手机 GPS 数据、WiFi 探针、视频识别——这些技术让我们可以在不知道具体哪个人的情况下,知道”有多少人”在某个地方出现。

案例:沃尔玛 vs Target 的”圣诞旺季”博弈

2019 年 11-12 月,一家对冲基金通过 SafeGraph 数据发现:Target 的客流量增长开始明显超过沃尔玛。传统分析师要等到两家公司 2 月份公布 Q4 财报才能知道这个趋势,但通过手机数据,这家基金在 12 月中旬就完成了交易——做多 Target、做空沃尔玛。2020 年 3 月 Q4 财报公布时,Target 果然跑赢沃尔玛,这家基金赚走了好几个百分点的价差。

但 COVID 改变了一切。 2020 年 3-4 月,美国进入 lockdown,几乎所有实体零售的客流量都断崖式下跌。这时候 SafeGraph 数据反而成了一个”宏观预警系统”——它能告诉你哪些州、哪些行业、哪些业态的恢复速度更快。亚马逊的仓库、Costco 的停车场、Home Depot 的装修材料区人流量先回来,而健身房、电影院、游轮人流量直到 2021-2022 年才恢复。对消费品对冲基金来说,这一年的 SafeGraph 数据比过去十年的财报更有价值

3.3 卫星图像与遥感(Satellite / Remote Sensing)

Planet Labs、RS Metrics、Orbital Insight、SpaceKnow——这批公司的商业模式是发射自己的卫星(Planet 有 200 多颗,每天拍摄整个地球一次),然后用机器学习从图像中提取经济信号。

典型应用:

案例:JD.com vs Alibaba 的仓库扩张战

2018-2020 年,一家美国对冲基金通过卫星图像持续跟踪 JD 和阿里在中国各地的仓库建设速度。他们发现 JD 的物流基础设施扩张速度明显快于阿里的菜鸟网络——每个季度新增的仓库面积、配送车队规模都在拉大差距。虽然最终两家公司的股价表现受到 2021 年中国科技股监管的压制,但在 2019-2020 年这段时间,卫星数据确实提供了一个”运营领先指标”。

案例:华尔街的”大豆战争”

2018 年中美贸易战开打后,中国对美国大豆加征 25% 关税。巴西大豆一下子成了全球抢手货。但是,巴西今年能不能种出足够多的大豆? 这个问题传统农业分析师要到收割季节才能给出答案,但卫星公司(如 Orbital Insight)早在种植季节就能通过植被指数(NDVI)判断——一家做多巴西农业、做空美国豆农的宏观基金,用的就是这个数据。

3.4 网络与社交数据(Web / Social / Sentiment)

案例:2020 年特斯拉,Reddit 的”先知能力”

2020 年 6 月,一家量化基金注意到:Reddit 上关于特斯拉 Model Y 的讨论量开始暴增,远远超过同期其他任何一款电动车。这个量化基金把 Reddit 帖子情绪分析作为输入信号之一,加大了特斯拉的多头头寸。从 2020 年 6 月到 2021 年 1 月,特斯拉从 200 美元涨到 900 美元(拆股后价格),翻了将近五倍。社交情绪数据不是因果,但它是一个强烈的共识形成信号——它能让你看到一支股票什么时候开始从”机构叙事”变成”全民 meme”

案例:RavenPack 和 Trump 推文

2017-2020 年,特朗普执政期间发的推文让华尔街惊心动魄——因为任何一条关于关税、华为、美联储的推特都可能让某个行业瞬间大涨或大跌。RavenPack 和类似的公司开发了 Trump Tweet Index——每一条新推文在几毫秒内被 NLP 引擎处理,分析它的”攻击目标""情绪强度""历史类比”,然后把结果推送给对冲基金。一些高频基金专门做”推文套利”——在机器看到推文的前 500 毫秒内下单,在人类分析师反应过来之前就完成交易

3.5 招聘与就业数据(Hiring / Workforce)

为什么招聘数据重要?

因为招聘是最强的领先指标之一。一家公司要扩张业务,先要招人,然后才有营收。反之,公司要收缩,先要停招、然后裁员、再反映到利润。如果你能看到一家公司的招聘动态,你就能领先财报 3-6 个月看到它的业务方向

案例:Meta 2022 年”效率之年”的前置信号

2022 年初,很多分析师还在推崇 Meta 的 Metaverse 战略。但一些量化基金通过 LinkedIn 数据发现:Meta 的招聘职位数已经开始悄悄下降,尤其是在 Reality Labs(VR/AR 部门)。这个信号比管理层 2022 年 10 月才宣布的”Year of Efficiency”(效率之年)和大规模裁员早了 8 个月。那些提前减仓 Meta、或者做空 Meta 的基金,避开了 2022 年 Meta 从 380 美元跌到 90 美元的暴跌。

案例:Nvidia 2023 年 AI 热的前置信号

2022 年底到 2023 年初,LinkedIn 数据就显示 Nvidia 正在大规模招聘 AI 相关人才——尤其是 CUDA 工程师和机器学习研究员。同期,OpenAI、Google、Meta、Microsoft 也都在为 AI 团队扩编,而这些人才主要都在用 Nvidia 的芯片。这种”生态共振”的招聘信号,在 ChatGPT 2022 年 11 月发布之前就已经在招聘数据里若隐若现。那些在 2023 年初就重仓 Nvidia 的基金,拿到了从 150 美元到 1000 美元(拆股前)的涨幅

3.6 行业运营数据(Intra-Industry Operational)

每个行业都有自己的高频运营指标——这些数据的可得性取决于行业结构:

案例:GLP-1 减肥药与 IQVIA 处方数据

2023 年 Eli Lilly(LLY)和 Novo Nordisk(NVO)的 GLP-1 减肥药(Mounjaro、Ozempic、Wegovy)风靡全球。投资者最关心的一个问题是:这些药的处方开出速度有多快?供应瓶颈什么时候会解决?

IQVIA 的 Rx 数据给了投资者”周度更新”的能见度。每周你都能看到美国多少个医生开了多少张处方,增长率是多少。这让专业投资者在 2023 年 LLY 从 350涨到350 涨到 600 的过程中,始终有数据支撑。

相反,2024 年初市场开始担心减肥药热潮”触顶”时,Rx 数据也是第一个显示增长放缓的信号源——比 LLY 自己的季报早 4-6 周。

四、数据的”影响力等级”:不是所有 Alt Data 都值得买

业内有一个广为流传的影响力排序(impact hierarchy),大致反映不同 Alt Data 对投资决策的边际信号强度:

Consumer Transactions(信用卡/电商)   ★★★★★

Consumer Behavior(搜索/社交/App)     ★★★★

Geolocation(卫星/手机位置)           ★★★★

Corporate / Hiring(LinkedIn/招聘)    ★★★★

Physical / Logistics(航运/电力)      ★★★

Intra-Industry(Rx/半导体/游戏)       ★★★

这个排序不是绝对的,它取决于你要分析的行业

更重要的是:Alt Data 的价值随着使用人数指数级衰减

4.1 信号的半衰期

这是另类数据产业最严肃、也最容易被忽视的一个问题:当某个数据源被越来越多人使用时,它的 Alpha 信号会迅速衰减

这是所有 Alt Data 买家都要面对的根本问题:你买的究竟是”Alpha 来源”,还是”对冲落后的保险”?

很多华尔街研究员私下的说法是:“Alt Data 最大的价值不是让你跑赢对手,而是让你不被对手甩开”。如果你的竞争对手都订阅了,你也必须订阅——这更像一个军备竞赛,而不是真正的超额收益来源。

五、案例:Alt Data 如何重塑三家公司的研究方式

5.1 Point72 与 Steve Cohen 的数据军团

Steve Cohen 旗下的 Point72(前身是 SAC Capital)是 Alt Data 最早、最激进的机构投资者之一。Point72 内部有一个专门的Aperio Data Team——由前 Google、Facebook 数据科学家组成,专门负责筛选、清洗、验证 Alt Data 集。

他们的内部流程大致是这样的:

  1. 数据发现:每年评估 500-1000 个潜在 Alt Data 供应商。
  2. Backtest(回溯测试):用历史数据模拟”如果当年用这个数据交易会赚多少钱”。
  3. Deployment(部署):只有 5% 左右的数据集能通过测试进入生产。
  4. 持续监控:每月检查信号是否衰减,如果衰减超过阈值就停用。

据业内估计,Point72 每年在 Alt Data 上的预算超过 3 亿美元。这是一个令人震惊的数字——但考虑到 Point72 管理规模超过 300 亿美元、对数据敏感的 TMT 和消费板块占比很高,这个投入完全合理。

5.2 Coatue 与 Chase Coleman 的互联网情报系统

Coatue 是华尔街最早成立”数据科学”部门的传统对冲基金之一。他们的投资哲学是**“Tech-enabled fundamental”**(技术赋能的基本面)——在做传统的深度基本面研究时,叠加大量 Alt Data。

Coatue 特别重视两类数据:

5.3 Citadel 与 Kenneth Griffin 的工业化 Alt Data 流水线

Citadel 代表的是 Alt Data 的”工业化”——它不依赖任何单一数据源,而是把数百个数据集合并到一个机器学习平台里,让算法自动决定每个信号的权重。

Citadel 的 E Corp(Equity Correspondent)团队据说有超过 100 名数据科学家,每天处理超过 100 TB 的另类数据。他们的交易决策里,单个数据源的权重通常不超过 5%——意味着没有任何一个信号可以独立成为 Alpha 来源,而是靠大量信号的组合

这种做法的优势是:

但代价是:

这就是为什么 Alt Data 的真正赢家很可能不是传统基本面基金,而是拥有”数据-算力-算法”三位一体能力的量化巨头——Citadel、Renaissance、Two Sigma、DE Shaw

六、买方 vs 卖方:不同玩家的使用方式

6.1 买方(Buy-side):直接交易

对冲基金、共同基金、养老金——这些直接管理资产的买方,使用 Alt Data 的目的是生成交易信号

6.2 卖方(Sell-side):辅助研究

投行分析师、卖方研究员——他们自己不持仓,但要为客户(买方)提供研究报告。Alt Data 对卖方的价值是提升研究质量,差异化产品

2020 年代卖方研究的一个显著变化:很多大型投行(Goldman、JPMorgan、Morgan Stanley)都成立了自己的 Alt Data 团队,把 Alt Data 作为研究报告的”差异化武器”。因为在一个所有分析师都有 Bloomberg 的世界,差异化已经只能靠 Alt Data 了。

七、法律与道德的边界

Alt Data 产业最大的风险不是”数据不准”,而是”数据获取方式是否合法”。

7.1 三条红线

第一条:内幕信息(MNPI: Material Non-Public Information)

如果一个信用卡数据供应商是从某家银行”偷偷”拿到了该银行自己信用卡客户的数据——这可能构成内幕信息。美国 SEC 在 2020 年罚了 App Annie 1000 万美元,原因就是 App Annie 用自己承诺的”数据不会被单独披露”的承诺,实际上给特定客户提供了单家公司的 App 销量数据。

第二条:个人隐私(Privacy)

GDPR(欧盟)、CCPA(加州)都对个人数据的收集和使用做了严格规定。如果一个 Alt Data 提供商没有做好”匿名化”处理——让某个数据点可以追溯到具体某个人——就有法律风险。

第三条:数据爬取的合法性

hiQ Labs vs LinkedIn 案(2017-2022)是一个标志性判例——hiQ 从 LinkedIn 公开页面爬取数据卖给客户,LinkedIn 起诉 hiQ 违反 CFAA(Computer Fraud and Abuse Act,计算机欺诈和滥用法)。最终法院判决 LinkedIn 败诉,确立了”爬取公开可见数据”在美国法律下是合法的。

但这只是在美国。中国、欧盟、印度对数据爬取的态度差异巨大,跨境 Alt Data 项目要格外小心法律合规。

7.2 合规审查的标准操作

专业机构使用 Alt Data 前都会做三道审查

  1. Source provenance(来源验证):数据是怎么来的?有没有合同授权?
  2. MNPI test(内幕信息测试):这个数据会不会构成某家公司的”重大非公开信息”?
  3. Privacy / PII test(隐私测试):数据中是否包含可识别个人信息?

一个典型的反面案例是 2017-2018 年的 Cambridge Analytica(剑桥分析)事件——他们从 Facebook 拿到了 8700 万用户的数据用于政治广告。虽然这不是金融应用,但它让整个 Alt Data 产业意识到:数据是一把双刃剑,滥用的代价可以是公司灭亡

八、为什么重要——我的综合判断

8.1 Alt Data 是不是”新的 Alpha 来源”?

答案是:短期是,长期不是

这个结论对投资者的启示是什么?

不要迷信任何单一数据源——包括最炫的卫星图像。真正的 Alpha 来自你的研究体系比对手更快地识别、采纳、淘汰新数据源的能力——换句话说,Alpha 不在数据里,在数据能力里。

8.2 Alt Data 对信息不对称的影响

如果我们把 Alt Data 放在更长的历史尺度上看,它是信息不对称的重新洗牌,而不是消除:

Alt Data 的真正含义不是”让信息更透明”,而是”让信息不对称转移到了计算能力维度”。华尔街的游戏规则变了,但游戏本身还在——只是从”谁能看到数据”变成了”谁能处理数据”。

8.3 对 CFO 和 IR 的启示

如果你是一家上市公司的 CFO 或投资者关系(IR)负责人,Alt Data 对你意味着什么?

意味着你不再能控制叙事

过去,上市公司是自己运营数据的唯一信息源。华尔街想知道沃尔玛卖得怎么样,只能等 Walmart 自己发公告。今天,卫星图已经数完了沃尔玛停车场里的车——Walmart 公告之前,市场已经知道答案

这带来几个实操级别的改变:

8.4 数据的”民主化幻觉”

最后一个要警惕的点:Alt Data 看起来让信息更民主化,但实际上只让富人更富

这就排除了所有中小基金。能玩得起 Alt Data 的只有头部 20-30 家对冲基金和投行。Alt Data 加剧了金融业内部的分化——不是让散户赶上机构,而是让头部机构把中小机构甩得更远。

这是我们理解 Alt Data 最需要冷静的一个点:技术的普及从来不意味着资源的均等

延伸阅读 / 公开资源

系统入门

关键人物与案例

视频资源


一句话总结本节:另类数据不是让信息更公平的解药,而是让信息不对称从”数据拥有”转移到”数据处理”的新战场——在这个战场上,Alpha 永远在衰减,而你唯一能做的就是比对手更快地找到下一个新数据源。

↑ 返回《公司金融专题》目录