1608年:从望远镜到期货——情报差是最古老的Alpha
当每一个分析师都能打开 Bloomberg 终端,每一个散户都能在美国证监会(SEC)官网下载 10-K;当彭博、路透、FactSet 把过去只有机构才能看到的数据塞到每个人手里——信息不对称还剩下多少?超额收益(Alpha)从哪里来?
答案是:从别人还没看到的数据来。
这节课讲的是一个在过去十年里从边缘走到中心的金融词汇——另类数据(Alternative Data,简称 Alt Data)。它的核心逻辑很简单:如果财报数据是所有人都有的公开情报,那么真正的 Alpha 就藏在”财报发布之前就能看到经济活动”的数据里。卫星图像、信用卡刷卡记录、门店 WiFi 停留时间、招聘广告数量、App 下载量、货运集装箱的 AIS 信号——每一个都是一个偷偷打开的”上帝视角”窗口。
NIST 对大数据的官方分类。对冲基金在这张图上找”别人还没挖过的井”——先挖到的人拿 Alpha,后来的人只剩数据噪音。
一、一个 400 年前的比喻:威尼斯商人的望远镜
1.1 从望远镜到卫星
1608 年,荷兰人发明了望远镜。最初的用途是军事——观察远处的敌军舰队。但很快,威尼斯商人们发现了一个更商业化的玩法:在圣马可大教堂的钟楼上架望远镜,比其他商人提前几小时看到满载香料的商船进港。
提前几小时意味着什么?意味着你可以在价格还没反应之前,提前买入或卖出香料期货合约。威尼斯作为地中海贸易中心,任何一艘船的到来都会改变市场供需。那些最早看到船影的商人,赚走了市场价差的大头。
这就是另类数据的原始形态:一个信息优势,来源于比别人更早、或从一个别人没想到的角度,观察经济活动本身。
400 年后,望远镜变成了卫星、信用卡 API、门店 WiFi、招聘网站爬虫。但底层逻辑没变:谁能最先看到正在发生的事,谁就能在数据公开之前完成交易。
1.2 信息公开化的诅咒
为什么 Alt Data 在 2010 年以后才爆发?因为在这之前,信息优势主要来自获取传统数据的能力差异:
- 1980 年代:Bloomberg 终端还是稀缺资源,一个订阅每年两万多美金,只有大机构买得起。
- 1990 年代:互联网普及,SEC EDGAR 系统让所有人免费读 10-K。
- 2000 年代:FactSet、Capital IQ 整合财务数据,Morningstar 整合基金数据。
- 2010 年代:Robinhood 零佣金+iPhone,散户也能下载 Bloomberg Terminal 级别的数据看板。
到 2020 年代,传统数据已经彻底商品化(commoditized)——所有人都能在三分钟内知道苹果上个季度卖了多少 iPhone。这是好事吗?对散户是,对机构投资人不是。因为机构的生存逻辑是”比别人多知道一点”,当这个”一点”消失时,机构就必须找到新的信息不对称来源。
答案就是 Alt Data。
二、传统数据 vs 另类数据:范式的转变
2.1 什么是”传统数据”
一个基本的分类框架是这样的——金融分析师过去 50 年赖以为生的数据,基本都来自以下几个源头:
| 类别 | 代表来源 | 典型信息 |
|---|---|---|
| 公司披露 | 10-K、10-Q、8-K、Proxy(DEF 14A) | 营收、利润、高管薪酬、风险披露 |
| 市场行情 | Bloomberg、Refinitiv、FactSet | 股价、交易量、信用利差、隐含波动率 |
| 政府数据 | 美联储、BLS、Census、BEA | 就业、通胀、GDP、消费者信心 |
| 行业数据 | Euromonitor、IBISWorld、Gartner | 市场份额、价格指数、容量 |
| 卖方研究 | 投行分析师报告、评级机构 | 盈利预测、目标价、信用评级 |
这些数据有一个共同特点:它们都是事后的、聚合的、延迟的、公开的。
10-K 是事后——你看到的是上季度或上年度已经发生的事。BLS 非农就业报告是滞后的——每个月第一个周五发布上个月的数据。连 Bloomberg 上最”实时”的股价,也已经反映了其他所有人知道的信息。
在传统数据的世界里,Alpha 来自你对信息的更好解读,而不是更早获取。你要比别人更聪明地理解 10-K 里的一句话、比别人更深入地分析一个管理层电话会议的语调、比别人更精细地拆解毛利率的变动驱动——这是 Warren Buffett 年轻时的游戏。
但在信息公开化的时代,这个游戏越来越难赢——因为你的对手不再是一群在奥马哈翻年报的小作坊,而是一群在 Goldman、Citadel、Renaissance 的数千人研究团队,每个人都用同样的 Bloomberg、读同样的 10-K。
2.2 另类数据的定义
另类数据的定义其实很松:任何不是传统金融数据源(财报、Bloomberg 终端、政府统计)、但能为投资决策提供信号的数据集,都属于 Alt Data。
它的特点是:
- 非结构化或半结构化:不是整齐的 Excel 表格,而是卫星图片、文本评论、API 流、地理坐标。
- 原始数据:不是加工过的指标,而是底层的事实记录。一笔信用卡交易、一架飞机的航迹、一条招聘广告。
- 实时或近实时:不等季报,就在事情发生的当下或数天内就能获取。
- 行业驱动:Zillow 对房地产分析师是必备,卫星图对能源分析师是必备,但对债券基金经理可能毫无用处。
换句话说:传统数据告诉你”过去发生了什么”,另类数据告诉你”正在发生什么”。
三、另类数据的六大家族
不同行业、不同资产类别需要不同的 Alt Data。过去十年里,大致形成了六个”数据族系”——每一个都对应不同的经济信号,不同的采集成本,不同的法律边界。
3.1 消费者交易数据(Consumer Transactions)
这是影响力最大的一类 Alt Data——因为消费行为直接决定了几乎所有消费品公司的营收。
- 信用卡/借记卡数据:像 Affinity Solutions、Earnest Analytics、Second Measure(已被 Bloomberg 收购)、Yipit 这些数据提供商,从银行和支付公司那里拿到数千万匿名消费者的逐笔刷卡记录,经过聚合和清洗后,可以精确地告诉你”Chipotle 上周的同店销售增长是 +4.5%“——而 Chipotle 自己要再过六周才会公告这个数字。
- 电商数据:Rakuten Intelligence、Jumpshot 等可以追踪亚马逊、Shopify 生态里的订单流。
- App 内购买:Sensor Tower、App Annie 追踪 App Store / Google Play 的收入。
案例:Chipotle 2015 E. coli 危机
2015 年 10-11 月,美国快餐连锁 Chipotle 爆发大肠杆菌(E. coli)污染事件。股价从 750 美元一路跌到 400 美元。那么问题来了——投资者怎么知道危机的底什么时候到?
靠管理层的季度电话会议太慢,每三个月一次。靠 Chipotle 自己发的”本月同店销售”月报也要到次月中旬。但如果你订阅了信用卡数据,你可以每周甚至每天看到 Chipotle 门店的客流与交易量。几家买方机构确实是这么干的——他们在 2016 年 2 月(比管理层公告早一个月)就发现同店销售跌幅开始收敛,然后开始逐步建仓。股票在 2017 年 Q1 反弹到 500 美元。信用卡数据把一个”宏观股价”问题,变成了一个”周度运营”问题。
3.2 位置与人流数据(Geolocation / Foot Traffic)
手机 GPS 数据、WiFi 探针、视频识别——这些技术让我们可以在不知道具体哪个人的情况下,知道”有多少人”在某个地方出现。
- SafeGraph:聚合 4000 万个美国兴趣点(POI:Points of Interest)的手机访问数据,可以告诉你”Target 的 1892 家门店上周每一家的客流变化”。
- Placer.ai:零售和餐饮行业的客流量分析。
- Advan / Unacast:类似的位置情报提供商。
案例:沃尔玛 vs Target 的”圣诞旺季”博弈
2019 年 11-12 月,一家对冲基金通过 SafeGraph 数据发现:Target 的客流量增长开始明显超过沃尔玛。传统分析师要等到两家公司 2 月份公布 Q4 财报才能知道这个趋势,但通过手机数据,这家基金在 12 月中旬就完成了交易——做多 Target、做空沃尔玛。2020 年 3 月 Q4 财报公布时,Target 果然跑赢沃尔玛,这家基金赚走了好几个百分点的价差。
但 COVID 改变了一切。 2020 年 3-4 月,美国进入 lockdown,几乎所有实体零售的客流量都断崖式下跌。这时候 SafeGraph 数据反而成了一个”宏观预警系统”——它能告诉你哪些州、哪些行业、哪些业态的恢复速度更快。亚马逊的仓库、Costco 的停车场、Home Depot 的装修材料区人流量先回来,而健身房、电影院、游轮人流量直到 2021-2022 年才恢复。对消费品对冲基金来说,这一年的 SafeGraph 数据比过去十年的财报更有价值。
3.3 卫星图像与遥感(Satellite / Remote Sensing)
Planet Labs、RS Metrics、Orbital Insight、SpaceKnow——这批公司的商业模式是发射自己的卫星(Planet 有 200 多颗,每天拍摄整个地球一次),然后用机器学习从图像中提取经济信号。
典型应用:
- 能源:数石油库罐的阴影来估算美国库存(石油罐顶是浮动的,储量越多阴影越小)。
- 零售:数沃尔玛停车场的汽车数量来估算当季客流。
- 矿业:监控铁矿石港口库存、煤矿皮带产量。
- 建筑:跟踪中国”幽灵城市”的建设进度。
- 农业:判断巴西大豆的墒情和产量。
案例:JD.com vs Alibaba 的仓库扩张战
2018-2020 年,一家美国对冲基金通过卫星图像持续跟踪 JD 和阿里在中国各地的仓库建设速度。他们发现 JD 的物流基础设施扩张速度明显快于阿里的菜鸟网络——每个季度新增的仓库面积、配送车队规模都在拉大差距。虽然最终两家公司的股价表现受到 2021 年中国科技股监管的压制,但在 2019-2020 年这段时间,卫星数据确实提供了一个”运营领先指标”。
案例:华尔街的”大豆战争”
2018 年中美贸易战开打后,中国对美国大豆加征 25% 关税。巴西大豆一下子成了全球抢手货。但是,巴西今年能不能种出足够多的大豆? 这个问题传统农业分析师要到收割季节才能给出答案,但卫星公司(如 Orbital Insight)早在种植季节就能通过植被指数(NDVI)判断——一家做多巴西农业、做空美国豆农的宏观基金,用的就是这个数据。
3.4 网络与社交数据(Web / Social / Sentiment)
- RavenPack:把全球新闻、推特、Reddit 的文本实时抓取、做自然语言处理(NLP),输出”情绪分数”。
- Dataminr:实时监控社交媒体上的突发事件(比如某家工厂的火灾、某架飞机的迫降)。
- Glassdoor:员工评价公司,可以反映企业文化和管理层变化。
- Google Trends:搜索热度可以预测消费需求(例如”二手车”搜索量与 CarMax 的营收相关度很高)。
- Reddit / 4chan / WallStreetBets:2021 年 GameStop 事件之后,所有机构都开始监控散户论坛。
案例:2020 年特斯拉,Reddit 的”先知能力”
2020 年 6 月,一家量化基金注意到:Reddit 上关于特斯拉 Model Y 的讨论量开始暴增,远远超过同期其他任何一款电动车。这个量化基金把 Reddit 帖子情绪分析作为输入信号之一,加大了特斯拉的多头头寸。从 2020 年 6 月到 2021 年 1 月,特斯拉从 200 美元涨到 900 美元(拆股后价格),翻了将近五倍。社交情绪数据不是因果,但它是一个强烈的共识形成信号——它能让你看到一支股票什么时候开始从”机构叙事”变成”全民 meme”。
案例:RavenPack 和 Trump 推文
2017-2020 年,特朗普执政期间发的推文让华尔街惊心动魄——因为任何一条关于关税、华为、美联储的推特都可能让某个行业瞬间大涨或大跌。RavenPack 和类似的公司开发了 Trump Tweet Index——每一条新推文在几毫秒内被 NLP 引擎处理,分析它的”攻击目标""情绪强度""历史类比”,然后把结果推送给对冲基金。一些高频基金专门做”推文套利”——在机器看到推文的前 500 毫秒内下单,在人类分析师反应过来之前就完成交易。
3.5 招聘与就业数据(Hiring / Workforce)
- LinkedIn Economic Graph:LinkedIn 聚合了几亿人的职业档案,可以看到每家公司每个月的招聘职位数、离职率、员工技能变化。
- Revelio Labs:专门做公司员工数据分析。
- Burning Glass:招聘广告的实时抓取。
为什么招聘数据重要?
因为招聘是最强的领先指标之一。一家公司要扩张业务,先要招人,然后才有营收。反之,公司要收缩,先要停招、然后裁员、再反映到利润。如果你能看到一家公司的招聘动态,你就能领先财报 3-6 个月看到它的业务方向。
案例:Meta 2022 年”效率之年”的前置信号
2022 年初,很多分析师还在推崇 Meta 的 Metaverse 战略。但一些量化基金通过 LinkedIn 数据发现:Meta 的招聘职位数已经开始悄悄下降,尤其是在 Reality Labs(VR/AR 部门)。这个信号比管理层 2022 年 10 月才宣布的”Year of Efficiency”(效率之年)和大规模裁员早了 8 个月。那些提前减仓 Meta、或者做空 Meta 的基金,避开了 2022 年 Meta 从 380 美元跌到 90 美元的暴跌。
案例:Nvidia 2023 年 AI 热的前置信号
2022 年底到 2023 年初,LinkedIn 数据就显示 Nvidia 正在大规模招聘 AI 相关人才——尤其是 CUDA 工程师和机器学习研究员。同期,OpenAI、Google、Meta、Microsoft 也都在为 AI 团队扩编,而这些人才主要都在用 Nvidia 的芯片。这种”生态共振”的招聘信号,在 ChatGPT 2022 年 11 月发布之前就已经在招聘数据里若隐若现。那些在 2023 年初就重仓 Nvidia 的基金,拿到了从 150 美元到 1000 美元(拆股前)的涨幅。
3.6 行业运营数据(Intra-Industry Operational)
每个行业都有自己的高频运营指标——这些数据的可得性取决于行业结构:
- 航运与物流:AIS(Automatic Identification System)让每艘船的位置实时公开,可以跟踪全球贸易流。
- 航空:ADS-B 数据提供每架飞机的航迹。
- 电力:美国 ERCOT、PJM 等电网运营商公布每小时的电力消耗,可以反推经济活动强度。
- 医疗:IQVIA 的处方数据(Rx data)可以追踪每款药品的销售速度。
- 半导体:Taiwan Semiconductor 的月度营收、台股上市的晶圆代工数据。
- 游戏:SteamDB、Twitch 观看时长。
- 加密货币:Glassnode、Chainalysis 提供链上数据。
案例:GLP-1 减肥药与 IQVIA 处方数据
2023 年 Eli Lilly(LLY)和 Novo Nordisk(NVO)的 GLP-1 减肥药(Mounjaro、Ozempic、Wegovy)风靡全球。投资者最关心的一个问题是:这些药的处方开出速度有多快?供应瓶颈什么时候会解决?
IQVIA 的 Rx 数据给了投资者”周度更新”的能见度。每周你都能看到美国多少个医生开了多少张处方,增长率是多少。这让专业投资者在 2023 年 LLY 从 600 的过程中,始终有数据支撑。
相反,2024 年初市场开始担心减肥药热潮”触顶”时,Rx 数据也是第一个显示增长放缓的信号源——比 LLY 自己的季报早 4-6 周。
四、数据的”影响力等级”:不是所有 Alt Data 都值得买
业内有一个广为流传的影响力排序(impact hierarchy),大致反映不同 Alt Data 对投资决策的边际信号强度:
Consumer Transactions(信用卡/电商) ★★★★★
↓
Consumer Behavior(搜索/社交/App) ★★★★
↓
Geolocation(卫星/手机位置) ★★★★
↓
Corporate / Hiring(LinkedIn/招聘) ★★★★
↓
Physical / Logistics(航运/电力) ★★★
↓
Intra-Industry(Rx/半导体/游戏) ★★★
这个排序不是绝对的,它取决于你要分析的行业:
- 如果你分析的是快消零售,消费者交易数据排第一。
- 如果你分析的是制药公司,IQVIA Rx 数据可能排第一。
- 如果你分析的是能源公司,卫星图像排第一。
- 如果你分析的是互联网公司,App 下载量和招聘数据并重。
更重要的是:Alt Data 的价值随着使用人数指数级衰减。
4.1 信号的半衰期
这是另类数据产业最严肃、也最容易被忽视的一个问题:当某个数据源被越来越多人使用时,它的 Alpha 信号会迅速衰减。
- 2012-2016 年,信用卡数据是”稀缺资源”,谁用谁赚。
- 2018-2020 年,所有头部对冲基金都订阅了 Affinity、Yipit,信号开始拥挤。
- 2022 年以后,散户投资者都能买到类似数据,信号已经反映在价格里——你看到 Chipotle 同店销售好,很可能其他一百家基金也看到了,股票已经涨了。
这是所有 Alt Data 买家都要面对的根本问题:你买的究竟是”Alpha 来源”,还是”对冲落后的保险”?
很多华尔街研究员私下的说法是:“Alt Data 最大的价值不是让你跑赢对手,而是让你不被对手甩开”。如果你的竞争对手都订阅了,你也必须订阅——这更像一个军备竞赛,而不是真正的超额收益来源。
五、案例:Alt Data 如何重塑三家公司的研究方式
5.1 Point72 与 Steve Cohen 的数据军团
Steve Cohen 旗下的 Point72(前身是 SAC Capital)是 Alt Data 最早、最激进的机构投资者之一。Point72 内部有一个专门的Aperio Data Team——由前 Google、Facebook 数据科学家组成,专门负责筛选、清洗、验证 Alt Data 集。
他们的内部流程大致是这样的:
- 数据发现:每年评估 500-1000 个潜在 Alt Data 供应商。
- Backtest(回溯测试):用历史数据模拟”如果当年用这个数据交易会赚多少钱”。
- Deployment(部署):只有 5% 左右的数据集能通过测试进入生产。
- 持续监控:每月检查信号是否衰减,如果衰减超过阈值就停用。
据业内估计,Point72 每年在 Alt Data 上的预算超过 3 亿美元。这是一个令人震惊的数字——但考虑到 Point72 管理规模超过 300 亿美元、对数据敏感的 TMT 和消费板块占比很高,这个投入完全合理。
5.2 Coatue 与 Chase Coleman 的互联网情报系统
Coatue 是华尔街最早成立”数据科学”部门的传统对冲基金之一。他们的投资哲学是**“Tech-enabled fundamental”**(技术赋能的基本面)——在做传统的深度基本面研究时,叠加大量 Alt Data。
Coatue 特别重视两类数据:
- App usage data(App 使用数据):从 Sensor Tower、SimilarWeb 拿到,用来判断社交产品、游戏、订阅服务的用户黏性。
- Hiring data(招聘数据):他们的一个经典案例是 2019 年通过 LinkedIn 数据提前发现 TikTok 母公司字节跳动的美国团队扩张速度,成为最早重仓投资字节的美国基金之一。
5.3 Citadel 与 Kenneth Griffin 的工业化 Alt Data 流水线
Citadel 代表的是 Alt Data 的”工业化”——它不依赖任何单一数据源,而是把数百个数据集合并到一个机器学习平台里,让算法自动决定每个信号的权重。
Citadel 的 E Corp(Equity Correspondent)团队据说有超过 100 名数据科学家,每天处理超过 100 TB 的另类数据。他们的交易决策里,单个数据源的权重通常不超过 5%——意味着没有任何一个信号可以独立成为 Alpha 来源,而是靠大量信号的组合。
这种做法的优势是:
- 鲁棒性高:单个数据源失灵不会影响整体策略。
- 信号衰减被分散:100 个信号各衰减一点,总体影响不大。
- 可以用算法自动发现新模式:人类分析师看不出来的跨数据集相关性,机器能发现。
但代价是:
- 成本极高:每年数据订阅+基础设施+团队工资加起来上亿美元。
- 可解释性差:没有人能说清”为什么今天多头 Amazon 空头 Target”——这只是机器算出来的。
这就是为什么 Alt Data 的真正赢家很可能不是传统基本面基金,而是拥有”数据-算力-算法”三位一体能力的量化巨头——Citadel、Renaissance、Two Sigma、DE Shaw。
六、买方 vs 卖方:不同玩家的使用方式
6.1 买方(Buy-side):直接交易
对冲基金、共同基金、养老金——这些直接管理资产的买方,使用 Alt Data 的目的是生成交易信号:
- 方向性交易:多头/空头某只股票。
- 配对交易:同行业内多 A 空 B。
- 板块轮动:基于宏观 Alt Data 切换板块仓位。
- 风险管理:提前发现持仓公司的运营恶化。
6.2 卖方(Sell-side):辅助研究
投行分析师、卖方研究员——他们自己不持仓,但要为客户(买方)提供研究报告。Alt Data 对卖方的价值是提升研究质量,差异化产品:
- 季报前预测(Pre-earnings read):在公司披露前给客户”我们的信用卡数据显示营收大概是 +5%“这样的 early indication。
- Deep dive 报告:某个零售商的每家门店客流量分析,给零售业客户做参考。
- 行业地图:用招聘数据画出某个新兴行业(比如电动车、生成式 AI)的公司竞争格局。
2020 年代卖方研究的一个显著变化:很多大型投行(Goldman、JPMorgan、Morgan Stanley)都成立了自己的 Alt Data 团队,把 Alt Data 作为研究报告的”差异化武器”。因为在一个所有分析师都有 Bloomberg 的世界,差异化已经只能靠 Alt Data 了。
七、法律与道德的边界
Alt Data 产业最大的风险不是”数据不准”,而是”数据获取方式是否合法”。
7.1 三条红线
第一条:内幕信息(MNPI: Material Non-Public Information)
如果一个信用卡数据供应商是从某家银行”偷偷”拿到了该银行自己信用卡客户的数据——这可能构成内幕信息。美国 SEC 在 2020 年罚了 App Annie 1000 万美元,原因就是 App Annie 用自己承诺的”数据不会被单独披露”的承诺,实际上给特定客户提供了单家公司的 App 销量数据。
第二条:个人隐私(Privacy)
GDPR(欧盟)、CCPA(加州)都对个人数据的收集和使用做了严格规定。如果一个 Alt Data 提供商没有做好”匿名化”处理——让某个数据点可以追溯到具体某个人——就有法律风险。
第三条:数据爬取的合法性
hiQ Labs vs LinkedIn 案(2017-2022)是一个标志性判例——hiQ 从 LinkedIn 公开页面爬取数据卖给客户,LinkedIn 起诉 hiQ 违反 CFAA(Computer Fraud and Abuse Act,计算机欺诈和滥用法)。最终法院判决 LinkedIn 败诉,确立了”爬取公开可见数据”在美国法律下是合法的。
但这只是在美国。中国、欧盟、印度对数据爬取的态度差异巨大,跨境 Alt Data 项目要格外小心法律合规。
7.2 合规审查的标准操作
专业机构使用 Alt Data 前都会做三道审查:
- Source provenance(来源验证):数据是怎么来的?有没有合同授权?
- MNPI test(内幕信息测试):这个数据会不会构成某家公司的”重大非公开信息”?
- Privacy / PII test(隐私测试):数据中是否包含可识别个人信息?
一个典型的反面案例是 2017-2018 年的 Cambridge Analytica(剑桥分析)事件——他们从 Facebook 拿到了 8700 万用户的数据用于政治广告。虽然这不是金融应用,但它让整个 Alt Data 产业意识到:数据是一把双刃剑,滥用的代价可以是公司灭亡。
八、为什么重要——我的综合判断
8.1 Alt Data 是不是”新的 Alpha 来源”?
答案是:短期是,长期不是。
- 短期(1-5 年):如果你是某个数据源的首批使用者,你能获得 Alpha。信用卡数据在 2013 年、卫星图在 2015 年、招聘数据在 2019 年——每一个新数据源都有 3-5 年的红利期。
- 长期(10 年以上):当某个数据源被机构普遍使用时,它就变成了传统数据——人人都知道的信息,自然不再产生超额收益。Alt Data 永远处于”衰减与更新”的跑步机上。
这个结论对投资者的启示是什么?
不要迷信任何单一数据源——包括最炫的卫星图像。真正的 Alpha 来自你的研究体系比对手更快地识别、采纳、淘汰新数据源的能力——换句话说,Alpha 不在数据里,在数据能力里。
8.2 Alt Data 对信息不对称的影响
如果我们把 Alt Data 放在更长的历史尺度上看,它是信息不对称的重新洗牌,而不是消除:
- 1950s-1990s:信息不对称来源于数据获取成本——机构有 Bloomberg,散户没有。
- 2000s-2010s:信息不对称来源于数据解读能力——散户也有 Bloomberg,但不会用。
- 2010s-now:信息不对称来源于非传统数据的获取与处理能力——机构有信用卡+卫星+ LinkedIn API,散户无法企及。
- 2025+:信息不对称可能来源于AI 对海量非结构化数据的实时分析能力——机构养 100 个数据科学家,训练自己的模型,这是散户和中小机构买任何 SaaS 都学不来的。
Alt Data 的真正含义不是”让信息更透明”,而是”让信息不对称转移到了计算能力维度”。华尔街的游戏规则变了,但游戏本身还在——只是从”谁能看到数据”变成了”谁能处理数据”。
8.3 对 CFO 和 IR 的启示
如果你是一家上市公司的 CFO 或投资者关系(IR)负责人,Alt Data 对你意味着什么?
意味着你不再能控制叙事。
过去,上市公司是自己运营数据的唯一信息源。华尔街想知道沃尔玛卖得怎么样,只能等 Walmart 自己发公告。今天,卫星图已经数完了沃尔玛停车场里的车——Walmart 公告之前,市场已经知道答案。
这带来几个实操级别的改变:
- Earnings surprise 变少:因为 Alt Data 已经提前告知了分析师真实数字,管理层再”引导预期”的空间被压缩。
- 季报前股价异动:Alt Data 造成的”信息提前反映”让财报发布时股价反应变小,但季报前 2-4 周的股价波动变大。
- 公司要更坦诚:如果管理层的口径和 Alt Data 冲突,市场会更相信 Alt Data。2019 年 WeWork 的 S-1 招股书里的数据和第三方房地产数据不符,最终导致 IPO 失败——这就是一个典型案例。
8.4 数据的”民主化幻觉”
最后一个要警惕的点:Alt Data 看起来让信息更民主化,但实际上只让富人更富。
- 一个信用卡数据订阅每年 20-50 万美元。
- 一个卫星图像 API 订阅每年 10-30 万美元。
- 一个 LinkedIn Economic Graph 订阅每年 5-15 万美元。
- 一套基础设施(数据仓库、ETL、机器学习平台)至少 200 万美元/年。
- 一个 10 人的 Alt Data 团队至少 300-500 万美元/年。
这就排除了所有中小基金。能玩得起 Alt Data 的只有头部 20-30 家对冲基金和投行。Alt Data 加剧了金融业内部的分化——不是让散户赶上机构,而是让头部机构把中小机构甩得更远。
这是我们理解 Alt Data 最需要冷静的一个点:技术的普及从来不意味着资源的均等。
延伸阅读 / 公开资源
系统入门
- Wikipedia - Alternative data (finance):Alt Data 产业、主要数据源、买方使用方式的总览。
- Investopedia - Alternative Data Definition:对概念、应用场景、常见陷阱的入门级梳理,更适合零基础读者。
关键人物与案例
- Wikipedia - Renaissance Technologies:Jim Simons 和 Medallion Fund——“数据+算力+算法”三位一体的鼻祖。
- Wikipedia - SafeGraph:位置数据提供商的商业模式与隐私争议,可看到 Alt Data 产业的 B 面。
- Wikipedia - hiQ Labs v. LinkedIn:数据爬取合法性的里程碑判例,理解 Alt Data 的法律边界。
视频资源
- YouTube - How Hedge Funds Use Alt Data (CNBC):CNBC 对对冲基金 Alt Data 使用方式的纪实报道。
- YouTube - Satellite Images Changing Wall Street:对卫星数据从”太空”到”交易台”的产业链科普。
一句话总结本节:另类数据不是让信息更公平的解药,而是让信息不对称从”数据拥有”转移到”数据处理”的新战场——在这个战场上,Alpha 永远在衰减,而你唯一能做的就是比对手更快地找到下一个新数据源。