SESSION 3：衡量影响力——怎么证明你真的改变了什么？

2019年诺贝尔奖：颁给了一个打破好故事的人

2019 年 10 月 14 日，诺贝尔经济学奖颁给了三位研究贫困的经济学家：Abhijit Banerjee、Esther Duflo 和 Michael Kremer。

颁奖委员会给出的理由是：“用实验方法减缓全球贫困”。

Esther Duflo，法国人，麻省理工学院教授，当年 46 岁——成为有史以来最年轻的诺贝尔经济学奖得主，也是继 Elinor Ostrom 之后第二位获奖的女性经济学家。她的得奖研究，本质上做了一件事：把医学的随机对照试验（RCT）搬到了贫困问题研究里——用严格的实验设计，检验那些”看起来很好”的扶贫项目，到底有没有用。

结果令人不安：大量广受好评的扶贫项目，经过严格测量后，效果微乎其微，甚至没有效果。

这对影响力投资领域是一个根本性的冲击：如果”你帮助了多少人”是一件可以被证伪的命题，那么所有不愿意被检验的影响力宣称，都应该受到怀疑。

数据与影响力评估 Michael Kremer 在 1990 年代初第一次去肯尼亚农村学校时，看到的是用破旧教材上课的孩子——他决定用随机对照实验测试：给学校发新教材，是否真的能提高成绩？答案出乎意料：不能。但这个”失败的答案”本身，才是影响力评估最重要的贡献——它告诉政策制定者把钱花在了哪里。J-PAL 和 GiveWell 的全部价值，就在于敢于公开”不起作用”的证据。

一、诺贝尔奖背后的问题：扶贫钱到底花对了吗？

J-PAL 和实验经济学的诞生

2003 年，Abhijit Banerjee 和 Esther Duflo 在 MIT 创立了 J-PAL（Abdul Latif Jameel Poverty Action Lab，贫困行动实验室），这是一个专门把 RCT 方法应用于贫困问题研究的学术网络。

他们的核心主张是：我们不能靠”道理上应该有用”来决定把钱花在哪里。我们需要像医学临床试验那样，把政策和项目当做”药物”来测试——随机给一部分人”服药”，与不服药的对照组比较，才能知道效果。

第一个有影响力的发现：向印度公立学校提供额外教材，对学生学习成绩几乎没有影响（因为教材不是瓶颈，教学质量才是）。这颠覆了”更多资源→更好结果”的直觉。

另一个关键发现：在非洲向学生免费发放驱虫药（针对肠道寄生虫），能显著提升学生出勤率，且成本极低（每学生约 50 美分）。这成为”全球最具成本效益的教育干预”之一的基础。

到 2023 年，J-PAL 已在全球 96 个国家完成了超过 1,500 项随机评估，影响了超过 4 亿人的政策覆盖。

Esther Duflo 的视角

Duflo 有一个非常著名的比喻，她把自己的工作比作水管工（Plumber）：

“经济学家喜欢把自己想象成宏大架构的设计师。但我更愿意把自己看作水管工——我不建房子，我修漏水。当政策中有漏水的地方，我试图找到它在哪里、为什么在漏、怎么修。”

这个视角对影响力投资的启示是：不要总是在讨论”我们应该让世界变得更好”，而是要具体问：这个具体的干预，在这个具体的地方，对这些具体的人，有没有可验证的效果？

二、IRIS：影响力指标的”共同语言”

IRIS（Impact Reporting & Investment Standards） 由 GIIN 于 2009 年推出，是一套标准化的影响力指标词典，现已升级为 IRIS+。

IRIS 解决什么问题？ 在 IRIS 之前，每家影响力基金用不同指标报告影响力：有的报告”服务用户数”，有的报告”收入增长”，有的报告”CO₂减排量”。彼此根本不可比较。就像如果每个国家用不同的货币，全球贸易就无法进行；如果每家基金用不同指标，影响力投资的资本市场就无法有效运作。

IRIS+ 提供了超过 600 个标准化指标，按主题分类：教育、能源、环境、金融服务、粮食与农业、医疗、住房、水与卫生……

IRIS 的局限：提供了指标的定义，但没有强制执行。机构可以选择性地报告自己表现好的指标，而忽略表现差的维度。IRIS 更像是一个工具箱，而非审计标准。

三、IMP 五维框架：从指标到洞察

IMP（Impact Management Project） 在 IRIS 的基础上更进一步，提出了一个评估影响力的五个维度框架：

维度	核心问题	举例（农村清洁水项目）
What（什么）	产生了什么结果？正面还是负面？	5,000 户家庭获得安全饮水
Who（谁）	影响了哪些人？他们有多需要？	月收入 50 美元以下的农村贫困家庭
How much（多少）	规模、深度、持续时间如何？	人均安全饮水从 5L/天增至 20L/天，持续 10 年
Contribution（贡献）	这个结果有多少是这笔投资独特贡献的？	没有这笔投资，项目根本不会启动（强加法性）
Risk（风险）	影响力实现的不确定性有多大？	地下水水位下降可能在 5 年后导致供水不可持续

为什么”Contribution”维度最难？ 它要求回答一个”反事实问题”（counterfactual）：如果不是这笔影响力投资，会发生什么？这在严格意义上只能通过 RCT 来回答。但 RCT 平均成本为 50-300 万美元，大多数中小型影响力项目负担不起。

四、影响力衡量的方法论梯级

影响力衡量从简单便宜到严格昂贵，构成一个梯级：

Level 1：活动输出（Output）

“我们建了 10 口水井，服务了 5,000 人。”

成本极低，但不说明是否真正改变了受益者的状况
就像医院报告”做了多少手术”而不是”手术成功率”

Level 2：成果（Outcome）

“使用这些水井的家庭，儿童腹泻发病率下降了 40%。”

更有意义，但仍没有排除其他因素（比如同期推进的卫生教育项目）

Level 3：影响（Impact）

“与对照组（没有水井的相似村庄）相比，干预村庄的腹泻率统计显著下降（p<0.01），且在 5 年追踪中效果持续。”

最有说服力，需要对照组设计，通常需要 RCT

行业现实： 大多数影响力投资的衡量停留在 Level 1-2。Level 3 评估主要在两个场景出现：（1）受外部资助、有资源做严格评估的学术研究（J-PAL 类）；（2）GiveWell 等有效利他主义评估机构推荐的项目。

五、GiveWell：有效利他主义的极端严格版

GiveWell 是有效利他主义（Effective Altruism）运动中最严格的慈善研究机构，专门评估公共卫生领域的慈善项目效益。

它的核心问题是：每一美元捐款，在哪里能拯救最多的生命？

具体数字

GiveWell 对其推荐机构的研究显示（2023 年更新数据）：

Against Malaria Foundation（AMF，防疟疾基金会）：向撒哈拉以南非洲分发长效杀虫蚊帐

每张蚊帐成本：约 5-6 美元
覆盖一人睡眠保护：约 2-3 年
GiveWell 估算每拯救一条生命的成本（含分发、监测等全部成本）：约 3,000-5,000 美元

Malaria Consortium（疟疾联盟）：季节性疟疾化学预防项目（SMC）

向西非和中非 5 岁以下儿童提供预防性抗疟药
GiveWell 估算每拯救一条生命的成本：约 3,000-4,500 美元

对比：美国医疗系统中，一次透析（维持一位肾功能衰竭患者生命一年）平均成本约 10 万美元；一次化疗疗程可达 30-100 万美元。

这个对比不是在说”非洲的命比美国人便宜”，而是说明：在资源约束下，影响力的分配应该基于证据，而不是基于地理上的亲近感。 有效利他主义者由此主张：将同等的善意资本投向最低成本、最有证据支撑的项目，可以产生几十倍的效益差异。

GiveWell 与主流影响力投资的比较

维度	GiveWell（有效利他主义）	主流影响力投资
关注领域	全球公共卫生	多元领域
评估方法	强制要求 RCT 级别证据	多层次，许多停留在 Output
数据透明度	极高（完整分析公开）	参差不齐
资产类别	慈善捐款	投资（期望回收）
核心批评	过于狭窄，忽视系统性变革	测量门槛太低，易于洗白

六、SDG 对齐：从理想框架到宽泛标签

联合国 2015 年发布的 SDGs 给影响力投资提供了全球公认的目标框架——17 个目标、169 个子目标。对影响力投资者来说，SDG 框架有两个作用：

优点：提供了国际认可的沟通语言（“我们的项目支持 SDG 7 清洁能源和 SDG 13 气候行动”），便于与政府、机构投资者和大众沟通。

批评：SDG 框架太宽泛，几乎任何”不明显有害”的项目都可以对齐某个目标。商业银行的基础设施贷款叫做”支持 SDG 9”，一家做员工培训的 HR 软件公司叫做”支持 SDG 4 优质教育”——这些联系牵强到令人尴尬。

更深层的问题：SDG 对齐描述的是相关性，而非因果性。一只对齐 SDG 5（性别平等）的基金，可能只是投资了若干女性创始人领导的公司，而没有去评估这些投资是否真正改善了性别平等状况。

七、“影响力洗白”：最常见的几种模式

当衡量标准不严格时，影响力洗白（Impact Washing）就有机可乘：

模式 1：只报告产出，不报告成果 某清洁炉灶项目向非洲 10 万家庭销售了炉灶，声称”减排了 X 万吨 CO₂”——但实际使用率调查显示，约 30% 的炉灶购买后几个月就被放弃，因为不适应当地烹饪习惯。减排量被大幅高估。

模式 2：对影响力目标的宽泛界定 一只投资”与医疗相关的科技公司”的基金，把自己称为”医疗影响力基金”——但核心客户是发达国家中产阶级（他们已有充足医疗资源），而非缺乏医疗的弱势群体。影响力宣称和实际受益人群严重错位。

模式 3：忽视负面影响 一个在柬埔寨推进”农业商业化”的影响力项目，声称提高了当地农民收入——但忽略了在此过程中发生的土地兼并：小农失去土地，流向城市贫民区。正面效益和负面外部性同时存在，只报告前者。

模式 4：不可追踪的归因链 某影响力 VC 声称，投资了一家提供农业信息的 App，“间接帮助了 300 万非洲农民”——但没有任何机制来追踪：这些农民是否真正使用了 App？使用后是否提升了产量？提升的产量是否转化为收入？每一步都是假设叠加假设。

八、实践者工具箱：三个自检问题

Duflo 在接受采访时曾说过一句话，精准地总结了影响力衡量的核心困难：

“善意不等于善果。在贫困问题上，我们已经犯了太多次’好意但没用’的错误——花了几十年才开始承认，某些被视为神圣的干预措施根本不起作用。”

在进入一个影响力项目之前，先问清楚三件事：

用什么指标衡量成功？ 是 Output（“服务了多少人”）、Outcome（“结果有什么变化”）还是 Impact（“和如果没有这个项目相比，变化有多大”）？
这个指标是被谁测量的？ 是项目自报，还是独立第三方评估？经费来自项目方的”第三方评估”，存在利益冲突。
有没有可信的反事实论证？ 有对照组吗？有随机分配机制吗？或者至少有可比较的历史基准？

没有这三个问题的答案，“影响力”二字就只是一个感觉良好的标签。

为什么重要

“如果你不能衡量它，你就不能管理它”——这句管理学格言在影响力投资里有特别的重量。

衡量不只是汇报的问题，它是决策的基础。哪个项目值得继续投入？哪个策略更有效？在有限资源下，应该优先解决哪个问题？没有严格的衡量，影响力投资就变成了”感觉良好”的游戏，而不是真正有效的资本配置。

J-PAL 的研究告诉我们：很多”感觉应该有用”的项目其实没用，很多”不起眼的、技术性的”干预反而效果惊人。这个教训同样适用于影响力投资：不要凭直觉做影响力——凭证据。