影响力投资

SESSION 3:衡量影响力——怎么证明你真的改变了什么?

4 / 13

2019年诺贝尔奖:颁给了一个打破好故事的人

2019 年 10 月 14 日,诺贝尔经济学奖颁给了三位研究贫困的经济学家:Abhijit Banerjee、Esther Duflo 和 Michael Kremer。

颁奖委员会给出的理由是:“用实验方法减缓全球贫困”。

Esther Duflo,法国人,麻省理工学院教授,当年 46 岁——成为有史以来最年轻的诺贝尔经济学奖得主,也是继 Elinor Ostrom 之后第二位获奖的女性经济学家。她的得奖研究,本质上做了一件事:把医学的随机对照试验(RCT)搬到了贫困问题研究里——用严格的实验设计,检验那些”看起来很好”的扶贫项目,到底有没有用。

结果令人不安:大量广受好评的扶贫项目,经过严格测量后,效果微乎其微,甚至没有效果。

这对影响力投资领域是一个根本性的冲击:如果”你帮助了多少人”是一件可以被证伪的命题,那么所有不愿意被检验的影响力宣称,都应该受到怀疑。

数据与影响力评估 Michael Kremer 在 1990 年代初第一次去肯尼亚农村学校时,看到的是用破旧教材上课的孩子——他决定用随机对照实验测试:给学校发新教材,是否真的能提高成绩?答案出乎意料:不能。但这个”失败的答案”本身,才是影响力评估最重要的贡献——它告诉政策制定者把钱花在了哪里。J-PAL 和 GiveWell 的全部价值,就在于敢于公开”不起作用”的证据。

一、诺贝尔奖背后的问题:扶贫钱到底花对了吗?

J-PAL 和实验经济学的诞生

2003 年,Abhijit Banerjee 和 Esther Duflo 在 MIT 创立了 J-PAL(Abdul Latif Jameel Poverty Action Lab,贫困行动实验室),这是一个专门把 RCT 方法应用于贫困问题研究的学术网络。

他们的核心主张是:我们不能靠”道理上应该有用”来决定把钱花在哪里。我们需要像医学临床试验那样,把政策和项目当做”药物”来测试——随机给一部分人”服药”,与不服药的对照组比较,才能知道效果。

第一个有影响力的发现:向印度公立学校提供额外教材,对学生学习成绩几乎没有影响(因为教材不是瓶颈,教学质量才是)。这颠覆了”更多资源→更好结果”的直觉。

另一个关键发现:在非洲向学生免费发放驱虫药(针对肠道寄生虫),能显著提升学生出勤率,且成本极低(每学生约 50 美分)。这成为”全球最具成本效益的教育干预”之一的基础。

到 2023 年,J-PAL 已在全球 96 个国家完成了超过 1,500 项随机评估,影响了超过 4 亿人的政策覆盖。

Esther Duflo 的视角

Duflo 有一个非常著名的比喻,她把自己的工作比作水管工(Plumber)

“经济学家喜欢把自己想象成宏大架构的设计师。但我更愿意把自己看作水管工——我不建房子,我修漏水。当政策中有漏水的地方,我试图找到它在哪里、为什么在漏、怎么修。”

这个视角对影响力投资的启示是:不要总是在讨论”我们应该让世界变得更好”,而是要具体问:这个具体的干预,在这个具体的地方,对这些具体的人,有没有可验证的效果?

二、IRIS:影响力指标的”共同语言”

IRIS(Impact Reporting & Investment Standards) 由 GIIN 于 2009 年推出,是一套标准化的影响力指标词典,现已升级为 IRIS+。

IRIS 解决什么问题? 在 IRIS 之前,每家影响力基金用不同指标报告影响力:有的报告”服务用户数”,有的报告”收入增长”,有的报告”CO₂减排量”。彼此根本不可比较。就像如果每个国家用不同的货币,全球贸易就无法进行;如果每家基金用不同指标,影响力投资的资本市场就无法有效运作。

IRIS+ 提供了超过 600 个标准化指标,按主题分类:教育、能源、环境、金融服务、粮食与农业、医疗、住房、水与卫生……

IRIS 的局限:提供了指标的定义,但没有强制执行。机构可以选择性地报告自己表现好的指标,而忽略表现差的维度。IRIS 更像是一个工具箱,而非审计标准。

三、IMP 五维框架:从指标到洞察

IMP(Impact Management Project) 在 IRIS 的基础上更进一步,提出了一个评估影响力的五个维度框架:

维度核心问题举例(农村清洁水项目)
What(什么)产生了什么结果?正面还是负面?5,000 户家庭获得安全饮水
Who(谁)影响了哪些人?他们有多需要?月收入 50 美元以下的农村贫困家庭
How much(多少)规模、深度、持续时间如何?人均安全饮水从 5L/天增至 20L/天,持续 10 年
Contribution(贡献)这个结果有多少是这笔投资独特贡献的?没有这笔投资,项目根本不会启动(强加法性)
Risk(风险)影响力实现的不确定性有多大?地下水水位下降可能在 5 年后导致供水不可持续

为什么”Contribution”维度最难? 它要求回答一个”反事实问题”(counterfactual):如果不是这笔影响力投资,会发生什么?这在严格意义上只能通过 RCT 来回答。但 RCT 平均成本为 50-300 万美元,大多数中小型影响力项目负担不起。

四、影响力衡量的方法论梯级

影响力衡量从简单便宜到严格昂贵,构成一个梯级:

Level 1:活动输出(Output)

“我们建了 10 口水井,服务了 5,000 人。”

Level 2:成果(Outcome)

“使用这些水井的家庭,儿童腹泻发病率下降了 40%。”

Level 3:影响(Impact)

“与对照组(没有水井的相似村庄)相比,干预村庄的腹泻率统计显著下降(p<0.01),且在 5 年追踪中效果持续。”

行业现实: 大多数影响力投资的衡量停留在 Level 1-2。Level 3 评估主要在两个场景出现:(1)受外部资助、有资源做严格评估的学术研究(J-PAL 类);(2)GiveWell 等有效利他主义评估机构推荐的项目。

五、GiveWell:有效利他主义的极端严格版

GiveWell 是有效利他主义(Effective Altruism)运动中最严格的慈善研究机构,专门评估公共卫生领域的慈善项目效益。

它的核心问题是:每一美元捐款,在哪里能拯救最多的生命?

具体数字

GiveWell 对其推荐机构的研究显示(2023 年更新数据):

Against Malaria Foundation(AMF,防疟疾基金会):向撒哈拉以南非洲分发长效杀虫蚊帐

Malaria Consortium(疟疾联盟):季节性疟疾化学预防项目(SMC)

对比:美国医疗系统中,一次透析(维持一位肾功能衰竭患者生命一年)平均成本约 10 万美元;一次化疗疗程可达 30-100 万美元

这个对比不是在说”非洲的命比美国人便宜”,而是说明:在资源约束下,影响力的分配应该基于证据,而不是基于地理上的亲近感。 有效利他主义者由此主张:将同等的善意资本投向最低成本、最有证据支撑的项目,可以产生几十倍的效益差异。

GiveWell 与主流影响力投资的比较

维度GiveWell(有效利他主义)主流影响力投资
关注领域全球公共卫生多元领域
评估方法强制要求 RCT 级别证据多层次,许多停留在 Output
数据透明度极高(完整分析公开)参差不齐
资产类别慈善捐款投资(期望回收)
核心批评过于狭窄,忽视系统性变革测量门槛太低,易于洗白

六、SDG 对齐:从理想框架到宽泛标签

联合国 2015 年发布的 SDGs 给影响力投资提供了全球公认的目标框架——17 个目标、169 个子目标。对影响力投资者来说,SDG 框架有两个作用:

优点:提供了国际认可的沟通语言(“我们的项目支持 SDG 7 清洁能源和 SDG 13 气候行动”),便于与政府、机构投资者和大众沟通。

批评:SDG 框架太宽泛,几乎任何”不明显有害”的项目都可以对齐某个目标。商业银行的基础设施贷款叫做”支持 SDG 9”,一家做员工培训的 HR 软件公司叫做”支持 SDG 4 优质教育”——这些联系牵强到令人尴尬。

更深层的问题:SDG 对齐描述的是相关性,而非因果性。一只对齐 SDG 5(性别平等)的基金,可能只是投资了若干女性创始人领导的公司,而没有去评估这些投资是否真正改善了性别平等状况。

七、“影响力洗白”:最常见的几种模式

当衡量标准不严格时,影响力洗白(Impact Washing)就有机可乘:

模式 1:只报告产出,不报告成果 某清洁炉灶项目向非洲 10 万家庭销售了炉灶,声称”减排了 X 万吨 CO₂”——但实际使用率调查显示,约 30% 的炉灶购买后几个月就被放弃,因为不适应当地烹饪习惯。减排量被大幅高估。

模式 2:对影响力目标的宽泛界定 一只投资”与医疗相关的科技公司”的基金,把自己称为”医疗影响力基金”——但核心客户是发达国家中产阶级(他们已有充足医疗资源),而非缺乏医疗的弱势群体。影响力宣称和实际受益人群严重错位。

模式 3:忽视负面影响 一个在柬埔寨推进”农业商业化”的影响力项目,声称提高了当地农民收入——但忽略了在此过程中发生的土地兼并:小农失去土地,流向城市贫民区。正面效益和负面外部性同时存在,只报告前者。

模式 4:不可追踪的归因链 某影响力 VC 声称,投资了一家提供农业信息的 App,“间接帮助了 300 万非洲农民”——但没有任何机制来追踪:这些农民是否真正使用了 App?使用后是否提升了产量?提升的产量是否转化为收入?每一步都是假设叠加假设。

八、实践者工具箱:三个自检问题

Duflo 在接受采访时曾说过一句话,精准地总结了影响力衡量的核心困难:

“善意不等于善果。在贫困问题上,我们已经犯了太多次’好意但没用’的错误——花了几十年才开始承认,某些被视为神圣的干预措施根本不起作用。”

在进入一个影响力项目之前,先问清楚三件事:

  1. 用什么指标衡量成功? 是 Output(“服务了多少人”)、Outcome(“结果有什么变化”)还是 Impact(“和如果没有这个项目相比,变化有多大”)?
  2. 这个指标是被谁测量的? 是项目自报,还是独立第三方评估?经费来自项目方的”第三方评估”,存在利益冲突。
  3. 有没有可信的反事实论证? 有对照组吗?有随机分配机制吗?或者至少有可比较的历史基准?

没有这三个问题的答案,“影响力”二字就只是一个感觉良好的标签。

为什么重要

“如果你不能衡量它,你就不能管理它”——这句管理学格言在影响力投资里有特别的重量。

衡量不只是汇报的问题,它是决策的基础。哪个项目值得继续投入?哪个策略更有效?在有限资源下,应该优先解决哪个问题?没有严格的衡量,影响力投资就变成了”感觉良好”的游戏,而不是真正有效的资本配置。

J-PAL 的研究告诉我们:很多”感觉应该有用”的项目其实没用,很多”不起眼的、技术性的”干预反而效果惊人。这个教训同样适用于影响力投资:不要凭直觉做影响力——凭证据。

延伸阅读 / 公开资源

↑ 返回《影响力投资》目录