Project 003 · active supreme theory priority

DiscoSCM
当前理解与整理进展

这不是第三个普通旧项目,而是当前个人研究档案里的主线:Distribution-consistency Structural Causal Models。我现在的理解是:它试图修补传统 consistency rule 造成的反事实退化问题,用 distribution-consistency 与 <U,E,V,F> 重建事实、个体、噪声和反事实之间的语义关系。

已完成:源身份纠错已完成:定义/定理依赖图已完成:版本演化图已完成:TeX 标签/typo 清理已展示:核心公式/定理/结论下一步:notation / assumption polish更新:2026-05-30 13:58 CST
current state

现在到哪一步了?

现在可以说:研究档案已经不是散文件状态,而是已经形成 3 个 research projects。其中 DiscoSCM 是第 3 个,也是最高优先级。

done

主文锚点已纠正

主文是 Distribution-consistency Structural Causal Models,不是旧的 SIGIR / Layer-3 扩展文。

done

理论依赖图已抽取

已从 canonical main.tex 抽出 assumptions / definitions / lemmas / theorems 的依赖关系。

done

版本演化已对齐

已比较 0515 → 0521 → 0526 → 0926 → 1211 → 1228 → 1230 → main

一句话:我已经从“找这篇文章在哪”推进到“知道它的理论骨架、版本相变”,并完成第一轮 main.tex 机械清理:duplicate label、缺失中心 label 和明显 typo 已处理。
my current understanding

我现在怎么理解 DiscoSCM?

传统因果模型的 consistency rule 太强:

\[T=t \Rightarrow Y(t)=Y\]

这很方便识别,但会把事实处理下的 potential outcome 逐点钉死成观测值,使个体层反事实分布退化。DiscoSCM 的核心替换是:

\[X=x,\ U=u \Rightarrow Y(x) \overset{d}{=} Y\]

也就是:同一个 individual/unit 语义下,事实结果和对应反事实结果不是“同一个数值”,而是“同一个条件分布的 realization”。这给不可控噪声/运气留下空间。

problem

degenerative counterfactual problem

consistency 把事实值变成反事实值,导致某些 joint potential outcome 结构退化。

replacement

distribution-consistency

事实 observation 是同分布样本,不是对 counterfactual variable 的逐点锁死。

object

DiscoSCM = <U,E,V,F>

U 表示 unit / individual semantics;E 表示 uncontrollable noise。

theory chain

核心理论链条

1. Consistency 太强事实世界把反事实变量锁死。
2. Distribution-consistency把同值替换为同分布。
3. U / E 拆分人是谁,与这次运气是什么,分开。
4. Layer valuationsLayer 3 与 individual valuation 变成主战场。
\[\text{consistency rule} \rightarrow \text{distribution-consistency assumption} \rightarrow \langle U,E,V,F\rangle \rightarrow \text{non-degenerate PC / Layer 3 valuation}\]

Probability of Consistency

在传统 SCM 中,PC 基本退化为 1;在 DiscoSCM 中它变成可讨论的参数:

\[PC=P(Y(t)=Y\mid T=t,U=u)\]

Layer valuation 的直觉

Layer 1 / 2 上,SCM 与 DiscoSCM 很多 valuation 可以等价;真正分歧主要发生在 Layer 3。更深的表达是:

individual-level valuation 是 primitive;population-level valuation 是给定 evidence 后对 P(U|e) 的聚合。
formal core

核心公式 / 核心定理 / 核心产出

下面是我已经从 canonical 6449e55a/main.tex 抽出的最小正式骨架。目的不是替代论文,而是让你不用到处翻 TeX,就能一眼判断这条线的数学核心。

1. 从 consistency 到 distribution-consistency

old rule

传统 consistency

\[T=t \Rightarrow Y(t)=Y\]

事实处理下的 potential outcome 被观测值逐点钉死;识别方便,但会制造 degenerative counterfactual problem。

new assumption

Distribution-consistency

\[X=x,\ U=u \Rightarrow Y(x) \stackrel{d}{=} Y\]

事实 observation 是同分布的一次 realization,不是对反事实变量的硬等式约束。

first lemma

保留观测分解

\[Y \stackrel{d}{=} X Y(1)+(1-X)Y(0)\]

说明放松 consistency 后,并不是直接摧毁所有识别结构,而是保留一个分布版本的观测结果分解。

2. DiscoSCM 的对象与 do-operator

\[\mathcal M_d = \langle U,\mathbf E,\mathbf V,\mathcal F\rangle,\qquad v_i \leftarrow f_i(pa_i,e_i;u)\]
semantic split

UE 分离

U 表示 unit / individual semantics;E 表示 uncontrollable exogenous noise。核心思想:人是谁 ≠ 这次运气是什么。

intervention

do(x) 换同分布噪声

\[\mathcal F_{\mathbf x}:=\{f_i:V_i\notin\mathbf X\}\cup\{\mathbf X\leftarrow\mathbf x\},\quad \mathbf E\mapsto\mathbf E(\mathbf x),\; \mathbf E(\mathbf x)\stackrel{d}{=}\mathbf E\]

SCM 保持同一个 noise value;DiscoSCM 只保持同一个 noise distribution。

unit example

个体反事实仍是随机变量

\[Y^d_u(x)=x+u+E_2(x)\]

给定同一个 u,反事实结果仍随 counterfactual noise 变化,不被事实噪声锁死。

3. Layer valuations 的核心结论

Theorem

Layer 1 / 2 等价

同一个系统用 SCM 与 DiscoSCM 表达时,Layer 1 / 2 valuations 等价;所以新框架不是破坏普通关联/干预层。

Theorem

Layer 3 一般不同

只有当 counterfactual outcome 的随机性完全来自 unit selection 时,Layer 3 valuation 才与 SCM 等价;一般情况下 DiscoSCM 更丰富。

Assumption

counterfactual noise independence

\[\mathbf E(\mathbf x)\perp\!\!\!\perp \mathbf E\]

这是后续 population / individual valuation 计算能成立的重要额外条件,下一轮需要打磨其表述边界。

\[P(Y^d(x)=y\mid e)=\sum_u P(y_x;u)P(u\mid e)\]
\[P(y_x\mid e;u)=P(y_x;u)=P(y\mid x;u)\]

这两条是最关键的计算观:individual-level valuation 是 primitive;population-level valuation 是 evidence 后对 U 的 posterior aggregation。

4. PC 与 U-based identification branch

PC

Probability of Consistency

\[PC(u):=P(Y^d(x)=y\mid X=x,Y=y,U=u)\]

在 SCM 中退化为 1;在 DiscoSCM 中可小于 1,并且由 corollary 得到 PC(u)=P(y|x;u)

U balance

Propensity-style balance

\[Y(t)\perp T\mid e(U)\]

说明 U 可承担类似 propensity representation 的理论角色。

IPW

U-based IPW

\[E[Y(t^*)]=E\left[\frac{Y\mathbf 1_{T=t^*}}{P(t^*\mid U)}\right]\]

后半段识别分支:有潜力,但我判断应作为定义文之后的可审查扩展分支,不能遮住主线。

5. 当前核心产出

  • 理论主结论:DiscoSCM 的新意不是“另一个估计算法”,而是把事实 observation 从 counterfactual equality lock 改成 distribution-level sample。
  • 形式主产物Distribution-consistency assumption、DiscoSCM=<U,E,V,F>、DiscoSCM do-operator、Y^d(x)、Layer valuation theory、PC。
  • 工程产物:paper card、theory map、definition/theorem dependency graph、version evolution、TeX label/typo cleanup,且 latexmk 已通过。
  • 下一步最该审Y(x) / Y^d(x) / y_x 记号统一,以及 E(x) ⟂ E 是默认假设还是 theorem condition。
version evolution

版本演化:不是小修小补,是概念相变

0515 / 0521 / 0526:原型阶段

已有 degenerative problem、distribution-consistency、PC、Layer valuation,但模型对象仍更像 <U,V,F,P(U)> 的 SCM 变体。

0926 / 1211:independent potential noise 分支

出现独立潜在噪声分支,开始处理“individual-level counterfactuals 是否可识别/可分解”的问题。

1228 / 1230:真正切成定义文

标题与结构切换为 Distribution-consistency Structural Causal Models<U,E,V,F> 成型,核心 definitions / assumptions / theorems 成组出现。

main:当前 canonical 数学打磨版

do-operator、counterfactual outcome、distribution-consistency rule、individual-level valuation、U/propensity identification branch 被进一步展开。

最高价值 diff 点:1228 是 U/E split 的相变点;1230 → main 是数学打磨和 theorem expansion 的高价值 diff。
artifacts

当前已经沉淀了哪些东西?

  • paper-card-v0.1.md:主文身份、核心问题、核心对象和客观边界。
  • theory-map-v0.1.md:高密度理论地图。
  • definition-theorem-dependency-graph-v0.1.md:定义/定理依赖图,约 822 行。
  • version-evolution-v0.1.md:版本演化图,约 587 行。
  • paper-polish-cleanup-2026-05-30.md:记录 duplicate label、中心 label、typo 清理与 LaTeX 编译验证。
  • 网页正式骨架展示:已把核心公式、核心定理、核心结论、核心产出直接放到本页,不再需要翻内部 TeX 才能判断主线。
  • correction-note-2026-05-30-source-identity.md:记录主文与 secondary Layer-3/SIGIR 的身份纠错。
source hierarchy

网页不是事实源

事实源仍是内部 MSP project:research-projects/discoscm/。这个网页只是给 gong 快速阅读和反馈的 projection。

archive overview

现在三条研究线分别是什么状态?

next gates

下一步我建议先做什么?

第一轮机械清理已经完成并通过 latexmk 验证。接下来不要马上写很漂亮的外宣文,最高 ROI 是进入 theory-level polish:

  • 已处理:duplicate theorem label thm:iden_y_t_x;第二个条件化版本改为 thm:iden_y_t_x_t_y
  • 已处理:中心 theorem / definition block 的正式 label 缺失。
  • 已处理:明显 typo / 小语法问题;当前 active labels 无重复、无未定义引用。
  • Y(x)Y^d(x)y_x 记号需要统一。
  • independent-noise assumption 到底是默认 DiscoSCM、子模型,还是 theorem condition,需要写清。
  • 之后再把 65b89912 / SIGIR Layer-3 作为 secondary extension 对齐。