现在到哪一步了?
现在可以说:研究档案已经不是散文件状态,而是已经形成 3 个 research projects。其中 DiscoSCM 是第 3 个,也是最高优先级。
主文锚点已纠正
主文是 Distribution-consistency Structural Causal Models,不是旧的 SIGIR / Layer-3 扩展文。
理论依赖图已抽取
已从 canonical main.tex 抽出 assumptions / definitions / lemmas / theorems 的依赖关系。
版本演化已对齐
已比较 0515 → 0521 → 0526 → 0926 → 1211 → 1228 → 1230 → main。
main.tex 机械清理:duplicate label、缺失中心 label 和明显 typo 已处理。我现在怎么理解 DiscoSCM?
传统因果模型的 consistency rule 太强:
这很方便识别,但会把事实处理下的 potential outcome 逐点钉死成观测值,使个体层反事实分布退化。DiscoSCM 的核心替换是:
也就是:同一个 individual/unit 语义下,事实结果和对应反事实结果不是“同一个数值”,而是“同一个条件分布的 realization”。这给不可控噪声/运气留下空间。
degenerative counterfactual problem
consistency 把事实值变成反事实值,导致某些 joint potential outcome 结构退化。
distribution-consistency
事实 observation 是同分布样本,不是对 counterfactual variable 的逐点锁死。
DiscoSCM = <U,E,V,F>
U 表示 unit / individual semantics;E 表示 uncontrollable noise。
核心理论链条
Probability of Consistency
在传统 SCM 中,PC 基本退化为 1;在 DiscoSCM 中它变成可讨论的参数:
Layer valuation 的直觉
Layer 1 / 2 上,SCM 与 DiscoSCM 很多 valuation 可以等价;真正分歧主要发生在 Layer 3。更深的表达是:
P(U|e) 的聚合。核心公式 / 核心定理 / 核心产出
下面是我已经从 canonical 6449e55a/main.tex 抽出的最小正式骨架。目的不是替代论文,而是让你不用到处翻 TeX,就能一眼判断这条线的数学核心。
1. 从 consistency 到 distribution-consistency
传统 consistency
事实处理下的 potential outcome 被观测值逐点钉死;识别方便,但会制造 degenerative counterfactual problem。
Distribution-consistency
事实 observation 是同分布的一次 realization,不是对反事实变量的硬等式约束。
保留观测分解
说明放松 consistency 后,并不是直接摧毁所有识别结构,而是保留一个分布版本的观测结果分解。
2. DiscoSCM 的对象与 do-operator
U 和 E 分离
U 表示 unit / individual semantics;E 表示 uncontrollable exogenous noise。核心思想:人是谁 ≠ 这次运气是什么。
do(x) 换同分布噪声
SCM 保持同一个 noise value;DiscoSCM 只保持同一个 noise distribution。
个体反事实仍是随机变量
给定同一个 u,反事实结果仍随 counterfactual noise 变化,不被事实噪声锁死。
3. Layer valuations 的核心结论
Layer 1 / 2 等价
同一个系统用 SCM 与 DiscoSCM 表达时,Layer 1 / 2 valuations 等价;所以新框架不是破坏普通关联/干预层。
Layer 3 一般不同
只有当 counterfactual outcome 的随机性完全来自 unit selection 时,Layer 3 valuation 才与 SCM 等价;一般情况下 DiscoSCM 更丰富。
counterfactual noise independence
这是后续 population / individual valuation 计算能成立的重要额外条件,下一轮需要打磨其表述边界。
这两条是最关键的计算观:individual-level valuation 是 primitive;population-level valuation 是 evidence 后对 U 的 posterior aggregation。
4. PC 与 U-based identification branch
Probability of Consistency
在 SCM 中退化为 1;在 DiscoSCM 中可小于 1,并且由 corollary 得到 PC(u)=P(y|x;u)。
Propensity-style balance
说明 U 可承担类似 propensity representation 的理论角色。
U-based IPW
后半段识别分支:有潜力,但我判断应作为定义文之后的可审查扩展分支,不能遮住主线。
5. 当前核心产出
- 理论主结论:DiscoSCM 的新意不是“另一个估计算法”,而是把事实 observation 从 counterfactual equality lock 改成 distribution-level sample。
- 形式主产物:
Distribution-consistencyassumption、DiscoSCM=<U,E,V,F>、DiscoSCM do-operator、Y^d(x)、Layer valuation theory、PC。 - 工程产物:paper card、theory map、definition/theorem dependency graph、version evolution、TeX label/typo cleanup,且
latexmk已通过。 - 下一步最该审:
Y(x)/Y^d(x)/y_x记号统一,以及E(x) ⟂ E是默认假设还是 theorem condition。
版本演化:不是小修小补,是概念相变
0515 / 0521 / 0526:原型阶段
已有 degenerative problem、distribution-consistency、PC、Layer valuation,但模型对象仍更像 <U,V,F,P(U)> 的 SCM 变体。
0926 / 1211:independent potential noise 分支
出现独立潜在噪声分支,开始处理“individual-level counterfactuals 是否可识别/可分解”的问题。
1228 / 1230:真正切成定义文
标题与结构切换为 Distribution-consistency Structural Causal Models,<U,E,V,F> 成型,核心 definitions / assumptions / theorems 成组出现。
main:当前 canonical 数学打磨版
do-operator、counterfactual outcome、distribution-consistency rule、individual-level valuation、U/propensity identification branch 被进一步展开。
当前已经沉淀了哪些东西?
- paper-card-v0.1.md:主文身份、核心问题、核心对象和客观边界。
- theory-map-v0.1.md:高密度理论地图。
- definition-theorem-dependency-graph-v0.1.md:定义/定理依赖图,约 822 行。
- version-evolution-v0.1.md:版本演化图,约 587 行。
- paper-polish-cleanup-2026-05-30.md:记录 duplicate label、中心 label、typo 清理与 LaTeX 编译验证。
- 网页正式骨架展示:已把核心公式、核心定理、核心结论、核心产出直接放到本页,不再需要翻内部 TeX 才能判断主线。
- correction-note-2026-05-30-source-identity.md:记录主文与 secondary Layer-3/SIGIR 的身份纠错。
网页不是事实源
事实源仍是内部 MSP project:research-projects/discoscm/。这个网页只是给 gong 快速阅读和反馈的 projection。
现在三条研究线分别是什么状态?
下一步我建议先做什么?
第一轮机械清理已经完成并通过 latexmk 验证。接下来不要马上写很漂亮的外宣文,最高 ROI 是进入 theory-level polish:
- 已处理:duplicate theorem label
thm:iden_y_t_x;第二个条件化版本改为thm:iden_y_t_x_t_y。 - 已处理:中心 theorem / definition block 的正式 label 缺失。
- 已处理:明显 typo / 小语法问题;当前 active labels 无重复、无未定义引用。
Y(x)、Y^d(x)、y_x记号需要统一。- independent-noise assumption 到底是默认 DiscoSCM、子模型,还是 theorem condition,需要写清。
- 之后再把
65b89912/ SIGIR Layer-3 作为 secondary extension 对齐。
