19 路通道、两段录音、56 年距离。在这一章里把所有结论按置信度三档列清楚, 然后转向一份反向附录——本次分析过程本身就是一次提示工程的演示, AI 写代码、写公式、写 SVG,人类提供方向和质疑。
下列断言由多重独立证据支持,或可在两次录音之间复现,不依赖"DFH-1 是否飞了科学载荷"这条未解决的源冲突:
下列三条原本被列为高置信度,但 Codex / 第三轮研究 subagent 都指出:DFH-1 究竟有没有飞过这套科学载荷 本身存在中文权威源冲突—— 若"载荷未飞"成立,这三个标签整体作废。本博客把它们降为候选而非确认:
| 量 | 数值 | 来源章节 |
|---|---|---|
| 磁强计 VCO 灵敏度 | ~0.012 Hz/nT | Ch. 4 |
| VCO 校准斜坡斜率 / RMS 残差 | −2.24 Hz/s, 0.14 Hz | Ch. 3 |
| 太阳辐射计响应 | +14.9 Hz / 度太阳角 | Ch. 7 |
| Ch 16 F2 偏离 / F1↔F3 散布 | ~80× | Ch. 5(不是 σ 显著性,仅是比值) |
| 磁带速度误差 | +0.35% | Ch. 1 |
| 电池续航:地面 + 在轨 | 8 天 + 20 天 = 28 天 | Ch. 6 |
| 在轨平均功耗 | ~20 W (与 ~9.5 kWh 容量自洽) | Ch. 6 |
| 验证项 | 预测 | 实测 | 结果 |
|---|---|---|---|
| 磁强计 |B| 比例(粗一致性,非定量精密验证) | 1.524 | 1.262 | 同向同量级,~17% 偏差 |
| 多普勒频率变化率 | −1.13 Hz/s (轨道模型) | −1.34 Hz/s | 通过 (~20%) |
| 48 小时稳定性 (槽长) | 305 ms (CHINA1) | 305 ms (ChinSat) | 通过 |
| L1 同步 4-FSK 频率 | 1155 Hz | 1155 Hz | 通过 |
| 实践一号 (1971) 比对 | 载荷无磁强计 → 无 2 Hz 余弦 | 遥测中无 2 Hz 余弦 | 通过 |
我们没有解码到电压或温度的绝对值,但是我们重建了 19 路通道的身份、 1 路科学事件的显著性、整个遥测系统的时序结构, 并用独立的物理约束(地磁场、轨道几何、第二颗卫星)做了 5 项交叉校验。 这些是 56 年前的工程师在 1970 年 4 月装好上天、然后在 1970 年 5 月失联的那台机器,留给后人的可观测特征。
本博客主体章节、SVG 图、Python 脚本、物理推导,主要由 Claude(Anthropic)写成; 后续科学审阅、网页修订和章节插图由 OpenAI Codex 协助完成。 这是分析作者署名的真实情况,也是这份附录的存在理由—— 本博客本身就是一次提示工程演示。
definitive_decode.py 实际是报告生成器而非重新解码流水线definitive_decode.py 不是重新解码流水线,而是报告生成器。
该脚本里的通道值是预填入的,并不是从音频独立重算出来的。也就是说,
博文里的频率表和图是从音频重建的;但"物理身份"这一层标签
并没有被一个端到端的脚本独立重放过。
在 Chapter 5 的写作中段,提示工程师让 Claude 派出一个 web-research subagent 去找支持和反对那次 +77 Hz 瞬变事件的证据。subagent 带回了一条 Claude 没准备好的反驳:多份中文权威源记载 DFH-1 出于"首发必成"和电池容量限制 取消了科学载荷,宇宙强度计实际飞在备份星实践一号 (1971-03) 上。 若该说法正确,本博客 Ch 3/4/5 的全部"科学身份"标签都需要重读为工程通道。 Chapter 5 现在以 callout 形式公开这条未解决的源冲突,并列出可证伪它的卫星档案 (IMP-G、Vela 5/6、OGO-5/6 在 1970-04-27 09:40 UT 的粒子记录)。
在博客接近完稿时,提示工程师让 Codex GPT-5.5 做了一次纯科学技术性的复审, 要求只列"可证伪/可计算的错误",不算开放假设。Codex 提交了 15 条,本博客逐条接受并修订:
Codex 提出"OOK 484 段更可能是 tracker 伪迹"后,提示工程师让 Claude 又派出一个 subagent, 这次任务是跑代码而不是搜网:用 scipy 把 2200 Hz 漂移线混频到基带, 取复包络,然后比较遥测窗口内外的幅度分布。
subagent 在大约 6 分钟里做完整流水线,输出三张图、一个 JSON 摘要,并给出明确判决: 2200 Hz 包络在窗口内外完全一致(中位 \(-22.1\) vs \(-21.3\) dB), 直方图单峰对数正态。如果是真 OOK,应当看到双峰——所以"484 段" 被本附录明确撤回,写进 Chapter 9 作为修正过的证伪结论。
顺便发现:原 ridge 拟合截距 2269 Hz 在基带留下 \(\sim 5\) Hz 残余,真实中心更靠近 2264 Hz。 不影响主结论(漂移率 \(-1.34\) Hz/s 不变),但这是第一次有人在公开互联网上做过 这条信号的幅度域复核——纯由 LLM 在一次会话内完成。
这三轮批评都是合理的。处理方式不是抹掉结论——本博客是工程分析, 基于有限样本和历史事实推断身份是这种工作的常态——而是把每条结论的证据强度 和替代假设明确出来。Part 1 的★★★/★★/候选/无法确定四档分级就是为这一点服务的。 读者应当把这些标签按所列证据来读,而不是按权威口吻来读。
本次分析的提示对话几乎全部以英文进行——包括代码、推导、 错误修正、对中间结论的挑战、方法论讨论。只有最后输出阶段, Claude 才被要求以中文撰写本博客的全部正文、图注、表格、HTML 文案。 换句话说:思考语言是英文,呈现语言是中文。 这意味着中文文本是 AI 的翻译/再表达而非原生写作, 这也是为什么部分句式带有英语技术写作的痕迹。
不是"分析这段音频",而是"解码这段 173 秒录音里的 19 路遥测换向通道"。 2023 年 Telegram 聊天里已经搭好了初始假设框架——这是种子,不是问题。
不是开局把所有材料一次性灌进去——而是边分析边喂:
每注入一份新材料,就强制 AI 修正先前结论。
这些短促的修正让"够用的回答"变成"更好的回答"。
让 AI 派出子代理(subagent)独立调查特定问题。本章本身就是这样写的: 一个子代理负责结论汇总,另一个负责附录文本。 把单线程会话里本来必须串行的工作并行化。
显式要求列出认知边界——用来对抗 AI 的过度自信偏差。 上面 Part 1 的"无法确定的部分"清单,就是这种提示的产物。
前几条是提示工程师在对话中直接纠错;中段几条来自 Codex GPT-5.5 的科学审阅; 最后两条是 Claude 自己派出的 web-research / code-running subagent 把自己反驳掉的。
ir_horizon_decode.py:同相脉冲间隔中位 0.511 s = 1.96 Hz / 117 rpm。
那 3 秒是上海技物所红外地平仪的输出,对应 120 rpm 自旋——姿态测量子系统直接从录音里复现,不是科学载荷
除了上面 7 条基础经验,本次分析里有几条更进阶的玩法 (这些不是教科书会写的——是在长会话里逐步摸出来的):
Claude(Anthropic)写主分析,Codex(OpenAI GPT-5.5)做视觉与代码审阅。 两家模型的训练分布不同、错误模式也不同—— Codex 在本次发现了 Claude 没有自己发现的"3 帧样本过拟合"和 "definitive_decode 实际是报告生成器"两条问题。 相当于在一次提示对话里同时获得主笔 + 同行评审。
本次会话几乎全程用英语驱动 Claude——技术词汇精度更高、模型在英语技术语境下推理更紧。 最终再要求它把全部输出"翻译并扩写"成中文博客。 这一招在涉及大量物理 / 工程术语的项目里特别有用: 不要用呈现语言去思考,用模型最强的语言去思考,最后再换语言输出。
当 AI 用了"definitive"、"clearly"、"obviously"、"this proves"这类词, 立刻反过来要求它列举证据强度和替代假设—— 自信的措辞往往出现在证据最弱的地方(因为弱推理需要修辞撑场子)。 本次的"19 路全部识别"就是这样被压回到 ★★★/★★/未知三级的。
每次注入一份新的中文权威材料(航天局清单、胡其正访谈、502 所细节), 都不是为了查到一个事实,而是为了调整 AI 当前的先验分布—— 让它知道哪些关键词、哪些数字、哪些子系统是合理的。 例如"28 天 / 20 天"那次区分,本质是在调整电池模型的先验, 而不是回答"卫星活了多久"。
本次会话用 Claude Opus 4.7 的 1M context 一直没断。 这意味着 30 轮以前的"用户已经否决过这个解释"的事实仍然在前文里—— 新结论需要主动绕过这些已被否决的分支。短上下文模型必须靠总结/记忆系统补救, 长上下文模型可以直接靠原始对话作为历史否决日志。
包括这一节在内的"署名披露"、"方法论局限"、"AI 出错被抓回来的例子" 都是由 AI 自己写的。提示工程师给的指令是"诚实地披露你做了什么、 哪里被纠正了、哪里证据其实很弱"。这种"让 AI 自我审计"的要求, 在 2026 年是构建可信 AI 内容的关键步骤。
Chapter 5(Ch 16 上的 +77 Hz 瞬变事件)写到第三轮时,提示工程师下了一道指令: "派一个 subagent 去搜公开网络,找支持和反对这次事件的证据,并要求引用 URL。" 这不是"再写得详细一点",而是要求 AI 主动去找能证伪自己的信息。
subagent 只用了一次执行就带回三类有用信息:
关键不在于 subagent 工具本身(很多 LLM agent 框架都有),而在于问题的写法: "找证据"会得到 confirmation bias 的输出;"找支持和反对的证据,要 URL" 则强制 AI 触碰自己的盲区。整个 Chapter 5 的"对自己最不利的证据"那个 callout, 就是这次搜索直接拿回来的——而且事先没有任何预设。
Codex 第二轮审阅指出:"2200 Hz 拍频的 484 段 OOK 更可能是 ridge tracker 伪迹"—— 这是一条可计算的反驳,不是"我觉得"。提示工程师没有自己写代码去查, 而是派出一个带 Bash + Python 的 subagent,给它非常具体的任务: "下载 WAV、用 scipy 把 2200 Hz 漂移线混频到基带、取复包络、比较遥测窗口内外的幅度分布、 输出三张图 + 一个 JSON。"
subagent 在大约 6 分钟里写完脚本、跑完,给出明确判决: 包络是单峰对数正态、窗口内外完全一致——是 tracker 伪迹,不是真 OOK。 它甚至顺手发现 ridge 拟合的截距偏高 \(\sim 5\) Hz,给出更准的 2264 Hz 中心频率。
这与 Advanced 07 的 web-research subagent 形成互补: Advanced 07 处理"档案/世界事实"层面的盲区,Advanced 08 处理"我做没做过这个计算"层面的盲区。 工具上都是 Agent,但意图不同——一个查"我不知道什么人/什么文献存在", 一个查"我没把这条 hypothesis 跑数验证过"。 合作模式:让Codex 提出可计算反驳、让 Claude派 subagent 跑数、 让 Claude 主笔把结果写回博客——三步分工,每一步交给最擅长的那一方。
句子、表格、SVG 代码、物理推导、跨校验数学——全部由 AI 写。
准确性、范围、语调、结构选择——由提示工程师在数十轮对话中塑形。
中文表达的流畅度与文化语境——主要来自 AI(Claude),微调来自提示工程师。
这种分工是 2026 年代 AI/人类协作的典型模式:AI 出体量,人类出品味。
所有原始数据、中间产物、脚本、图、博客源码都打包好了:
[tar.gz] dfh1-analysis-bundle.tar.gz
包内文件清单:
decoded_frames_zh.md)授权条款:分析与代码 MIT,原始 mp3 来源请见相应章节脚注。 欢迎复现、二次分析,或在新的录音/材料出现时打补丁。