From 62642b805b958de6d17547596ee705a3a9041802 Mon Sep 17 00:00:00 2001
From: mochi <mochi@famzheng.me>
Date: Tue, 5 May 2026 22:25:38 +0100
Subject: [PATCH] doc: prefer ModelScope for Whisper encoder weights (closes
 #4)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

W1 todo 里 audio.py 的 WhisperEncoder 之前写的是从 HF mirror 拉权重，
国内拉 HF（哪怕走 hf-mirror）经常被卡。改成首选 ModelScope（例如
iic/Whisper-large-v3 / iic/Whisper-small），HF mirror 留作 fallback。
infra 决定那条也顺手把 mirror 列表对齐到 pip / 模型权重 / HF 数据集
三条线，写清楚 modelscope 是模型权重首选。
---
 doc/todo.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/doc/todo.md b/doc/todo.md
index 16fcba8..d4fd94c 100644
--- a/doc/todo.md
+++ b/doc/todo.md
@@ -19,7 +19,7 @@
 
 参考 research §1.2 模块图。
 
-- [ ] `nanochat/audio.py`：WhisperEncoder wrapper（冻结，从 HF mirror 拉权重）+ Projector（MLP，输出维度对齐 nanochat `model_dim`）
+- [ ] `nanochat/audio.py`：WhisperEncoder wrapper（冻结，权重优先走 ModelScope，例如 `iic/Whisper-large-v3` / `iic/Whisper-small`；HF mirror 留作 fallback）+ Projector（MLP，输出维度对齐 nanochat `model_dim`）
 - [ ] `nanochat/gpt.py` `GPT.forward()` 加可选 `audio_features` 参数，作为 soft tokens prepend 到 text embedding 前面
 - [ ] mini dataset：1–10 段 5s wav + 字幕，落 `data/audio_smoke/`（git 内不存音频，仅清单 + 下载脚本）
 - [ ] `scripts/audio_align_smoke.py`：50 步、d6 nanochat base、loss 下降即过
@@ -52,7 +52,7 @@
 
 - **backbone**：nanochat 自训 d12 → d20 → d26（不借现成 gemma/qwen，保持 hackable 灵魂）
 - **顺序**：audio 先，vision 排 W7+，多模态输出（TTS/imagegen）不做
-- **infra**：训练 + smoke CI 都跑在 ailab（5090, 32G），CN mirror 走 sjtu/aliyun/hf-mirror
+- **infra**：训练 + smoke CI 都跑在 ailab（5090, 32G）；CN mirror 走 sjtu/aliyun（pip）、modelscope（模型权重，首选）、hf-mirror（HF 数据集 / 权重 fallback）
 - **monorepo fork pattern**：上游 nanochat 的代码就是我们的代码，omni 改动直接进 `nanochat/` 包
 
 ## 暂搁 / 待定