Compare commits

..

2 Commits

Author SHA1 Message Date
fam 9cae824aa5 Merge pull request 'doc: prefer ModelScope for Whisper encoder weights (closes #4)' (#5) from mochi/issue-4 into main
smoke / nanochat-smoke (push) Successful in 32s
Reviewed-on: https://famzheng.me/gitea/fam/nanochat-omni/pulls/5
2026-05-05 21:26:21 +00:00
mochi 62642b805b doc: prefer ModelScope for Whisper encoder weights (closes #4)
smoke / nanochat-smoke (push) Successful in 33s
W1 todo 里 audio.py 的 WhisperEncoder 之前写的是从 HF mirror 拉权重,
国内拉 HF(哪怕走 hf-mirror)经常被卡。改成首选 ModelScope(例如
iic/Whisper-large-v3 / iic/Whisper-small),HF mirror 留作 fallback。
infra 决定那条也顺手把 mirror 列表对齐到 pip / 模型权重 / HF 数据集
三条线,写清楚 modelscope 是模型权重首选。
2026-05-05 22:25:38 +01:00
+2 -2
View File
@@ -19,7 +19,7 @@
参考 research §1.2 模块图。 参考 research §1.2 模块图。
- [ ] `nanochat/audio.py`WhisperEncoder wrapper(冻结,从 HF mirror 拉权重+ ProjectorMLP,输出维度对齐 nanochat `model_dim` - [ ] `nanochat/audio.py`WhisperEncoder wrapper(冻结,权重优先走 ModelScope,例如 `iic/Whisper-large-v3` / `iic/Whisper-small`HF mirror 留作 fallback+ ProjectorMLP,输出维度对齐 nanochat `model_dim`
- [ ] `nanochat/gpt.py` `GPT.forward()` 加可选 `audio_features` 参数,作为 soft tokens prepend 到 text embedding 前面 - [ ] `nanochat/gpt.py` `GPT.forward()` 加可选 `audio_features` 参数,作为 soft tokens prepend 到 text embedding 前面
- [ ] mini dataset110 段 5s wav + 字幕,落 `data/audio_smoke/`(git 内不存音频,仅清单 + 下载脚本) - [ ] mini dataset110 段 5s wav + 字幕,落 `data/audio_smoke/`(git 内不存音频,仅清单 + 下载脚本)
- [ ] `scripts/audio_align_smoke.py`50 步、d6 nanochat base、loss 下降即过 - [ ] `scripts/audio_align_smoke.py`50 步、d6 nanochat base、loss 下降即过
@@ -52,7 +52,7 @@
- **backbone**nanochat 自训 d12 → d20 → d26(不借现成 gemma/qwen,保持 hackable 灵魂) - **backbone**nanochat 自训 d12 → d20 → d26(不借现成 gemma/qwen,保持 hackable 灵魂)
- **顺序**audio 先,vision 排 W7+,多模态输出(TTS/imagegen)不做 - **顺序**audio 先,vision 排 W7+,多模态输出(TTS/imagegen)不做
- **infra**:训练 + smoke CI 都跑在 ailab5090, 32GCN mirror 走 sjtu/aliyun/hf-mirror - **infra**:训练 + smoke CI 都跑在 ailab5090, 32GCN mirror 走 sjtu/aliyunpip)、modelscope(模型权重,首选)、hf-mirrorHF 数据集 / 权重 fallback
- **monorepo fork pattern**:上游 nanochat 的代码就是我们的代码,omni 改动直接进 `nanochat/` - **monorepo fork pattern**:上游 nanochat 的代码就是我们的代码,omni 改动直接进 `nanochat/`
## 暂搁 / 待定 ## 暂搁 / 待定