Compare commits
1 Commits
| Author | SHA1 | Date | |
|---|---|---|---|
| 62642b805b |
+2
-2
@@ -19,7 +19,7 @@
|
|||||||
|
|
||||||
参考 research §1.2 模块图。
|
参考 research §1.2 模块图。
|
||||||
|
|
||||||
- [ ] `nanochat/audio.py`:WhisperEncoder wrapper(冻结,从 HF mirror 拉权重)+ Projector(MLP,输出维度对齐 nanochat `model_dim`)
|
- [ ] `nanochat/audio.py`:WhisperEncoder wrapper(冻结,权重优先走 ModelScope,例如 `iic/Whisper-large-v3` / `iic/Whisper-small`;HF mirror 留作 fallback)+ Projector(MLP,输出维度对齐 nanochat `model_dim`)
|
||||||
- [ ] `nanochat/gpt.py` `GPT.forward()` 加可选 `audio_features` 参数,作为 soft tokens prepend 到 text embedding 前面
|
- [ ] `nanochat/gpt.py` `GPT.forward()` 加可选 `audio_features` 参数,作为 soft tokens prepend 到 text embedding 前面
|
||||||
- [ ] mini dataset:1–10 段 5s wav + 字幕,落 `data/audio_smoke/`(git 内不存音频,仅清单 + 下载脚本)
|
- [ ] mini dataset:1–10 段 5s wav + 字幕,落 `data/audio_smoke/`(git 内不存音频,仅清单 + 下载脚本)
|
||||||
- [ ] `scripts/audio_align_smoke.py`:50 步、d6 nanochat base、loss 下降即过
|
- [ ] `scripts/audio_align_smoke.py`:50 步、d6 nanochat base、loss 下降即过
|
||||||
@@ -52,7 +52,7 @@
|
|||||||
|
|
||||||
- **backbone**:nanochat 自训 d12 → d20 → d26(不借现成 gemma/qwen,保持 hackable 灵魂)
|
- **backbone**:nanochat 自训 d12 → d20 → d26(不借现成 gemma/qwen,保持 hackable 灵魂)
|
||||||
- **顺序**:audio 先,vision 排 W7+,多模态输出(TTS/imagegen)不做
|
- **顺序**:audio 先,vision 排 W7+,多模态输出(TTS/imagegen)不做
|
||||||
- **infra**:训练 + smoke CI 都跑在 ailab(5090, 32G),CN mirror 走 sjtu/aliyun/hf-mirror
|
- **infra**:训练 + smoke CI 都跑在 ailab(5090, 32G);CN mirror 走 sjtu/aliyun(pip)、modelscope(模型权重,首选)、hf-mirror(HF 数据集 / 权重 fallback)
|
||||||
- **monorepo fork pattern**:上游 nanochat 的代码就是我们的代码,omni 改动直接进 `nanochat/` 包
|
- **monorepo fork pattern**:上游 nanochat 的代码就是我们的代码,omni 改动直接进 `nanochat/` 包
|
||||||
|
|
||||||
## 暂搁 / 待定
|
## 暂搁 / 待定
|
||||||
|
|||||||
Reference in New Issue
Block a user