From 32171d11f3feff842cbc21156a7b15347235a795 Mon Sep 17 00:00:00 2001 From: Fam Zheng Date: Mon, 5 Jan 2026 20:47:19 +0000 Subject: [PATCH] doc: add 11b --- doc/11b.md | 479 ++++++++++++++++++++++++++++++++++ doc/11b_cn.html | 681 ++++++++++++++++++++++++++++++++++++++++++++++++ doc/11b_cn.md | 481 ++++++++++++++++++++++++++++++++++ 3 files changed, 1641 insertions(+) create mode 100644 doc/11b.md create mode 100644 doc/11b_cn.html create mode 100644 doc/11b_cn.md diff --git a/doc/11b.md b/doc/11b.md new file mode 100644 index 0000000..732351e --- /dev/null +++ b/doc/11b.md @@ -0,0 +1,479 @@ +Project 11b - Hardware Specification v0.1 + +## 1. Requirements + +Annual amount of data: 11 billion QR codes, each 50kb - 200kb. +- **Total storage:** 550 TB - 2.2 PB per year +- **Import window:** 1/20 to 1/10 of year (18-36 days) +- **Write throughput:** 3,480 - 6,960 QR codes/sec sustained +- **Data rate during import:** 348 MB/s - 1.39 GB/s sustained +- **Peak burst (3x):** up to 21K QR codes/sec, 4 GB/s + +**Solution: 13 storage + 3 control/compute + 1 import node (JBOD + 3-replica, SINGLE RACK)** +- **Usable capacity:** 2.29 PB (covers ALL 11B QR codes at maximum 200KB size) +- **Raw capacity:** 6.86 PB (24 × 22TB × 13 storage nodes) +- **Aggregate IOPS:** ~1.25M (96K per node × 13, adequate for sequential QR storage) +- **Aggregate throughput:** 39 GB/s read, 19.5 GB/s write (exceeds 1.39 GB/s requirement) +- **Redundancy:** 3x replication (JBOD, software-managed, can tolerate 10 node failures) +- **Hardware (Lenovo + Huawei, RECOMMENDED):** + - 13x Lenovo ThinkSystem SR650 V2 storage nodes (24x 22TB SAS each) + - 3x Lenovo ThinkSystem SR630 V2 control/compute nodes (multi-purpose) + - 1x Lenovo ThinkSystem SR650 V2 import node (front-panel hot-plug: USB/NVMe/SATA/SAS) + - 2x Huawei CloudEngine 6800 switches (48-port 25GbE) +- **Import capability:** 10-32 GB/s physical media import (no internet bottleneck) +- **Cost (China, Lenovo+Huawei):** ¥1,973,000 CapEx (~$274K USD) +- **Note:** UPS excluded (out of project scope). Pricing based on Lenovo China and Huawei public pricing. +- **Fits in:** Single 42U rack (35U used, 7U for expansion) + +## 2. Hardware Configuration + +**Vendor: Lenovo (RECOMMENDED for China deployment)** +- **Servers:** Lenovo ThinkSystem SR650 V2 and SR630 V2 + - Global brand with excellent China presence + - 20-25% cheaper than Dell in China market + - Same Intel Xeon CPUs, enterprise-grade quality + - Public pricing available: ~¥95,000-120,000 per configured node +- **Networking:** Huawei CloudEngine 6800 + - Industry-leading in China market + - Public pricing: ~¥90,000 per 48-port 25GbE switch + - Better integration with China networks (China Telecom/Unicom/Mobile) +- **Management:** Lenovo XClarity Controller (IPMI/Redfish standard) +- **Support:** Lenovo China 4-hour onsite response +- **Drives:** Seagate Exos or WD Ultrastar (assembled in China, no import VAT) + +### 2.1 Rack Layout (SINGLE 42U Standard Rack) + +**Complete Deployment in One Rack (13 storage + 3 control/compute + 1 import node)** + +- **U1-U2:** 2x Huawei CloudEngine 6800-48S-EI switches (48-port 25GbE, redundant, CSS) +- **U3-U4:** 2x Domestic PDUs (20x C13, 4x C19 outlets, 208V 3-phase, A+B feeds) +- **U5-U30:** 13x Storage nodes (2U each, Lenovo ThinkSystem SR650 V2 with 24x 22TB SAS) + - 2.29 PB usable (covers all 11B QR codes at max 200KB size) +- **U31-U33:** 3x Control/Compute nodes (1U each, Lenovo ThinkSystem SR630 V2, multi-purpose) + - Runs: Ingestion workers, API servers, load balancers, control plane + - All services on all 3 nodes for redundancy +- **U34-U35:** 1x Import node (2U, Lenovo ThinkSystem SR650 V2, front-panel hot-plug for physical media) + - USB 3.2 / NVMe / SATA / SAS hot-plug bays + - Direct physical media import (no network bottleneck) +- **U36-U42:** Reserved for future expansion (7U available) + +**Total rack space used: 35U of 42U** + + +### 2.2 Network Design + +**Top-of-Rack Switches:** +- Model: Huawei CloudEngine 6800-48S-EI (RECOMMENDED) + - 48x 25GbE SFP28 ports + 6x 100GbE QSFP28 uplink ports + - 2x redundant PSU (AC/DC) + - 2x redundant fans + - VRP OS (Huawei Versatile Routing Platform) + - Public pricing: ~¥90,000 per switch in China + - Industry-leading in China market, 25% cheaper than Dell +- Configuration: + - CSS (Cluster Switch System) pair for redundancy + - LACP bonding for all server connections (2x25GbE per node) + - VLANs: Management (VLAN10), Storage (VLAN20), API (VLAN30) + - Jumbo frames enabled (MTU 9000) + +**Uplink:** +- 2x 100GbE fiber to core/distribution switches +- ECMP routing for load distribution + +**Cables:** +- DAC (Direct Attach Copper) Twinax for intra-rack (< 5m) +- OM4 MMF or SMF for inter-rack connections + +### 2.3 Power Design + +**Power Requirements (Single Rack - With Import Node: 13 storage + 3 compute + 1 import):** +- Storage nodes: 13 nodes × 500W = 6,500W (HDDs use much less power than NVMe) + - Each HDD: ~10W idle, ~12W active + - 24 HDDs per node: ~300W + - CPU + RAM + fans: ~200W +- Control/Compute nodes: 3 nodes × 600W = 1,800W + - Multi-purpose nodes running all services + - Higher CPU utilization but consolidated +- Import node: 1 node × 700W = 700W + - Higher power due to NVMe staging drives + multiple controllers + - Peak during import operations +- Network switches: 2 switches × 400W = 800W +- **Total: ~9,800W = 9.8 kW** +- **With 30% headroom: 12.7 kW single rack** + +**Power Summary:** +- Storage nodes: 6.5 kW (13 nodes × 500W) +- Control/Compute nodes: 1.8 kW (3 nodes × 600W) +- Import node: 0.7 kW (1 node × 700W) +- Network switches: 0.8 kW (2 switches × 400W) +- **Total: 9.8 kW (12.7 kW with 30% headroom)** + +**PDU Configuration (Single Rack - 13 Storage Nodes):** +- 2x Domestic Metered Rack PDU (redundant feeds, A+B power) + - Input: 208V 3-phase, 30A per PDU + - Capacity: 208V × 30A × 1.732 = 10.8 kVA per PDU (3-phase) + - Total: 21.6 kVA for rack (sufficient for 12.7 kW load with headroom) +- Each server: Dual PSU connected to separate PDUs (A+B feeds) + + +**Cooling (Single Rack - With Import Node, 13 Storage Nodes):** +- Heat dissipation: 12.7 kW × 3.41 = 43,307 BTU/hr (single rack) +- Requirement: Cooling capacity for 43,400 BTU/hr (~3.6 tons) +- Options: + - Use existing IT room CRAC/HVAC (if capacity available) + - Add 1x 20kW in-row cooling unit (¥40,000-50,000) + - Standard precision AC unit (4-5 ton capacity) +- No special containment needed for single rack + +### 2.4 Storage Node Specifications + +**Storage Capacity Planning:** +- Maximum requirement: 2.2 PB per year +- Replication strategy affects raw capacity needs: + - RAID 10 + 2x replication: 4.4 PB raw (complex, dual-layer redundancy) + - JBOD + 3x replication: 6.6 PB raw (simpler, software-only redundancy) + +**Architecture Choice: JBOD vs RAID** + +**JBOD + 3-replica (RECOMMENDED for software simplicity):** +- No RAID controller complexity +- Software handles all redundancy (Ceph, MinIO, etc.) +- Each drive independent, easier failure recovery +- Better performance observability +- Standard approach for distributed storage +- Easier rebalancing and maintenance + +**RAID 10 + 2-replica (traditional approach):** +- Hardware RAID provides local redundancy +- Lower network replication traffic +- Faster local reads (RAID striping) +- More complex failure scenarios (RAID + cluster) +- RAID rebuild overhead on drive failure + +**Storage Node: 13 nodes with 22TB SAS HDD + JBOD + 3-replica (covers all 11B QR codes)** + +**Model: Lenovo ThinkSystem SR650 V2 (2U, 24x 2.5" drive bays)** +**Public pricing: ~¥95,000-105,000 per configured node in China** + +**Per Storage Node:** +- **CPU:** 2x Intel Xeon Silver 4316 (20 cores, 2.3 GHz, 30MB cache) + - Total: 40 cores, 80 threads per node + - Part#: 4XG7A42589 +- **RAM:** 256 GB DDR4-3200 ECC RDIMM (8x 32GB) + - Part#: 4X77A08633 or equivalent +- **Boot:** 2x 480GB SATA SSD (RAID 1, OS) + - Lenovo 2.5" 6Gb SATA SSD +- **Storage:** 24x 22TB SAS HDD 12Gbps 7.2K RPM + - Seagate Exos X22 (ST22000NM00 series) or WD Ultrastar + - Public pricing: ~¥2,800-3,200 per drive (~$390-445) + - JBOD configuration (no RAID, all drives independent) + - Per node: 528 TB raw (24 × 22TB) + - Total cluster: 6.86 PB raw (13 nodes × 528 TB) + - With 3x replication: 2.29 PB usable + - Performance: 4K IOPS per drive, ~96K IOPS per node, 1.5 GB/s per node +- **Network:** 2x Lenovo ThinkSystem Broadcom 57504 25GbE (4-port, bonded) +- **HBA:** Lenovo ThinkSystem 430-8i SAS/SATA 12Gb HBA (pass-through mode) +- **PSU:** 2x 1100W Platinum (redundant, 208V) +- **Rack space:** 13 nodes × 2U = 26U + +### 2.5 Import Node Specifications (1 node, dedicated for physical media import) + +**Model: Lenovo ThinkSystem SR650 V2 (2U, front-accessible hot-plug)** +**Public pricing: ~¥140,000 per configured node** + +**Per Node:** +- **CPU:** 2x Intel Xeon Gold 6338 (32 cores, 2.0 GHz, 48MB cache) + - Total: 64 cores, 128 threads + - High core count for parallel import processing +- **RAM:** 256 GB DDR4-3200 ECC + - Large buffer for staging imported data +- **Boot:** 2x 480GB SATA SSD (RAID 1, OS) +- **Import staging storage:** 4x 7.68TB NVMe (JBOD) + - Total: ~31TB staging buffer + - High-speed local cache before copying to storage cluster +- **Hot-plug bays (front panel):** 12 bays supporting: + - **USB 3.2 Gen 2x2:** 4x front-panel USB-C ports (2.5 GB/s each) + - **NVMe U.2:** 4x hot-swap NVMe bays (up to 8 GB/s per drive) + - **SATA/SAS:** 4x hot-swap 3.5" bays (12 Gbps SAS) +- **Controllers:** + - Lenovo ThinkSystem 430-8i SAS/SATA HBA (pass-through mode) + - PCIe Gen4 NVMe switch + - USB 3.2 Gen 2x2 controller +- **Network:** 2x 25GbE (bonded, LACP) +- **PSU:** 2x 1100W Platinum + +**Import Workflow:** +1. Operator inserts physical media (USB, NVMe, SATA, SAS) into front panel +2. Drive auto-mounts or hot-detects +3. Import software reads data from media → staging NVMe (fast local) +4. Processes/validates QR codes in parallel (32-48 cores) +5. Streams validated data to storage cluster over 25GbE (or 100GbE) +6. Operator removes media when import complete (LED indicator) + +**Performance:** +- **USB 3.2:** 4 ports × 2.5 GB/s = 10 GB/s aggregate +- **NVMe:** 4 drives × 8 GB/s = 32 GB/s aggregate +- **SATA/SAS:** 4 drives × 1.5 GB/s = 6 GB/s aggregate +- **Network:** 2x 25GbE = 6.25 GB/s to storage cluster +- Staging NVMe: 31TB buffer allows offline processing before network transfer + +**Benefits:** +- **No internet/WiFi bottleneck:** Direct physical media import at full speed +- **Parallel import:** Accept up to 12 drives simultaneously +- **Flexible media:** USB, NVMe, SATA, SAS all supported +- **High throughput:** Local staging eliminates network bottleneck during read +- **Operator-friendly:** Front-panel access, LED indicators, hot-plug safe + +### 2.6 Control/Compute Node Specifications (3 nodes, consolidated) + +**Model: Lenovo ThinkSystem SR630 V2 (1U, multi-purpose)** +**Public pricing: ~¥102,000 per configured node** + +**Per Node (runs ALL services):** +- **CPU:** 2x Intel Xeon Gold 6338 (32 cores, 2.0 GHz) + - Total: 64 cores, 128 threads per node + - Sufficient for ingestion + API + control plane + load balancing +- **RAM:** 256 GB DDR4-3200 ECC (8x 32GB) + - Split: 128GB for ingestion, 64GB for API, 64GB for system/control +- **Boot:** 2x 480GB SATA SSD (RAID 1, OS) +- **Local storage:** 2x 3.84TB NVMe + - Ingestion write buffer + API read cache + monitoring data +- **Network:** 2x Lenovo ThinkSystem Broadcom 57504 25GbE (bonded, LACP) +- **PSU:** 2x 800W Platinum + +## 3. Network Topology +``` +Core Switch (100GbE uplink) + ↓ +Rack ToR Switches (Dell VLT pair, 25GbE to servers) + ↓ +Dell Servers (dual-homed, LACP bonded) +``` + +## 4. Cost Estimate (Approximate) + +**Hardware (Single Rack - 13 storage + 3 control/compute + 1 import for FULL 2.29 PB):** +- Storage nodes (13x): $195K +- Control/Compute nodes (3x): $48K +- Import node (1x): $22K +- Network switches (2x): $30K +- Other hardware & infrastructure: $13K +- **Total: $308K CapEx** +- **Note:** UPS excluded (out of project scope) + + +**Power Requirements:** +- **Total rack power:** 9.5kW maximum + - 13x storage nodes @ 400W each = 5.2kW + - 3x control/compute nodes @ 300W each = 0.9kW + - 1x import node @ 500W = 0.5kW + - 2x switches @ 400W each = 0.8kW + - Margin: ~1.6kW reserve +- **PDU requirements:** 2x 5kW PDUs (A+B feeds) +- **Cooling requirement:** ~12kW thermal (9.5kW × 1.3 PUE) + +## 5. Redundancy & High Availability (Single Rack, 13 Storage Nodes) + +- **Storage:** JBOD + 3x replication distributed across 13 Lenovo ThinkSystem SR650 V2 nodes + - **Any 10 storage nodes can fail simultaneously without data loss (77% redundancy)** + - 312 independent drives (24 per node × 13), software-managed + - Single drive failure: automatic rebalancing to other nodes + - No RAID rebuild overhead - software handles recovery + - Drive recovery: ~22TB over 25GbE = ~2 hours (vs days for RAID rebuild) + - Data striped and replicated for parallel I/O + - Minimum 4 nodes needed to maintain data availability (with 3x replication) +- **Control/Compute:** 3 multi-purpose nodes (active-active-active) + - All 3 nodes run: ingestion workers, API servers, load balancers, control plane + - Any 2 of 3 nodes can handle full workload (N+1 redundancy) + - Can lose 1 control/compute node without service interruption + - Load balanced via DNS round-robin or floating VIP (Keepalived) +- **Network:** Huawei VLT/CSS switches, dual-homed servers (2x25GbE bonded) +- **Power:** Dual PSU per server, redundant PDUs (A+B feeds) + +**Expansion Path (if future requirements increase):** +- Year 1: 13 storage + 3 control/compute + 1 import = 2.29 PB usable (covers all 11B QR codes) +- Future expansion: 7U available in rack = up to 3 more 2U storage nodes +- With 16 storage nodes: 2.82 PB usable (23% more capacity) +- Beyond 16 nodes: Would require second rack or higher capacity drives + +## 6. Performance Validation (HDD-based, Single Rack) + +**Target metrics (13 storage nodes):** +- Write throughput: 6,960 QR codes/sec sustained (1.39 GB/s) + - With 3x replication: 4.17 GB/s network write traffic + - HDD capability: 19.5 GB/s aggregate write (13 nodes × 1.5 GB/s) ✓ **EXCELLENT** +- Peak burst: 21,000 QR codes/sec (4.2 GB/s) + - With 3x replication: 12.6 GB/s network write traffic + - HDD capability: 19.5 GB/s aggregate write (peak) ✓ **EXCELLENT** (55% headroom) +- Read latency: < 50ms P99 (with cache) ✓ + - HDD seek: 4-8ms, sequential: fast +- Storage IOPS: 1.25M aggregate (96K per node × 13, 4K per drive) + - Adequate for large sequential QR code writes (50-200 KB each) + - QR codes are large blobs, not small random I/O +- Network throughput: 650 Gbps aggregate (50 Gbps per node × 13) +- Network utilization: < 8% during sustained writes, < 24% during peak burst +- Storage capacity: 2.29 PB usable (6.86 PB raw with 3x replication) + - **Covers ALL 11 billion QR codes at maximum 200KB size** + - 4% buffer above 2.2 PB maximum requirement +- Drive failure recovery: Distributed across all healthy nodes +- Redundancy: Can tolerate up to 10 storage node failures (77% redundancy) + +**HDD Performance Characteristics:** +- Sequential throughput: Excellent (150-250 MB/s per drive) +- Random IOPS: Lower than NVMe (4K IOPS vs 100K+ IOPS) +- QR code workload: Mostly sequential large-blob writes (50-200 KB) +- **Verdict:** HDD is well-suited for this workload (large sequential I/O) + +## 7. Recommended Configuration Summary (13 Storage Nodes for Full Capacity) + +**Configuration: 13 storage + 3 control/compute + 1 import (JBOD + 3-replica, SINGLE RACK)** + +| Metric | Specification | +|--------|---------------| +| **Storage Servers** | 13x Lenovo ThinkSystem SR650 V2 (2U each) | +| **Control/Compute** | 3x Lenovo ThinkSystem SR630 V2 (1U each) | +| **Import Node** | 1x Lenovo ThinkSystem SR650 V2 (2U) | +| **Switches** | 2x Huawei CE6800 (25GbE) | +| **Drives per Storage Node** | 24x 22TB SAS (12Gbps, 7.2K RPM) | +| **Usable Capacity** | **2.29 PB** (covers all 11B QR codes at 200KB max) | +| **Raw Capacity** | 6.86 PB (with 3x replication) | +| **Rack Space** | 35U of 42U (7U expansion available) | +| **Aggregate IOPS** | 1.25M (96K per storage node) | +| **Aggregate Throughput** | 39 GB/s read, 19.5 GB/s write | +| **Power** | 12.7 kW (9.8 kW actual, 30% headroom) | +| **CapEx (China, Lenovo+Huawei)** | ¥1,973,000 (~$274K USD) | +| **Storage Redundancy** | Can lose 10 storage nodes (77% redundancy) | +| **Compute Redundancy** | N+1 (any 2 of 3 nodes) | +| **Import Speed** | 10-32 GB/s (physical media) | +| **Drive Reliability** | SAS enterprise-grade | +| **Expansion** | 7U available = up to 3 more storage nodes | + +**Key Features:** +- ✅ **Full capacity:** 2.29 PB covers ALL 11 billion QR codes at maximum 200KB size +- ✅ **High redundancy:** Can tolerate 10 simultaneous storage node failures +- ✅ **Single rack:** All equipment in one 42U rack (35U used) +- ✅ **Domestic brands:** 20% cheaper than Dell, excellent local support +- ✅ **Physical import:** 10-32 GB/s via USB/NVMe/SATA/SAS hot-plug +- ✅ **Industry-standard:** JBOD + 3-replica architecture + +## 10. Cost Estimate for China Private Datacenter (CNY) + +**Exchange Rate: 1 USD = 7.2 CNY (approximate, January 2026)** + +**Summary for China (13 Storage Nodes, Full Capacity, IT Room):** +- **Recommended:** Lenovo ThinkSystem + Huawei CE6800 +- **CapEx:** ¥1,973,000 (~$274K USD, based on public pricing) +- **Capacity:** 2.29 PB usable (covers ALL 11B QR codes at max 200KB size) +- **Power requirement:** 12.7 kW total (9.8 kW actual + 30% headroom) +- **Import node benefit:** 10-32 GB/s physical media import (USB/NVMe/SATA/SAS) + - Eliminates internet/WiFi bottleneck + - Front-panel hot-plug for operator convenience + - 31TB staging buffer for offline processing + +### China Pricing - Lenovo ThinkSystem + Huawei Configuration + +**Hardware (Lenovo + Huawei - 13 Storage Nodes for 2.29 PB):** +- Storage nodes (13x Lenovo ThinkSystem SR650 V2 with 24x 22TB SAS): ¥1,235,000 + - Base server: ~¥35,000 per node + - 24x 22TB SAS drives @ ¥3,000 each: ¥72,000 per node + - CPU, RAM, HBA upgrades: ~¥23,000 per node + - Total per node: ¥95,000 + - Public pricing reference: Lenovo China website +- Control/Compute nodes (3x Lenovo ThinkSystem SR630 V2): ¥306,000 + - Each node: ¥102,000 (~$14,200) + - Multi-purpose: ingestion + API + load balancing + control +- Import node (1x Lenovo ThinkSystem SR650 V2 with hot-plug): ¥140,000 + - Front-panel USB-C, NVMe U.2, SATA/SAS hot-swap +- Network switches (2x Huawei CloudEngine 6800-48S-EI): ¥180,000 + - Public pricing: ¥90,000 per switch +- PDUs, cabling, misc: ¥64,000 +- **Hardware Subtotal (Lenovo + Huawei): ¥1,925,000** + +**Infrastructure (if not existing in IT room):** +- Rack (42U, domestic): ¥8,000 +- Cooling (1x 20kW in-row, if IT room HVAC insufficient): ¥40,000 +- **Infrastructure Subtotal: ¥48,000** +- **Note:** May be partially/fully available in existing IT room (reduce CapEx accordingly) + +**Total CapEx (13 Storage Nodes for Full 2.29 PB):** +- **With Lenovo + Huawei: ¥1,973,000** (~$274K USD, RECOMMENDED) +- **Note:** UPS excluded (out of project scope). Pricing based on Lenovo China public pricing and Huawei enterprise quotes. + +**Power Requirements (13 Storage Nodes):** +- **Total power:** 12.7 kW + - 13x storage nodes @ 400W each = 5.2 kW + - 3x control/compute nodes @ 500W each = 1.5 kW + - 1x import node @ 600W = 0.6 kW + - 2x switches @ 400W each = 0.8 kW + - Overhead and margin = 4.6 kW +- **Cooling requirement:** 16.5 kW thermal (12.7 kW × 1.3 PUE) +- **Circuit requirement:** 2x 32A 3-phase 208V circuits minimum + +### HDD Sourcing in China + +**Recommended: Locally assembled enterprise drives** +- Seagate Exos X22 22TB (Suzhou facility): ¥2,800-3,200 per drive +- Western Digital Ultrastar DC HC570 22TB (Shanghai/Shenzhen): ¥2,900-3,300 per drive +- Local assembly = no import VAT (save 13%) +- Comes with VAT invoice (增值税发票) for tax deduction +- Same warranty as international versions +- Faster replacement (local stock) + +### Quick Reference: China Pricing Summary (13 Storage Nodes, 2.29 PB) + +| Item | Value | +|------|-------| +| **CapEx** | ¥1,973,000 (~$274K USD) | +| **Capacity** | 2.29 PB usable | +| **Power** | 12.7 kW total | +| **Rack space** | 35U of 42U | + +**Lenovo ThinkSystem SR650 V2 + SR630 V2 + Huawei CE6800** +- Covers ALL 11 billion QR codes at maximum 200KB size +- Import node: 10-32 GB/s physical media import (no network bottleneck) +- UPS excluded (out of project scope) + +**Recommendations for China Deployment (IT Room, 13 Storage Nodes):** +1. **Use Lenovo ThinkSystem + Huawei** - public pricing available, 20% savings vs Dell +2. **IT room requirements (13 storage nodes for full 2.29 PB):** + - Power: 12.7 kW capacity needed (208V 3-phase, 30A × 2 PDUs) + - Cooling: 43,400 BTU/hr heat dissipation (~3.6 tons, 12.7 kW × 3,412 BTU/kW) + - Floor loading: ~1,100 kg total weight (17 servers + switches + rack) + - Operator access for import node (front-panel hot-plug) + - Rack space: 35U of 42U used (7U for future expansion) +3. **Local support contracts** essential (Lenovo + Huawei have excellent China support with 4-hour response) +5. **Bulk purchase discount** - negotiate 10-15% off for large orders +6. **Payment terms:** Net 30-90 common, some vendors offer 6-12 month financing +7. **VAT invoice (增值税发票):** Essential for tax deduction, ensure all vendors provide +8. **Domestic drives:** Buy Seagate/WD from China facilities to avoid import VAT +9. **Network integration:** Plan uplink to existing corporate network + +**Vendor Contact (China):** +- Lenovo: DCG (Data Center Group) - https://www.lenovo.com/cn/zh/data-center (联想数据中心) + - Public pricing on website for ThinkSystem servers + - Contact: 400-100-6000 (China hotline) +- Huawei: Enterprise network division - https://e.huawei.com (华为企业) + - CloudEngine switches require enterprise quote + - Contact local Huawei account manager +- Local integrators: Often 5-10% cheaper than direct (e.g., 神州数码 Digital China) + +## 11. Final Recommendation + +**RECOMMENDED CONFIGURATION: Lenovo ThinkSystem + Huawei in Tier B City** + +**Hardware (13 Storage Nodes for Full 2.29 PB Capacity):** +- **13x Lenovo ThinkSystem SR650 V2** storage nodes (24x 22TB SAS each) = **2.29 PB usable** +- **3x Lenovo ThinkSystem SR630 V2** control/compute nodes (multi-purpose) +- **1x Lenovo ThinkSystem SR650 V2** import node (front-panel hot-plug) +- **2x Huawei CloudEngine 6800-48S-EI** switches (48-port 25GbE) + +**Capacity:** 2.29 PB usable - covers ALL 11 billion QR codes at maximum 200KB size + +**Cost:** +- **CapEx:** ¥1,973,000 (~$274K USD) +- **Note:** UPS excluded (out of project scope). Based on Lenovo China and Huawei public pricing. + +**Power Requirements:** +- **Total:** 12.7 kW (9.8 kW actual + 30% headroom) +- **Cooling:** 43,400 BTU/hr (~3.6 tons) + diff --git a/doc/11b_cn.html b/doc/11b_cn.html new file mode 100644 index 0000000..0711967 --- /dev/null +++ b/doc/11b_cn.html @@ -0,0 +1,681 @@ + + + + + + + 项目 11b - 硬件规格 + + + + +
+

项目 11b - 硬件规格

+
+

项目 11b - 硬件规格 v0.1

+

1. 需求

+

年度数据量:110 亿个二维码,每个 50KB - 200KB。

+ +

解决方案:13 个存储节点 + 3 个控制/计算节点 + 1 个导入节点(JBOD + 3 副本,单机架)

+ +

2. 硬件配置

+

供应商:联想(推荐用于中国部署)

+ +

2.1 机架布局(单个 42U 标准机架)

+

单机架完整部署(13 个存储 + 3 个控制/计算 + 1 个导入节点)

+ +

使用的总机架空间:42U 中的 35U

+

2.2 网络设计

+

机架顶部交换机:

+ +

上行链路:

+ +

线缆:

+ +

2.3 电源设计

+

电源需求(单机架 - 带导入节点:13 个存储 + 3 个计算 + 1 个导入):

+ +

电源摘要:

+ +

PDU 配置(单机架 - 13 个存储节点):

+ +

冷却(单机架 - 带导入节点,13 个存储节点):

+ +

2.4 存储节点规格

+

存储容量规划:

+ +

架构选择:JBOD vs RAID

+

JBOD + 3 副本(推荐,软件简单):

+ +

RAID 10 + 2 副本(传统方法):

+ +

存储节点:13 个节点,22TB SAS HDD + JBOD + 3 副本(覆盖所有 110 亿个二维码)

+

型号:联想 ThinkSystem SR650 V2(2U,24x 2.5" 驱动器插槽) 公开定价:中国每个配置节点约 ¥95,000-105,000

+

每个存储节点:

+ +

2.5 导入节点规格(1 个节点,专用于物理介质导入)

+

型号:联想 ThinkSystem SR650 V2(2U,前面板可访问热插拔) 公开定价:每个配置节点约 ¥140,000

+

每个节点:

+ +

导入工作流程: 1. 操作员将物理介质(USB、NVMe、SATA、SAS)插入前面板 2. 驱动器自动挂载或热检测 3. 导入软件从介质读取数据 → 暂存 NVMe(快速本地) 4. 并行处理/验证二维码(32-48 核) 5. 通过 25GbE(或 100GbE)将验证后的数据流式传输到存储集群 6. 导入完成后操作员移除介质(LED 指示灯)

+

性能:

+ +

优势:

+ +

2.6 控制/计算节点规格(3 个节点,整合)

+

型号:联想 ThinkSystem SR630 V2(1U,多用途) 公开定价:每个配置节点约 ¥102,000

+

每个节点(运行所有服务):

+ +

3. 网络拓扑

+
核心交换机(100GbE 上行链路)
+  ↓
+机架 ToR 交换机(华为 CSS 配对,25GbE 到服务器)
+  ↓
+联想服务器(双归属,LACP 绑定)
+

4. 成本估算(近似)

+

硬件(单机架 - 13 个存储 + 3 个控制/计算 + 1 个导入,完整 2.29 PB):

+ +

电源需求:

+ +

5. 冗余和高可用性(单机架,13 个存储节点)

+ +

扩展路径(如果未来需求增加):

+ +

6. 性能验证(基于 HDD,单机架)

+

目标指标(13 个存储节点):

+ +

HDD 性能特征:

+ +

7. 推荐配置摘要(13 个存储节点,完整容量)

+

配置:13 个存储 + 3 个控制/计算 + 1 个导入(JBOD + 3 副本,单机架)

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
指标规格
存储服务器13x 联想 ThinkSystem SR650 V2(每个 2U)
控制/计算3x 联想 ThinkSystem SR630 V2(每个 1U)
导入节点1x 联想 ThinkSystem SR650 V2(2U)
交换机2x 华为 CE6800(25GbE)
每个存储节点的驱动器24x 22TB SAS(12Gbps,7.2K RPM)
可用容量2.29 PB(覆盖所有 110 亿个二维码,最大 200KB)
原始容量6.86 PB(3 倍复制)
机架空间42U 中的 35U(7U 扩展可用)
聚合 IOPS125 万(每个存储节点 96K)
聚合吞吐量39 GB/s 读取,19.5 GB/s 写入
电源12.7 kW(9.8 kW 实际,30% 余量)
资本支出(中国,联想+华为)¥1,973,000(约 $274K USD)
存储冗余可丢失 10 个存储节点(77% 冗余)
计算冗余N+1(3 个节点中的任何 2 个)
导入速度10-32 GB/s(物理介质)
驱动器可靠性SAS 企业级
扩展7U 可用 = 最多 3 个更多存储节点
+

关键特性:

+ +

10. 中国私有数据中心成本估算(人民币)

+

汇率:1 USD = 7.2 CNY(近似,2026 年 1 月)

+

中国摘要(13 个存储节点,完整容量,IT 机房):

+ +

中国定价 - 联想 ThinkSystem + 华为配置

+

硬件(联想 + 华为 - 13 个存储节点,2.29 PB):

+ +

基础设施(如果 IT 机房不存在):

+ +

总资本支出(13 个存储节点,完整 2.29 PB):

+ +

电源需求(13 个存储节点):

+ +

中国 HDD 采购

+

推荐:本地组装的企业级驱动器

+ +

快速参考:中国定价摘要(13 个存储节点,2.29 PB)

+ + + + + + + + + + + + + + + + + + + + + + + + + +
项目价值
资本支出¥1,973,000(约 $274K USD)
容量2.29 PB 可用
电源总计 12.7 kW
机架空间42U 中的 35U
+

联想 ThinkSystem SR650 V2 + SR630 V2 + 华为 CE6800

+ +

中国部署建议(IT 机房,13 个存储节点): 1. 使用联想 ThinkSystem + 华为 - 公开定价可用,比戴尔节省 20% 2. IT 机房需求(13 个存储节点,完整 2.29 PB): - 电源:需要 12.7 kW 容量(208V 三相,30A × 2 PDU) - 冷却:43,400 BTU/hr 散热(~3.6 吨,12.7 kW × 3,412 BTU/kW) - 地板承重:~1,100 kg 总重量(17 台服务器 + 交换机 + 机架) - 导入节点的操作员访问(前面板热插拔) - 机架空间:使用 42U 中的 35U(7U 用于未来扩展) 3. 本地支持合同 必不可少(联想 + 华为在中国有优秀的支持,4 小时响应) 5. 批量采购折扣 - 大订单协商 10-15% 折扣 6. 付款条件: Net 30-90 常见,一些供应商提供 6-12 个月融资 7. 增值税发票(增值税发票): 税务抵扣必不可少,确保所有供应商提供 8. 国产驱动器: 从中国工厂购买 Seagate/WD 以避免进口增值税 9. 网络集成: 规划到现有企业网络的上行链路

+

供应商联系(中国):

+ +

11. 最终建议

+

推荐配置:联想 ThinkSystem + 华为在二线城市

+

硬件(13 个存储节点,完整 2.29 PB 容量):

+ +

容量: 2.29 PB 可用 - 覆盖所有 110 亿个二维码,最大 200KB 大小

+

成本:

+ +

电源需求:

+ + + diff --git a/doc/11b_cn.md b/doc/11b_cn.md new file mode 100644 index 0000000..b041be5 --- /dev/null +++ b/doc/11b_cn.md @@ -0,0 +1,481 @@ +项目 11b - 硬件规格 v0.1 + +## 1. 需求 + +年度数据量:110 亿个二维码,每个 50KB - 200KB。 +- **总存储量:** 每年 550 TB - 2.2 PB +- **导入窗口:** 年度的 1/20 到 1/10(18-36 天) +- **写入吞吐量:** 持续 3,480 - 6,960 个二维码/秒 +- **导入期间数据速率:** 持续 348 MB/s - 1.39 GB/s +- **峰值突发(3倍):** 最高 21,000 个二维码/秒,4 GB/s + +**解决方案:13 个存储节点 + 3 个控制/计算节点 + 1 个导入节点(JBOD + 3 副本,单机架)** +- **可用容量:** 2.29 PB(覆盖所有 110 亿个二维码,最大 200KB 大小) +- **原始容量:** 6.86 PB(24 × 22TB × 13 个存储节点) +- **聚合 IOPS:** ~125 万(每节点 96K × 13,足以满足顺序二维码存储) +- **聚合吞吐量:** 39 GB/s 读取,19.5 GB/s 写入(超过 1.39 GB/s 需求) +- **冗余:** 3 倍复制(JBOD,软件管理,可容忍 10 个节点故障) +- **硬件(联想 + 华为,推荐):** + - 13x 联想 ThinkSystem SR650 V2 存储节点(每个 24x 22TB SAS) + - 3x 联想 ThinkSystem SR630 V2 控制/计算节点(多用途) + - 1x 联想 ThinkSystem SR650 V2 导入节点(前面板热插拔:USB/NVMe/SATA/SAS) + - 2x 华为 CloudEngine 6800 交换机(48 端口 25GbE) +- **导入能力:** 10-32 GB/s 物理介质导入(无互联网瓶颈) +- **成本(中国,联想+华为):** ¥1,973,000 资本支出(约 $274K USD) +- **注意:** 不包括 UPS(超出项目范围)。价格基于联想中国和华为公开定价。 +- **适合:** 单个 42U 机架(使用 35U,7U 用于扩展) + +## 2. 硬件配置 + +**供应商:联想(推荐用于中国部署)** +- **服务器:** 联想 ThinkSystem SR650 V2 和 SR630 V2 + - 全球品牌,在中国市场表现优异 + - 比戴尔在中国市场便宜 20-25% + - 相同的 Intel Xeon CPU,企业级质量 + - 公开定价:每个配置节点约 ¥95,000-120,000 +- **网络:** 华为 CloudEngine 6800 + - 在中国市场处于行业领先地位 + - 公开定价:每台 48 端口 25GbE 交换机约 ¥90,000 + - 与中国网络(中国电信/联通/移动)集成更好 +- **管理:** 联想 XClarity Controller(IPMI/Redfish 标准) +- **支持:** 联想中国 4 小时现场响应 +- **驱动器:** Seagate Exos 或 WD Ultrastar(中国组装,无进口增值税) + +### 2.1 机架布局(单个 42U 标准机架) + +**单机架完整部署(13 个存储 + 3 个控制/计算 + 1 个导入节点)** + +- **U1-U2:** 2x 华为 CloudEngine 6800-48S-EI 交换机(48 端口 25GbE,冗余,CSS) +- **U3-U4:** 2x 国产 PDU(20x C13,4x C19 插座,208V 三相,A+B 供电) +- **U5-U30:** 13x 存储节点(每个 2U,联想 ThinkSystem SR650 V2,24x 22TB SAS) + - 2.29 PB 可用(覆盖所有 110 亿个二维码,最大 200KB 大小) +- **U31-U33:** 3x 控制/计算节点(每个 1U,联想 ThinkSystem SR630 V2,多用途) + - 运行:摄取工作器、API 服务器、负载均衡器、控制平面 + - 所有服务在所有 3 个节点上运行以实现冗余 +- **U34-U35:** 1x 导入节点(2U,联想 ThinkSystem SR650 V2,前面板热插拔用于物理介质) + - USB 3.2 / NVMe / SATA / SAS 热插拔插槽 + - 直接物理介质导入(无网络瓶颈) +- **U36-U42:** 保留用于未来扩展(7U 可用) + +**使用的总机架空间:42U 中的 35U** + + +### 2.2 网络设计 + +**机架顶部交换机:** +- 型号:华为 CloudEngine 6800-48S-EI(推荐) + - 48x 25GbE SFP28 端口 + 6x 100GbE QSFP28 上行链路端口 + - 2x 冗余 PSU(AC/DC) + - 2x 冗余风扇 + - VRP OS(华为通用路由平台) + - 公开定价:中国每台交换机约 ¥90,000 + - 在中国市场处于行业领先地位,比戴尔便宜 25% +- 配置: + - CSS(集群交换系统)配对以实现冗余 + - 所有服务器连接的 LACP 绑定(每节点 2x25GbE) + - VLAN:管理(VLAN10)、存储(VLAN20)、API(VLAN30) + - 启用巨型帧(MTU 9000) + +**上行链路:** +- 2x 100GbE 光纤到核心/分发交换机 +- ECMP 路由用于负载分发 + +**线缆:** +- DAC(直连铜缆)Twinax 用于机架内(< 5m) +- OM4 MMF 或 SMF 用于机架间连接 + +### 2.3 电源设计 + +**电源需求(单机架 - 带导入节点:13 个存储 + 3 个计算 + 1 个导入):** +- 存储节点:13 个节点 × 500W = 6,500W(HDD 比 NVMe 耗电少得多) + - 每个 HDD:~10W 空闲,~12W 活动 + - 每节点 24 个 HDD:~300W + - CPU + RAM + 风扇:~200W +- 控制/计算节点:3 个节点 × 600W = 1,800W + - 运行所有服务的多用途节点 + - CPU 利用率更高但已整合 +- 导入节点:1 个节点 × 700W = 700W + - 由于 NVMe 暂存驱动器 + 多个控制器而功耗更高 + - 导入操作期间的峰值 +- 网络交换机:2 个交换机 × 400W = 800W +- **总计:~9,800W = 9.8 kW** +- **含 30% 余量:单机架 12.7 kW** + +**电源摘要:** +- 存储节点:6.5 kW(13 个节点 × 500W) +- 控制/计算节点:1.8 kW(3 个节点 × 600W) +- 导入节点:0.7 kW(1 个节点 × 700W) +- 网络交换机:0.8 kW(2 个交换机 × 400W) +- **总计:9.8 kW(含 30% 余量为 12.7 kW)** + +**PDU 配置(单机架 - 13 个存储节点):** +- 2x 国产计量机架 PDU(冗余供电,A+B 电源) + - 输入:208V 三相,每个 PDU 30A + - 容量:208V × 30A × 1.732 = 每个 PDU 10.8 kVA(三相) + - 总计:机架 21.6 kVA(足以满足 12.7 kW 负载,有余量) +- 每个服务器:双 PSU 连接到单独的 PDU(A+B 供电) + + +**冷却(单机架 - 带导入节点,13 个存储节点):** +- 散热:12.7 kW × 3.41 = 43,307 BTU/hr(单机架) +- 需求:43,400 BTU/hr 的冷却容量(~3.6 吨) +- 选项: + - 使用现有 IT 机房 CRAC/HVAC(如果容量可用) + - 添加 1x 20kW 行内冷却单元(¥40,000-50,000) + - 标准精密空调单元(4-5 吨容量) +- 单机架无需特殊围护 + +### 2.4 存储节点规格 + +**存储容量规划:** +- 最大需求:每年 2.2 PB +- 复制策略影响原始容量需求: + - RAID 10 + 2 倍复制:4.4 PB 原始(复杂,双层冗余) + - JBOD + 3 倍复制:6.6 PB 原始(更简单,仅软件冗余) + +**架构选择:JBOD vs RAID** + +**JBOD + 3 副本(推荐,软件简单):** +- 无 RAID 控制器复杂性 +- 软件处理所有冗余(Ceph、MinIO 等) +- 每个驱动器独立,故障恢复更容易 +- 更好的性能可观测性 +- 分布式存储的标准方法 +- 更容易重新平衡和维护 + +**RAID 10 + 2 副本(传统方法):** +- 硬件 RAID 提供本地冗余 +- 更低的网络复制流量 +- 更快的本地读取(RAID 条带化) +- 更复杂的故障场景(RAID + 集群) +- 驱动器故障时的 RAID 重建开销 + +**存储节点:13 个节点,22TB SAS HDD + JBOD + 3 副本(覆盖所有 110 亿个二维码)** + +**型号:联想 ThinkSystem SR650 V2(2U,24x 2.5" 驱动器插槽)** +**公开定价:中国每个配置节点约 ¥95,000-105,000** + +**每个存储节点:** +- **CPU:** 2x Intel Xeon Silver 4316(20 核,2.3 GHz,30MB 缓存) + - 总计:每节点 40 核,80 线程 + - 零件号:4XG7A42589 +- **RAM:** 256 GB DDR4-3200 ECC RDIMM(8x 32GB) + - 零件号:4X77A08633 或同等产品 +- **启动:** 2x 480GB SATA SSD(RAID 1,操作系统) + - 联想 2.5" 6Gb SATA SSD +- **存储:** 24x 22TB SAS HDD 12Gbps 7.2K RPM + - Seagate Exos X22(ST22000NM00 系列)或 WD Ultrastar + - 公开定价:每个驱动器约 ¥2,800-3,200(约 $390-445) + - JBOD 配置(无 RAID,所有驱动器独立) + - 每节点:528 TB 原始(24 × 22TB) + - 总集群:6.86 PB 原始(13 个节点 × 528 TB) + - 3 倍复制:2.29 PB 可用 + - 性能:每驱动器 4K IOPS,每节点 ~96K IOPS,每节点 1.5 GB/s +- **网络:** 2x 联想 ThinkSystem Broadcom 57504 25GbE(4 端口,绑定) +- **HBA:** 联想 ThinkSystem 430-8i SAS/SATA 12Gb HBA(直通模式) +- **PSU:** 2x 1100W 铂金(冗余,208V) +- **机架空间:** 13 个节点 × 2U = 26U + +### 2.5 导入节点规格(1 个节点,专用于物理介质导入) + +**型号:联想 ThinkSystem SR650 V2(2U,前面板可访问热插拔)** +**公开定价:每个配置节点约 ¥140,000** + +**每个节点:** +- **CPU:** 2x Intel Xeon Gold 6338(32 核,2.0 GHz,48MB 缓存) + - 总计:64 核,128 线程 + - 高核数用于并行导入处理 +- **RAM:** 256 GB DDR4-3200 ECC + - 用于暂存导入数据的大缓冲区 +- **启动:** 2x 480GB SATA SSD(RAID 1,操作系统) +- **导入暂存存储:** 4x 7.68TB NVMe(JBOD) + - 总计:~31TB 暂存缓冲区 + - 复制到存储集群之前的高速本地缓存 +- **热插拔插槽(前面板):** 12 个插槽支持: + - **USB 3.2 Gen 2x2:** 4x 前面板 USB-C 端口(每个 2.5 GB/s) + - **NVMe U.2:** 4x 热插拔 NVMe 插槽(每个驱动器最高 8 GB/s) + - **SATA/SAS:** 4x 热插拔 3.5" 插槽(12 Gbps SAS) +- **控制器:** + - 联想 ThinkSystem 430-8i SAS/SATA HBA(直通模式) + - PCIe Gen4 NVMe 交换机 + - USB 3.2 Gen 2x2 控制器 +- **网络:** 2x 25GbE(绑定,LACP) +- **PSU:** 2x 1100W 铂金 + +**导入工作流程:** +1. 操作员将物理介质(USB、NVMe、SATA、SAS)插入前面板 +2. 驱动器自动挂载或热检测 +3. 导入软件从介质读取数据 → 暂存 NVMe(快速本地) +4. 并行处理/验证二维码(32-48 核) +5. 通过 25GbE(或 100GbE)将验证后的数据流式传输到存储集群 +6. 导入完成后操作员移除介质(LED 指示灯) + +**性能:** +- **USB 3.2:** 4 端口 × 2.5 GB/s = 10 GB/s 聚合 +- **NVMe:** 4 驱动器 × 8 GB/s = 32 GB/s 聚合 +- **SATA/SAS:** 4 驱动器 × 1.5 GB/s = 6 GB/s 聚合 +- **网络:** 2x 25GbE = 6.25 GB/s 到存储集群 +- 暂存 NVMe:31TB 缓冲区允许在网络传输之前进行离线处理 + +**优势:** +- **无互联网/WiFi 瓶颈:** 以全速直接物理介质导入 +- **并行导入:** 同时接受最多 12 个驱动器 +- **灵活介质:** 支持 USB、NVMe、SATA、SAS +- **高吞吐量:** 本地暂存消除了读取期间的网络瓶颈 +- **操作员友好:** 前面板访问、LED 指示灯、热插拔安全 + +### 2.6 控制/计算节点规格(3 个节点,整合) + +**型号:联想 ThinkSystem SR630 V2(1U,多用途)** +**公开定价:每个配置节点约 ¥102,000** + +**每个节点(运行所有服务):** +- **CPU:** 2x Intel Xeon Gold 6338(32 核,2.0 GHz) + - 总计:每节点 64 核,128 线程 + - 足以满足摄取 + API + 控制平面 + 负载均衡 +- **RAM:** 256 GB DDR4-3200 ECC(8x 32GB) + - 分配:128GB 用于摄取,64GB 用于 API,64GB 用于系统/控制 +- **启动:** 2x 480GB SATA SSD(RAID 1,操作系统) +- **本地存储:** 2x 3.84TB NVMe + - 摄取写入缓冲区 + API 读取缓存 + 监控数据 +- **网络:** 2x 联想 ThinkSystem Broadcom 57504 25GbE(绑定,LACP) +- **PSU:** 2x 800W 铂金 + +## 3. 网络拓扑 +``` +核心交换机(100GbE 上行链路) + ↓ +机架 ToR 交换机(华为 CSS 配对,25GbE 到服务器) + ↓ +联想服务器(双归属,LACP 绑定) +``` + +## 4. 成本估算(近似) + +**硬件(单机架 - 13 个存储 + 3 个控制/计算 + 1 个导入,完整 2.29 PB):** +- 存储节点(13x):$195K +- 控制/计算节点(3x):$48K +- 导入节点(1x):$22K +- 网络交换机(2x):$30K +- 其他硬件和基础设施:$13K +- **总计:$308K 资本支出** +- **注意:** 不包括 UPS(超出项目范围) + + +**电源需求:** +- **总机架功率:** 最大 9.5kW + - 13x 存储节点 @ 每个 400W = 5.2kW + - 3x 控制/计算节点 @ 每个 300W = 0.9kW + - 1x 导入节点 @ 500W = 0.5kW + - 2x 交换机 @ 每个 400W = 0.8kW + - 余量:~1.6kW 储备 +- **PDU 需求:** 2x 5kW PDU(A+B 供电) +- **冷却需求:** ~12kW 热(9.5kW × 1.3 PUE) + +## 5. 冗余和高可用性(单机架,13 个存储节点) + +- **存储:** JBOD + 3 倍复制分布在 13 个联想 ThinkSystem SR650 V2 节点上 + - **任何 10 个存储节点可同时故障而不会丢失数据(77% 冗余)** + - 312 个独立驱动器(每节点 24 个 × 13),软件管理 + - 单个驱动器故障:自动重新平衡到其他节点 + - 无 RAID 重建开销 - 软件处理恢复 + - 驱动器恢复:~22TB 通过 25GbE = ~2 小时(vs RAID 重建需要数天) + - 数据条带化和复制用于并行 I/O + - 需要最少 4 个节点以维持数据可用性(3 倍复制) +- **控制/计算:** 3 个多用途节点(主动-主动-主动) + - 所有 3 个节点运行:摄取工作器、API 服务器、负载均衡器、控制平面 + - 3 个节点中的任何 2 个可以处理完整工作负载(N+1 冗余) + - 可以丢失 1 个控制/计算节点而不会中断服务 + - 通过 DNS 轮询或浮动 VIP(Keepalived)进行负载均衡 +- **网络:** 华为 VLT/CSS 交换机,双归属服务器(2x25GbE 绑定) +- **电源:** 每个服务器双 PSU,冗余 PDU(A+B 供电) + +**扩展路径(如果未来需求增加):** +- 第 1 年:13 个存储 + 3 个控制/计算 + 1 个导入 = 2.29 PB 可用(覆盖所有 110 亿个二维码) +- 未来扩展:机架中 7U 可用 = 最多 3 个更多 2U 存储节点 +- 16 个存储节点:2.82 PB 可用(容量增加 23%) +- 超过 16 个节点:需要第二个机架或更高容量的驱动器 + +## 6. 性能验证(基于 HDD,单机架) + +**目标指标(13 个存储节点):** +- 写入吞吐量:持续 6,960 个二维码/秒(1.39 GB/s) + - 3 倍复制:4.17 GB/s 网络写入流量 + - HDD 能力:19.5 GB/s 聚合写入(13 个节点 × 1.5 GB/s)✓ **优秀** +- 峰值突发:21,000 个二维码/秒(4.2 GB/s) + - 3 倍复制:12.6 GB/s 网络写入流量 + - HDD 能力:19.5 GB/s 聚合写入(峰值)✓ **优秀**(55% 余量) +- 读取延迟:< 50ms P99(带缓存)✓ + - HDD 寻道:4-8ms,顺序:快速 +- 存储 IOPS:125 万聚合(每节点 96K × 13,每驱动器 4K) + - 足以满足大型顺序二维码写入(每个 50-200 KB) + - 二维码是大块数据,不是小随机 I/O +- 网络吞吐量:650 Gbps 聚合(每节点 50 Gbps × 13) +- 网络利用率:持续写入期间 < 8%,峰值突发期间 < 24% +- 存储容量:2.29 PB 可用(3 倍复制为 6.86 PB 原始) + - **覆盖所有 110 亿个二维码,最大 200KB 大小** + - 比 2.2 PB 最大需求高 4% 的缓冲区 +- 驱动器故障恢复:分布在所有健康节点上 +- 冗余:可容忍最多 10 个存储节点故障(77% 冗余) + +**HDD 性能特征:** +- 顺序吞吐量:优秀(每驱动器 150-250 MB/s) +- 随机 IOPS:低于 NVMe(4K IOPS vs 100K+ IOPS) +- 二维码工作负载:主要是顺序大块写入(50-200 KB) +- **结论:** HDD 非常适合此工作负载(大顺序 I/O) + +## 7. 推荐配置摘要(13 个存储节点,完整容量) + +**配置:13 个存储 + 3 个控制/计算 + 1 个导入(JBOD + 3 副本,单机架)** + +| 指标 | 规格 | +|--------|---------------| +| **存储服务器** | 13x 联想 ThinkSystem SR650 V2(每个 2U)| +| **控制/计算** | 3x 联想 ThinkSystem SR630 V2(每个 1U)| +| **导入节点** | 1x 联想 ThinkSystem SR650 V2(2U)| +| **交换机** | 2x 华为 CE6800(25GbE)| +| **每个存储节点的驱动器** | 24x 22TB SAS(12Gbps,7.2K RPM)| +| **可用容量** | **2.29 PB**(覆盖所有 110 亿个二维码,最大 200KB)| +| **原始容量** | 6.86 PB(3 倍复制)| +| **机架空间** | 42U 中的 35U(7U 扩展可用)| +| **聚合 IOPS** | 125 万(每个存储节点 96K)| +| **聚合吞吐量** | 39 GB/s 读取,19.5 GB/s 写入 | +| **电源** | 12.7 kW(9.8 kW 实际,30% 余量)| +| **资本支出(中国,联想+华为)** | ¥1,973,000(约 $274K USD)| +| **存储冗余** | 可丢失 10 个存储节点(77% 冗余)| +| **计算冗余** | N+1(3 个节点中的任何 2 个)| +| **导入速度** | 10-32 GB/s(物理介质)| +| **驱动器可靠性** | SAS 企业级 | +| **扩展** | 7U 可用 = 最多 3 个更多存储节点 | + +**关键特性:** +- ✅ **完整容量:** 2.29 PB 覆盖所有 110 亿个二维码,最大 200KB 大小 +- ✅ **高冗余:** 可容忍 10 个同时存储节点故障 +- ✅ **单机架:** 所有设备在一个 42U 机架中(使用 35U) +- ✅ **国产品牌:** 比戴尔便宜 20%,优秀的本地支持 +- ✅ **物理导入:** 通过 USB/NVMe/SATA/SAS 热插拔 10-32 GB/s +- ✅ **行业标准:** JBOD + 3 副本架构 + +## 10. 中国私有数据中心成本估算(人民币) + +**汇率:1 USD = 7.2 CNY(近似,2026 年 1 月)** + +**中国摘要(13 个存储节点,完整容量,IT 机房):** +- **推荐:** 联想 ThinkSystem + 华为 CE6800 +- **资本支出:** ¥1,973,000(约 $274K USD,基于公开定价) +- **容量:** 2.29 PB 可用(覆盖所有 110 亿个二维码,最大 200KB 大小) +- **电源需求:** 总计 12.7 kW(9.8 kW 实际 + 30% 余量) +- **导入节点优势:** 10-32 GB/s 物理介质导入(USB/NVMe/SATA/SAS) + - 消除互联网/WiFi 瓶颈 + - 前面板热插拔便于操作员使用 + - 31TB 暂存缓冲区用于离线处理 + +### 中国定价 - 联想 ThinkSystem + 华为配置 + +**硬件(联想 + 华为 - 13 个存储节点,2.29 PB):** +- 存储节点(13x 联想 ThinkSystem SR650 V2,24x 22TB SAS):¥1,235,000 + - 基础服务器:每节点约 ¥35,000 + - 24x 22TB SAS 驱动器 @ 每个 ¥3,000:每节点 ¥72,000 + - CPU、RAM、HBA 升级:每节点约 ¥23,000 + - 每节点总计:¥95,000 + - 公开定价参考:联想中国网站 +- 控制/计算节点(3x 联想 ThinkSystem SR630 V2):¥306,000 + - 每个节点:¥102,000(约 $14,200) + - 多用途:摄取 + API + 负载均衡 + 控制 +- 导入节点(1x 联想 ThinkSystem SR650 V2,带热插拔):¥140,000 + - 前面板 USB-C、NVMe U.2、SATA/SAS 热插拔 +- 网络交换机(2x 华为 CloudEngine 6800-48S-EI):¥180,000 + - 公开定价:每台交换机 ¥90,000 +- PDU、线缆、杂项:¥64,000 +- **硬件小计(联想 + 华为):¥1,925,000** + +**基础设施(如果 IT 机房不存在):** +- 机架(42U,国产):¥8,000 +- 冷却(1x 20kW 行内,如果 IT 机房 HVAC 不足):¥40,000 +- **基础设施小计:¥48,000** +- **注意:** 可能在现有 IT 机房中部分/完全可用(相应减少资本支出) + +**总资本支出(13 个存储节点,完整 2.29 PB):** +- **联想 + 华为:¥1,973,000**(约 $274K USD,推荐) +- **注意:** 不包括 UPS(超出项目范围)。价格基于联想中国公开定价和华为企业报价。 + +**电源需求(13 个存储节点):** +- **总功率:** 12.7 kW + - 13x 存储节点 @ 每个 400W = 5.2 kW + - 3x 控制/计算节点 @ 每个 500W = 1.5 kW + - 1x 导入节点 @ 600W = 0.6 kW + - 2x 交换机 @ 每个 400W = 0.8 kW + - 开销和余量 = 4.6 kW +- **冷却需求:** 16.5 kW 热(12.7 kW × 1.3 PUE) +- **电路需求:** 最少 2x 32A 三相 208V 电路 + +### 中国 HDD 采购 + +**推荐:本地组装的企业级驱动器** +- Seagate Exos X22 22TB(苏州工厂):每个驱动器 ¥2,800-3,200 +- Western Digital Ultrastar DC HC570 22TB(上海/深圳):每个驱动器 ¥2,900-3,300 +- 本地组装 = 无进口增值税(节省 13%) +- 提供增值税发票用于税务抵扣 +- 与国际版本相同的保修 +- 更快的更换(本地库存) + +### 快速参考:中国定价摘要(13 个存储节点,2.29 PB) + +| 项目 | 价值 | +|------|------| +| **资本支出** | ¥1,973,000(约 $274K USD)| +| **容量** | 2.29 PB 可用 | +| **电源** | 总计 12.7 kW | +| **机架空间** | 42U 中的 35U | + +**联想 ThinkSystem SR650 V2 + SR630 V2 + 华为 CE6800** +- 覆盖所有 110 亿个二维码,最大 200KB 大小 +- 导入节点:10-32 GB/s 物理介质导入(无网络瓶颈) +- 不包括 UPS(超出项目范围) + +**中国部署建议(IT 机房,13 个存储节点):** +1. **使用联想 ThinkSystem + 华为** - 公开定价可用,比戴尔节省 20% +2. **IT 机房需求(13 个存储节点,完整 2.29 PB):** + - 电源:需要 12.7 kW 容量(208V 三相,30A × 2 PDU) + - 冷却:43,400 BTU/hr 散热(~3.6 吨,12.7 kW × 3,412 BTU/kW) + - 地板承重:~1,100 kg 总重量(17 台服务器 + 交换机 + 机架) + - 导入节点的操作员访问(前面板热插拔) + - 机架空间:使用 42U 中的 35U(7U 用于未来扩展) +3. **本地支持合同** 必不可少(联想 + 华为在中国有优秀的支持,4 小时响应) +5. **批量采购折扣** - 大订单协商 10-15% 折扣 +6. **付款条件:** Net 30-90 常见,一些供应商提供 6-12 个月融资 +7. **增值税发票(增值税发票):** 税务抵扣必不可少,确保所有供应商提供 +8. **国产驱动器:** 从中国工厂购买 Seagate/WD 以避免进口增值税 +9. **网络集成:** 规划到现有企业网络的上行链路 + +**供应商联系(中国):** +- 联想:DCG(数据中心集团)- https://www.lenovo.com/cn/zh/data-center(联想数据中心) + - ThinkSystem 服务器在网站上有公开定价 + - 联系:400-100-6000(中国热线) +- 华为:企业网络部门 - https://e.huawei.com(华为企业) + - CloudEngine 交换机需要企业报价 + - 联系本地华为客户经理 +- 本地集成商:通常比直接购买便宜 5-10%(例如,神州数码 Digital China) + +## 11. 最终建议 + +**推荐配置:联想 ThinkSystem + 华为在二线城市** + +**硬件(13 个存储节点,完整 2.29 PB 容量):** +- **13x 联想 ThinkSystem SR650 V2** 存储节点(每个 24x 22TB SAS)= **2.29 PB 可用** +- **3x 联想 ThinkSystem SR630 V2** 控制/计算节点(多用途) +- **1x 联想 ThinkSystem SR650 V2** 导入节点(前面板热插拔) +- **2x 华为 CloudEngine 6800-48S-EI** 交换机(48 端口 25GbE) + +**容量:** 2.29 PB 可用 - 覆盖所有 110 亿个二维码,最大 200KB 大小 + +**成本:** +- **资本支出:** ¥1,973,000(约 $274K USD) +- **注意:** 不包括 UPS(超出项目范围)。基于联想中国和华为公开定价。 + +**电源需求:** +- **总计:** 12.7 kW(9.8 kW 实际 + 30% 余量) +- **冷却:** 43,400 BTU/hr(~3.6 吨) + + +