doc: add 11b

This commit is contained in:
Fam Zheng 2026-01-05 20:47:19 +00:00
parent 32380a8082
commit 32171d11f3
3 changed files with 1641 additions and 0 deletions

479
doc/11b.md Normal file
View File

@ -0,0 +1,479 @@
Project 11b - Hardware Specification v0.1
## 1. Requirements
Annual amount of data: 11 billion QR codes, each 50kb - 200kb.
- **Total storage:** 550 TB - 2.2 PB per year
- **Import window:** 1/20 to 1/10 of year (18-36 days)
- **Write throughput:** 3,480 - 6,960 QR codes/sec sustained
- **Data rate during import:** 348 MB/s - 1.39 GB/s sustained
- **Peak burst (3x):** up to 21K QR codes/sec, 4 GB/s
**Solution: 13 storage + 3 control/compute + 1 import node (JBOD + 3-replica, SINGLE RACK)**
- **Usable capacity:** 2.29 PB (covers ALL 11B QR codes at maximum 200KB size)
- **Raw capacity:** 6.86 PB (24 × 22TB × 13 storage nodes)
- **Aggregate IOPS:** ~1.25M (96K per node × 13, adequate for sequential QR storage)
- **Aggregate throughput:** 39 GB/s read, 19.5 GB/s write (exceeds 1.39 GB/s requirement)
- **Redundancy:** 3x replication (JBOD, software-managed, can tolerate 10 node failures)
- **Hardware (Lenovo + Huawei, RECOMMENDED):**
- 13x Lenovo ThinkSystem SR650 V2 storage nodes (24x 22TB SAS each)
- 3x Lenovo ThinkSystem SR630 V2 control/compute nodes (multi-purpose)
- 1x Lenovo ThinkSystem SR650 V2 import node (front-panel hot-plug: USB/NVMe/SATA/SAS)
- 2x Huawei CloudEngine 6800 switches (48-port 25GbE)
- **Import capability:** 10-32 GB/s physical media import (no internet bottleneck)
- **Cost (China, Lenovo+Huawei):** ¥1,973,000 CapEx (~$274K USD)
- **Note:** UPS excluded (out of project scope). Pricing based on Lenovo China and Huawei public pricing.
- **Fits in:** Single 42U rack (35U used, 7U for expansion)
## 2. Hardware Configuration
**Vendor: Lenovo (RECOMMENDED for China deployment)**
- **Servers:** Lenovo ThinkSystem SR650 V2 and SR630 V2
- Global brand with excellent China presence
- 20-25% cheaper than Dell in China market
- Same Intel Xeon CPUs, enterprise-grade quality
- Public pricing available: ~¥95,000-120,000 per configured node
- **Networking:** Huawei CloudEngine 6800
- Industry-leading in China market
- Public pricing: ~¥90,000 per 48-port 25GbE switch
- Better integration with China networks (China Telecom/Unicom/Mobile)
- **Management:** Lenovo XClarity Controller (IPMI/Redfish standard)
- **Support:** Lenovo China 4-hour onsite response
- **Drives:** Seagate Exos or WD Ultrastar (assembled in China, no import VAT)
### 2.1 Rack Layout (SINGLE 42U Standard Rack)
**Complete Deployment in One Rack (13 storage + 3 control/compute + 1 import node)**
- **U1-U2:** 2x Huawei CloudEngine 6800-48S-EI switches (48-port 25GbE, redundant, CSS)
- **U3-U4:** 2x Domestic PDUs (20x C13, 4x C19 outlets, 208V 3-phase, A+B feeds)
- **U5-U30:** 13x Storage nodes (2U each, Lenovo ThinkSystem SR650 V2 with 24x 22TB SAS)
- 2.29 PB usable (covers all 11B QR codes at max 200KB size)
- **U31-U33:** 3x Control/Compute nodes (1U each, Lenovo ThinkSystem SR630 V2, multi-purpose)
- Runs: Ingestion workers, API servers, load balancers, control plane
- All services on all 3 nodes for redundancy
- **U34-U35:** 1x Import node (2U, Lenovo ThinkSystem SR650 V2, front-panel hot-plug for physical media)
- USB 3.2 / NVMe / SATA / SAS hot-plug bays
- Direct physical media import (no network bottleneck)
- **U36-U42:** Reserved for future expansion (7U available)
**Total rack space used: 35U of 42U**
### 2.2 Network Design
**Top-of-Rack Switches:**
- Model: Huawei CloudEngine 6800-48S-EI (RECOMMENDED)
- 48x 25GbE SFP28 ports + 6x 100GbE QSFP28 uplink ports
- 2x redundant PSU (AC/DC)
- 2x redundant fans
- VRP OS (Huawei Versatile Routing Platform)
- Public pricing: ~¥90,000 per switch in China
- Industry-leading in China market, 25% cheaper than Dell
- Configuration:
- CSS (Cluster Switch System) pair for redundancy
- LACP bonding for all server connections (2x25GbE per node)
- VLANs: Management (VLAN10), Storage (VLAN20), API (VLAN30)
- Jumbo frames enabled (MTU 9000)
**Uplink:**
- 2x 100GbE fiber to core/distribution switches
- ECMP routing for load distribution
**Cables:**
- DAC (Direct Attach Copper) Twinax for intra-rack (< 5m)
- OM4 MMF or SMF for inter-rack connections
### 2.3 Power Design
**Power Requirements (Single Rack - With Import Node: 13 storage + 3 compute + 1 import):**
- Storage nodes: 13 nodes × 500W = 6,500W (HDDs use much less power than NVMe)
- Each HDD: ~10W idle, ~12W active
- 24 HDDs per node: ~300W
- CPU + RAM + fans: ~200W
- Control/Compute nodes: 3 nodes × 600W = 1,800W
- Multi-purpose nodes running all services
- Higher CPU utilization but consolidated
- Import node: 1 node × 700W = 700W
- Higher power due to NVMe staging drives + multiple controllers
- Peak during import operations
- Network switches: 2 switches × 400W = 800W
- **Total: ~9,800W = 9.8 kW**
- **With 30% headroom: 12.7 kW single rack**
**Power Summary:**
- Storage nodes: 6.5 kW (13 nodes × 500W)
- Control/Compute nodes: 1.8 kW (3 nodes × 600W)
- Import node: 0.7 kW (1 node × 700W)
- Network switches: 0.8 kW (2 switches × 400W)
- **Total: 9.8 kW (12.7 kW with 30% headroom)**
**PDU Configuration (Single Rack - 13 Storage Nodes):**
- 2x Domestic Metered Rack PDU (redundant feeds, A+B power)
- Input: 208V 3-phase, 30A per PDU
- Capacity: 208V × 30A × 1.732 = 10.8 kVA per PDU (3-phase)
- Total: 21.6 kVA for rack (sufficient for 12.7 kW load with headroom)
- Each server: Dual PSU connected to separate PDUs (A+B feeds)
**Cooling (Single Rack - With Import Node, 13 Storage Nodes):**
- Heat dissipation: 12.7 kW × 3.41 = 43,307 BTU/hr (single rack)
- Requirement: Cooling capacity for 43,400 BTU/hr (~3.6 tons)
- Options:
- Use existing IT room CRAC/HVAC (if capacity available)
- Add 1x 20kW in-row cooling unit (¥40,000-50,000)
- Standard precision AC unit (4-5 ton capacity)
- No special containment needed for single rack
### 2.4 Storage Node Specifications
**Storage Capacity Planning:**
- Maximum requirement: 2.2 PB per year
- Replication strategy affects raw capacity needs:
- RAID 10 + 2x replication: 4.4 PB raw (complex, dual-layer redundancy)
- JBOD + 3x replication: 6.6 PB raw (simpler, software-only redundancy)
**Architecture Choice: JBOD vs RAID**
**JBOD + 3-replica (RECOMMENDED for software simplicity):**
- No RAID controller complexity
- Software handles all redundancy (Ceph, MinIO, etc.)
- Each drive independent, easier failure recovery
- Better performance observability
- Standard approach for distributed storage
- Easier rebalancing and maintenance
**RAID 10 + 2-replica (traditional approach):**
- Hardware RAID provides local redundancy
- Lower network replication traffic
- Faster local reads (RAID striping)
- More complex failure scenarios (RAID + cluster)
- RAID rebuild overhead on drive failure
**Storage Node: 13 nodes with 22TB SAS HDD + JBOD + 3-replica (covers all 11B QR codes)**
**Model: Lenovo ThinkSystem SR650 V2 (2U, 24x 2.5" drive bays)**
**Public pricing: ~¥95,000-105,000 per configured node in China**
**Per Storage Node:**
- **CPU:** 2x Intel Xeon Silver 4316 (20 cores, 2.3 GHz, 30MB cache)
- Total: 40 cores, 80 threads per node
- Part#: 4XG7A42589
- **RAM:** 256 GB DDR4-3200 ECC RDIMM (8x 32GB)
- Part#: 4X77A08633 or equivalent
- **Boot:** 2x 480GB SATA SSD (RAID 1, OS)
- Lenovo 2.5" 6Gb SATA SSD
- **Storage:** 24x 22TB SAS HDD 12Gbps 7.2K RPM
- Seagate Exos X22 (ST22000NM00 series) or WD Ultrastar
- Public pricing: ~¥2,800-3,200 per drive (~$390-445)
- JBOD configuration (no RAID, all drives independent)
- Per node: 528 TB raw (24 × 22TB)
- Total cluster: 6.86 PB raw (13 nodes × 528 TB)
- With 3x replication: 2.29 PB usable
- Performance: 4K IOPS per drive, ~96K IOPS per node, 1.5 GB/s per node
- **Network:** 2x Lenovo ThinkSystem Broadcom 57504 25GbE (4-port, bonded)
- **HBA:** Lenovo ThinkSystem 430-8i SAS/SATA 12Gb HBA (pass-through mode)
- **PSU:** 2x 1100W Platinum (redundant, 208V)
- **Rack space:** 13 nodes × 2U = 26U
### 2.5 Import Node Specifications (1 node, dedicated for physical media import)
**Model: Lenovo ThinkSystem SR650 V2 (2U, front-accessible hot-plug)**
**Public pricing: ~¥140,000 per configured node**
**Per Node:**
- **CPU:** 2x Intel Xeon Gold 6338 (32 cores, 2.0 GHz, 48MB cache)
- Total: 64 cores, 128 threads
- High core count for parallel import processing
- **RAM:** 256 GB DDR4-3200 ECC
- Large buffer for staging imported data
- **Boot:** 2x 480GB SATA SSD (RAID 1, OS)
- **Import staging storage:** 4x 7.68TB NVMe (JBOD)
- Total: ~31TB staging buffer
- High-speed local cache before copying to storage cluster
- **Hot-plug bays (front panel):** 12 bays supporting:
- **USB 3.2 Gen 2x2:** 4x front-panel USB-C ports (2.5 GB/s each)
- **NVMe U.2:** 4x hot-swap NVMe bays (up to 8 GB/s per drive)
- **SATA/SAS:** 4x hot-swap 3.5" bays (12 Gbps SAS)
- **Controllers:**
- Lenovo ThinkSystem 430-8i SAS/SATA HBA (pass-through mode)
- PCIe Gen4 NVMe switch
- USB 3.2 Gen 2x2 controller
- **Network:** 2x 25GbE (bonded, LACP)
- **PSU:** 2x 1100W Platinum
**Import Workflow:**
1. Operator inserts physical media (USB, NVMe, SATA, SAS) into front panel
2. Drive auto-mounts or hot-detects
3. Import software reads data from media → staging NVMe (fast local)
4. Processes/validates QR codes in parallel (32-48 cores)
5. Streams validated data to storage cluster over 25GbE (or 100GbE)
6. Operator removes media when import complete (LED indicator)
**Performance:**
- **USB 3.2:** 4 ports × 2.5 GB/s = 10 GB/s aggregate
- **NVMe:** 4 drives × 8 GB/s = 32 GB/s aggregate
- **SATA/SAS:** 4 drives × 1.5 GB/s = 6 GB/s aggregate
- **Network:** 2x 25GbE = 6.25 GB/s to storage cluster
- Staging NVMe: 31TB buffer allows offline processing before network transfer
**Benefits:**
- **No internet/WiFi bottleneck:** Direct physical media import at full speed
- **Parallel import:** Accept up to 12 drives simultaneously
- **Flexible media:** USB, NVMe, SATA, SAS all supported
- **High throughput:** Local staging eliminates network bottleneck during read
- **Operator-friendly:** Front-panel access, LED indicators, hot-plug safe
### 2.6 Control/Compute Node Specifications (3 nodes, consolidated)
**Model: Lenovo ThinkSystem SR630 V2 (1U, multi-purpose)**
**Public pricing: ~¥102,000 per configured node**
**Per Node (runs ALL services):**
- **CPU:** 2x Intel Xeon Gold 6338 (32 cores, 2.0 GHz)
- Total: 64 cores, 128 threads per node
- Sufficient for ingestion + API + control plane + load balancing
- **RAM:** 256 GB DDR4-3200 ECC (8x 32GB)
- Split: 128GB for ingestion, 64GB for API, 64GB for system/control
- **Boot:** 2x 480GB SATA SSD (RAID 1, OS)
- **Local storage:** 2x 3.84TB NVMe
- Ingestion write buffer + API read cache + monitoring data
- **Network:** 2x Lenovo ThinkSystem Broadcom 57504 25GbE (bonded, LACP)
- **PSU:** 2x 800W Platinum
## 3. Network Topology
```
Core Switch (100GbE uplink)
Rack ToR Switches (Dell VLT pair, 25GbE to servers)
Dell Servers (dual-homed, LACP bonded)
```
## 4. Cost Estimate (Approximate)
**Hardware (Single Rack - 13 storage + 3 control/compute + 1 import for FULL 2.29 PB):**
- Storage nodes (13x): $195K
- Control/Compute nodes (3x): $48K
- Import node (1x): $22K
- Network switches (2x): $30K
- Other hardware & infrastructure: $13K
- **Total: $308K CapEx**
- **Note:** UPS excluded (out of project scope)
**Power Requirements:**
- **Total rack power:** 9.5kW maximum
- 13x storage nodes @ 400W each = 5.2kW
- 3x control/compute nodes @ 300W each = 0.9kW
- 1x import node @ 500W = 0.5kW
- 2x switches @ 400W each = 0.8kW
- Margin: ~1.6kW reserve
- **PDU requirements:** 2x 5kW PDUs (A+B feeds)
- **Cooling requirement:** ~12kW thermal (9.5kW × 1.3 PUE)
## 5. Redundancy & High Availability (Single Rack, 13 Storage Nodes)
- **Storage:** JBOD + 3x replication distributed across 13 Lenovo ThinkSystem SR650 V2 nodes
- **Any 10 storage nodes can fail simultaneously without data loss (77% redundancy)**
- 312 independent drives (24 per node × 13), software-managed
- Single drive failure: automatic rebalancing to other nodes
- No RAID rebuild overhead - software handles recovery
- Drive recovery: ~22TB over 25GbE = ~2 hours (vs days for RAID rebuild)
- Data striped and replicated for parallel I/O
- Minimum 4 nodes needed to maintain data availability (with 3x replication)
- **Control/Compute:** 3 multi-purpose nodes (active-active-active)
- All 3 nodes run: ingestion workers, API servers, load balancers, control plane
- Any 2 of 3 nodes can handle full workload (N+1 redundancy)
- Can lose 1 control/compute node without service interruption
- Load balanced via DNS round-robin or floating VIP (Keepalived)
- **Network:** Huawei VLT/CSS switches, dual-homed servers (2x25GbE bonded)
- **Power:** Dual PSU per server, redundant PDUs (A+B feeds)
**Expansion Path (if future requirements increase):**
- Year 1: 13 storage + 3 control/compute + 1 import = 2.29 PB usable (covers all 11B QR codes)
- Future expansion: 7U available in rack = up to 3 more 2U storage nodes
- With 16 storage nodes: 2.82 PB usable (23% more capacity)
- Beyond 16 nodes: Would require second rack or higher capacity drives
## 6. Performance Validation (HDD-based, Single Rack)
**Target metrics (13 storage nodes):**
- Write throughput: 6,960 QR codes/sec sustained (1.39 GB/s)
- With 3x replication: 4.17 GB/s network write traffic
- HDD capability: 19.5 GB/s aggregate write (13 nodes × 1.5 GB/s) ✓ **EXCELLENT**
- Peak burst: 21,000 QR codes/sec (4.2 GB/s)
- With 3x replication: 12.6 GB/s network write traffic
- HDD capability: 19.5 GB/s aggregate write (peak) ✓ **EXCELLENT** (55% headroom)
- Read latency: < 50ms P99 (with cache)
- HDD seek: 4-8ms, sequential: fast
- Storage IOPS: 1.25M aggregate (96K per node × 13, 4K per drive)
- Adequate for large sequential QR code writes (50-200 KB each)
- QR codes are large blobs, not small random I/O
- Network throughput: 650 Gbps aggregate (50 Gbps per node × 13)
- Network utilization: < 8% during sustained writes, < 24% during peak burst
- Storage capacity: 2.29 PB usable (6.86 PB raw with 3x replication)
- **Covers ALL 11 billion QR codes at maximum 200KB size**
- 4% buffer above 2.2 PB maximum requirement
- Drive failure recovery: Distributed across all healthy nodes
- Redundancy: Can tolerate up to 10 storage node failures (77% redundancy)
**HDD Performance Characteristics:**
- Sequential throughput: Excellent (150-250 MB/s per drive)
- Random IOPS: Lower than NVMe (4K IOPS vs 100K+ IOPS)
- QR code workload: Mostly sequential large-blob writes (50-200 KB)
- **Verdict:** HDD is well-suited for this workload (large sequential I/O)
## 7. Recommended Configuration Summary (13 Storage Nodes for Full Capacity)
**Configuration: 13 storage + 3 control/compute + 1 import (JBOD + 3-replica, SINGLE RACK)**
| Metric | Specification |
|--------|---------------|
| **Storage Servers** | 13x Lenovo ThinkSystem SR650 V2 (2U each) |
| **Control/Compute** | 3x Lenovo ThinkSystem SR630 V2 (1U each) |
| **Import Node** | 1x Lenovo ThinkSystem SR650 V2 (2U) |
| **Switches** | 2x Huawei CE6800 (25GbE) |
| **Drives per Storage Node** | 24x 22TB SAS (12Gbps, 7.2K RPM) |
| **Usable Capacity** | **2.29 PB** (covers all 11B QR codes at 200KB max) |
| **Raw Capacity** | 6.86 PB (with 3x replication) |
| **Rack Space** | 35U of 42U (7U expansion available) |
| **Aggregate IOPS** | 1.25M (96K per storage node) |
| **Aggregate Throughput** | 39 GB/s read, 19.5 GB/s write |
| **Power** | 12.7 kW (9.8 kW actual, 30% headroom) |
| **CapEx (China, Lenovo+Huawei)** | ¥1,973,000 (~$274K USD) |
| **Storage Redundancy** | Can lose 10 storage nodes (77% redundancy) |
| **Compute Redundancy** | N+1 (any 2 of 3 nodes) |
| **Import Speed** | 10-32 GB/s (physical media) |
| **Drive Reliability** | SAS enterprise-grade |
| **Expansion** | 7U available = up to 3 more storage nodes |
**Key Features:**
- ✅ **Full capacity:** 2.29 PB covers ALL 11 billion QR codes at maximum 200KB size
- ✅ **High redundancy:** Can tolerate 10 simultaneous storage node failures
- ✅ **Single rack:** All equipment in one 42U rack (35U used)
- ✅ **Domestic brands:** 20% cheaper than Dell, excellent local support
- ✅ **Physical import:** 10-32 GB/s via USB/NVMe/SATA/SAS hot-plug
- ✅ **Industry-standard:** JBOD + 3-replica architecture
## 10. Cost Estimate for China Private Datacenter (CNY)
**Exchange Rate: 1 USD = 7.2 CNY (approximate, January 2026)**
**Summary for China (13 Storage Nodes, Full Capacity, IT Room):**
- **Recommended:** Lenovo ThinkSystem + Huawei CE6800
- **CapEx:** ¥1,973,000 (~$274K USD, based on public pricing)
- **Capacity:** 2.29 PB usable (covers ALL 11B QR codes at max 200KB size)
- **Power requirement:** 12.7 kW total (9.8 kW actual + 30% headroom)
- **Import node benefit:** 10-32 GB/s physical media import (USB/NVMe/SATA/SAS)
- Eliminates internet/WiFi bottleneck
- Front-panel hot-plug for operator convenience
- 31TB staging buffer for offline processing
### China Pricing - Lenovo ThinkSystem + Huawei Configuration
**Hardware (Lenovo + Huawei - 13 Storage Nodes for 2.29 PB):**
- Storage nodes (13x Lenovo ThinkSystem SR650 V2 with 24x 22TB SAS): ¥1,235,000
- Base server: ~¥35,000 per node
- 24x 22TB SAS drives @ ¥3,000 each: ¥72,000 per node
- CPU, RAM, HBA upgrades: ~¥23,000 per node
- Total per node: ¥95,000
- Public pricing reference: Lenovo China website
- Control/Compute nodes (3x Lenovo ThinkSystem SR630 V2): ¥306,000
- Each node: ¥102,000 (~$14,200)
- Multi-purpose: ingestion + API + load balancing + control
- Import node (1x Lenovo ThinkSystem SR650 V2 with hot-plug): ¥140,000
- Front-panel USB-C, NVMe U.2, SATA/SAS hot-swap
- Network switches (2x Huawei CloudEngine 6800-48S-EI): ¥180,000
- Public pricing: ¥90,000 per switch
- PDUs, cabling, misc: ¥64,000
- **Hardware Subtotal (Lenovo + Huawei): ¥1,925,000**
**Infrastructure (if not existing in IT room):**
- Rack (42U, domestic): ¥8,000
- Cooling (1x 20kW in-row, if IT room HVAC insufficient): ¥40,000
- **Infrastructure Subtotal: ¥48,000**
- **Note:** May be partially/fully available in existing IT room (reduce CapEx accordingly)
**Total CapEx (13 Storage Nodes for Full 2.29 PB):**
- **With Lenovo + Huawei: ¥1,973,000** (~$274K USD, RECOMMENDED)
- **Note:** UPS excluded (out of project scope). Pricing based on Lenovo China public pricing and Huawei enterprise quotes.
**Power Requirements (13 Storage Nodes):**
- **Total power:** 12.7 kW
- 13x storage nodes @ 400W each = 5.2 kW
- 3x control/compute nodes @ 500W each = 1.5 kW
- 1x import node @ 600W = 0.6 kW
- 2x switches @ 400W each = 0.8 kW
- Overhead and margin = 4.6 kW
- **Cooling requirement:** 16.5 kW thermal (12.7 kW × 1.3 PUE)
- **Circuit requirement:** 2x 32A 3-phase 208V circuits minimum
### HDD Sourcing in China
**Recommended: Locally assembled enterprise drives**
- Seagate Exos X22 22TB (Suzhou facility): ¥2,800-3,200 per drive
- Western Digital Ultrastar DC HC570 22TB (Shanghai/Shenzhen): ¥2,900-3,300 per drive
- Local assembly = no import VAT (save 13%)
- Comes with VAT invoice (增值税发票) for tax deduction
- Same warranty as international versions
- Faster replacement (local stock)
### Quick Reference: China Pricing Summary (13 Storage Nodes, 2.29 PB)
| Item | Value |
|------|-------|
| **CapEx** | ¥1,973,000 (~$274K USD) |
| **Capacity** | 2.29 PB usable |
| **Power** | 12.7 kW total |
| **Rack space** | 35U of 42U |
**Lenovo ThinkSystem SR650 V2 + SR630 V2 + Huawei CE6800**
- Covers ALL 11 billion QR codes at maximum 200KB size
- Import node: 10-32 GB/s physical media import (no network bottleneck)
- UPS excluded (out of project scope)
**Recommendations for China Deployment (IT Room, 13 Storage Nodes):**
1. **Use Lenovo ThinkSystem + Huawei** - public pricing available, 20% savings vs Dell
2. **IT room requirements (13 storage nodes for full 2.29 PB):**
- Power: 12.7 kW capacity needed (208V 3-phase, 30A × 2 PDUs)
- Cooling: 43,400 BTU/hr heat dissipation (~3.6 tons, 12.7 kW × 3,412 BTU/kW)
- Floor loading: ~1,100 kg total weight (17 servers + switches + rack)
- Operator access for import node (front-panel hot-plug)
- Rack space: 35U of 42U used (7U for future expansion)
3. **Local support contracts** essential (Lenovo + Huawei have excellent China support with 4-hour response)
5. **Bulk purchase discount** - negotiate 10-15% off for large orders
6. **Payment terms:** Net 30-90 common, some vendors offer 6-12 month financing
7. **VAT invoice (增值税发票):** Essential for tax deduction, ensure all vendors provide
8. **Domestic drives:** Buy Seagate/WD from China facilities to avoid import VAT
9. **Network integration:** Plan uplink to existing corporate network
**Vendor Contact (China):**
- Lenovo: DCG (Data Center Group) - https://www.lenovo.com/cn/zh/data-center (联想数据中心)
- Public pricing on website for ThinkSystem servers
- Contact: 400-100-6000 (China hotline)
- Huawei: Enterprise network division - https://e.huawei.com (华为企业)
- CloudEngine switches require enterprise quote
- Contact local Huawei account manager
- Local integrators: Often 5-10% cheaper than direct (e.g., 神州数码 Digital China)
## 11. Final Recommendation
**RECOMMENDED CONFIGURATION: Lenovo ThinkSystem + Huawei in Tier B City**
**Hardware (13 Storage Nodes for Full 2.29 PB Capacity):**
- **13x Lenovo ThinkSystem SR650 V2** storage nodes (24x 22TB SAS each) = **2.29 PB usable**
- **3x Lenovo ThinkSystem SR630 V2** control/compute nodes (multi-purpose)
- **1x Lenovo ThinkSystem SR650 V2** import node (front-panel hot-plug)
- **2x Huawei CloudEngine 6800-48S-EI** switches (48-port 25GbE)
**Capacity:** 2.29 PB usable - covers ALL 11 billion QR codes at maximum 200KB size
**Cost:**
- **CapEx:** ¥1,973,000 (~$274K USD)
- **Note:** UPS excluded (out of project scope). Based on Lenovo China and Huawei public pricing.
**Power Requirements:**
- **Total:** 12.7 kW (9.8 kW actual + 30% headroom)
- **Cooling:** 43,400 BTU/hr (~3.6 tons)

681
doc/11b_cn.html Normal file
View File

@ -0,0 +1,681 @@
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="" xml:lang="">
<head>
<meta charset="utf-8" />
<meta name="generator" content="pandoc" />
<meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=yes" />
<title>项目 11b - 硬件规格</title>
<style>
code{white-space: pre-wrap;}
span.smallcaps{font-variant: small-caps;}
span.underline{text-decoration: underline;}
div.column{display: inline-block; vertical-align: top; width: 50%;}
div.hanging-indent{margin-left: 1.5em; text-indent: -1.5em;}
ul.task-list{list-style: none;}
</style>
<style>
body {
font-family: Arial, sans-serif;
max-width: 1200px;
margin: 0 auto;
padding: 20px;
line-height: 1.6;
}
table {
border-collapse: collapse;
width: 100%;
margin: 20px 0;
}
th, td {
border: 1px solid #ddd;
padding: 8px;
text-align: left;
}
th {
background-color: #f2f2f2;
}
code {
background-color: #f5f5f5;
padding: 2px 4px;
border-radius: 3px;
}
pre {
background-color: #f5f5f5;
padding: 10px;
border-radius: 5px;
overflow-x: auto;
}
ul, ol {
margin: 10px 0;
padding-left: 30px;
}
li {
margin: 5px 0;
}
</style>
</head>
<body>
<header id="title-block-header">
<h1 class="title">项目 11b - 硬件规格</h1>
</header>
<p>项目 11b - 硬件规格 v0.1</p>
<h2 id="需求">1. 需求</h2>
<p>年度数据量110 亿个二维码,每个 50KB - 200KB。</p>
<ul>
<li><p><strong>总存储量:</strong> 每年 550 TB - 2.2 PB</p></li>
<li><p><strong>导入窗口:</strong> 年度的 1/20 到 1/1018-36 天)</p></li>
<li><p><strong>写入吞吐量:</strong> 持续 3,480 - 6,960 个二维码/秒</p></li>
<li><p><strong>导入期间数据速率:</strong> 持续 348 MB/s - 1.39 GB/s</p></li>
<li><p><strong>峰值突发3倍</strong> 最高 21,000 个二维码/秒4 GB/s</p></li>
</ul>
<p><strong>解决方案13 个存储节点 + 3 个控制/计算节点 + 1 个导入节点JBOD + 3 副本,单机架)</strong></p>
<ul>
<li><p><strong>可用容量:</strong> 2.29 PB覆盖所有 110 亿个二维码,最大 200KB 大小)</p></li>
<li><p><strong>原始容量:</strong> 6.86 PB24 × 22TB × 13 个存储节点)</p></li>
<li><p><strong>聚合 IOPS</strong> ~125 万(每节点 96K × 13足以满足顺序二维码存储</p></li>
<li><p><strong>聚合吞吐量:</strong> 39 GB/s 读取19.5 GB/s 写入(超过 1.39 GB/s 需求)</p></li>
<li><p><strong>冗余:</strong> 3 倍复制JBOD软件管理可容忍 10 个节点故障)</p></li>
<li><p><strong>硬件(联想 + 华为,推荐):</strong></p>
<ul>
<li><p>13x 联想 ThinkSystem SR650 V2 存储节点(每个 24x 22TB SAS</p></li>
<li><p>3x 联想 ThinkSystem SR630 V2 控制/计算节点(多用途)</p></li>
<li><p>1x 联想 ThinkSystem SR650 V2 导入节点前面板热插拔USB/NVMe/SATA/SAS</p></li>
<li><p>2x 华为 CloudEngine 6800 交换机48 端口 25GbE</p></li>
</ul></li>
<li><p><strong>导入能力:</strong> 10-32 GB/s 物理介质导入(无互联网瓶颈)</p></li>
<li><p><strong>成本(中国,联想+华为):</strong> ¥1,973,000 资本支出(约 $274K USD</p></li>
<li><p><strong>注意:</strong> 不包括 UPS超出项目范围。价格基于联想中国和华为公开定价。</p></li>
<li><p><strong>适合:</strong> 单个 42U 机架(使用 35U7U 用于扩展)</p></li>
</ul>
<h2 id="硬件配置">2. 硬件配置</h2>
<p><strong>供应商:联想(推荐用于中国部署)</strong></p>
<ul>
<li><p><strong>服务器:</strong> 联想 ThinkSystem SR650 V2 和 SR630 V2</p>
<ul>
<li><p>全球品牌,在中国市场表现优异</p></li>
<li><p>比戴尔在中国市场便宜 20-25%</p></li>
<li><p>相同的 Intel Xeon CPU企业级质量</p></li>
<li><p>公开定价:每个配置节点约 ¥95,000-120,000</p></li>
</ul></li>
<li><p><strong>网络:</strong> 华为 CloudEngine 6800</p>
<ul>
<li><p>在中国市场处于行业领先地位</p></li>
<li><p>公开定价:每台 48 端口 25GbE 交换机约 ¥90,000</p></li>
<li><p>与中国网络(中国电信/联通/移动)集成更好</p></li>
</ul></li>
<li><p><strong>管理:</strong> 联想 XClarity ControllerIPMI/Redfish 标准)</p></li>
<li><p><strong>支持:</strong> 联想中国 4 小时现场响应</p></li>
<li><p><strong>驱动器:</strong> Seagate Exos 或 WD Ultrastar中国组装无进口增值税</p></li>
</ul>
<h3 id="机架布局单个-42u-标准机架">2.1 机架布局(单个 42U 标准机架)</h3>
<p><strong>单机架完整部署13 个存储 + 3 个控制/计算 + 1 个导入节点)</strong></p>
<ul>
<li><p><strong>U1-U2</strong> 2x 华为 CloudEngine 6800-48S-EI 交换机48 端口 25GbE冗余CSS</p></li>
<li><p><strong>U3-U4</strong> 2x 国产 PDU20x C134x C19 插座208V 三相A+B 供电)</p></li>
<li><p><strong>U5-U30</strong> 13x 存储节点(每个 2U联想 ThinkSystem SR650 V224x 22TB SAS</p>
<ul>
<li>2.29 PB 可用(覆盖所有 110 亿个二维码,最大 200KB 大小)</li>
</ul></li>
<li><p><strong>U31-U33</strong> 3x 控制/计算节点(每个 1U联想 ThinkSystem SR630 V2多用途</p>
<ul>
<li><p>运行摄取工作器、API 服务器、负载均衡器、控制平面</p></li>
<li><p>所有服务在所有 3 个节点上运行以实现冗余</p></li>
</ul></li>
<li><p><strong>U34-U35</strong> 1x 导入节点2U联想 ThinkSystem SR650 V2前面板热插拔用于物理介质</p>
<ul>
<li><p>USB 3.2 / NVMe / SATA / SAS 热插拔插槽</p></li>
<li><p>直接物理介质导入(无网络瓶颈)</p></li>
</ul></li>
<li><p><strong>U36-U42</strong> 保留用于未来扩展7U 可用)</p></li>
</ul>
<p><strong>使用的总机架空间42U 中的 35U</strong></p>
<h3 id="网络设计">2.2 网络设计</h3>
<p><strong>机架顶部交换机:</strong></p>
<ul>
<li><p>型号:华为 CloudEngine 6800-48S-EI推荐</p>
<ul>
<li><p>48x 25GbE SFP28 端口 + 6x 100GbE QSFP28 上行链路端口</p></li>
<li><p>2x 冗余 PSUAC/DC</p></li>
<li><p>2x 冗余风扇</p></li>
<li><p>VRP OS华为通用路由平台</p></li>
<li><p>公开定价:中国每台交换机约 ¥90,000</p></li>
<li><p>在中国市场处于行业领先地位,比戴尔便宜 25%</p></li>
</ul></li>
<li><p>配置:</p>
<ul>
<li><p>CSS集群交换系统配对以实现冗余</p></li>
<li><p>所有服务器连接的 LACP 绑定(每节点 2x25GbE</p></li>
<li><p>VLAN管理VLAN10、存储VLAN20、APIVLAN30</p></li>
<li><p>启用巨型帧MTU 9000</p></li>
</ul></li>
</ul>
<p><strong>上行链路:</strong></p>
<ul>
<li><p>2x 100GbE 光纤到核心/分发交换机</p></li>
<li><p>ECMP 路由用于负载分发</p></li>
</ul>
<p><strong>线缆:</strong></p>
<ul>
<li><p>DAC直连铜缆Twinax 用于机架内(&lt; 5m</p></li>
<li><p>OM4 MMF 或 SMF 用于机架间连接</p></li>
</ul>
<h3 id="电源设计">2.3 电源设计</h3>
<p><strong>电源需求(单机架 - 带导入节点13 个存储 + 3 个计算 + 1 个导入):</strong></p>
<ul>
<li><p>存储节点13 个节点 × 500W = 6,500WHDD 比 NVMe 耗电少得多)</p>
<ul>
<li><p>每个 HDD~10W 空闲,~12W 活动</p></li>
<li><p>每节点 24 个 HDD~300W</p></li>
<li><p>CPU + RAM + 风扇:~200W</p></li>
</ul></li>
<li><p>控制/计算节点3 个节点 × 600W = 1,800W</p>
<ul>
<li><p>运行所有服务的多用途节点</p></li>
<li><p>CPU 利用率更高但已整合</p></li>
</ul></li>
<li><p>导入节点1 个节点 × 700W = 700W</p>
<ul>
<li><p>由于 NVMe 暂存驱动器 + 多个控制器而功耗更高</p></li>
<li><p>导入操作期间的峰值</p></li>
</ul></li>
<li><p>网络交换机2 个交换机 × 400W = 800W</p></li>
<li><p><strong>总计:~9,800W = 9.8 kW</strong></p></li>
<li><p><strong>含 30% 余量:单机架 12.7 kW</strong></p></li>
</ul>
<p><strong>电源摘要:</strong></p>
<ul>
<li><p>存储节点6.5 kW13 个节点 × 500W</p></li>
<li><p>控制/计算节点1.8 kW3 个节点 × 600W</p></li>
<li><p>导入节点0.7 kW1 个节点 × 700W</p></li>
<li><p>网络交换机0.8 kW2 个交换机 × 400W</p></li>
<li><p><strong>总计9.8 kW含 30% 余量为 12.7 kW</strong></p></li>
</ul>
<p><strong>PDU 配置(单机架 - 13 个存储节点):</strong></p>
<ul>
<li><p>2x 国产计量机架 PDU冗余供电A+B 电源)</p>
<ul>
<li><p>输入208V 三相,每个 PDU 30A</p></li>
<li><p>容量208V × 30A × 1.732 = 每个 PDU 10.8 kVA三相</p></li>
<li><p>总计:机架 21.6 kVA足以满足 12.7 kW 负载,有余量)</p></li>
</ul></li>
<li><p>每个服务器:双 PSU 连接到单独的 PDUA+B 供电)</p></li>
</ul>
<p><strong>冷却(单机架 - 带导入节点13 个存储节点):</strong></p>
<ul>
<li><p>散热12.7 kW × 3.41 = 43,307 BTU/hr单机架</p></li>
<li><p>需求43,400 BTU/hr 的冷却容量(~3.6 吨)</p></li>
<li><p>选项:</p>
<ul>
<li><p>使用现有 IT 机房 CRAC/HVAC如果容量可用</p></li>
<li><p>添加 1x 20kW 行内冷却单元¥40,000-50,000</p></li>
<li><p>标准精密空调单元4-5 吨容量)</p></li>
</ul></li>
<li><p>单机架无需特殊围护</p></li>
</ul>
<h3 id="存储节点规格">2.4 存储节点规格</h3>
<p><strong>存储容量规划:</strong></p>
<ul>
<li><p>最大需求:每年 2.2 PB</p></li>
<li><p>复制策略影响原始容量需求:</p>
<ul>
<li><p>RAID 10 + 2 倍复制4.4 PB 原始(复杂,双层冗余)</p></li>
<li><p>JBOD + 3 倍复制6.6 PB 原始(更简单,仅软件冗余)</p></li>
</ul></li>
</ul>
<p><strong>架构选择JBOD vs RAID</strong></p>
<p><strong>JBOD + 3 副本(推荐,软件简单):</strong></p>
<ul>
<li><p>无 RAID 控制器复杂性</p></li>
<li><p>软件处理所有冗余Ceph、MinIO 等)</p></li>
<li><p>每个驱动器独立,故障恢复更容易</p></li>
<li><p>更好的性能可观测性</p></li>
<li><p>分布式存储的标准方法</p></li>
<li><p>更容易重新平衡和维护</p></li>
</ul>
<p><strong>RAID 10 + 2 副本(传统方法):</strong></p>
<ul>
<li><p>硬件 RAID 提供本地冗余</p></li>
<li><p>更低的网络复制流量</p></li>
<li><p>更快的本地读取RAID 条带化)</p></li>
<li><p>更复杂的故障场景RAID + 集群)</p></li>
<li><p>驱动器故障时的 RAID 重建开销</p></li>
</ul>
<p><strong>存储节点13 个节点22TB SAS HDD + JBOD + 3 副本(覆盖所有 110 亿个二维码)</strong></p>
<p><strong>型号:联想 ThinkSystem SR650 V22U24x 2.5" 驱动器插槽)</strong> <strong>公开定价:中国每个配置节点约 ¥95,000-105,000</strong></p>
<p><strong>每个存储节点:</strong></p>
<ul>
<li><p><strong>CPU</strong> 2x Intel Xeon Silver 431620 核2.3 GHz30MB 缓存)</p>
<ul>
<li><p>总计:每节点 40 核80 线程</p></li>
<li><p>零件号4XG7A42589</p></li>
</ul></li>
<li><p><strong>RAM</strong> 256 GB DDR4-3200 ECC RDIMM8x 32GB</p>
<ul>
<li>零件号4X77A08633 或同等产品</li>
</ul></li>
<li><p><strong>启动:</strong> 2x 480GB SATA SSDRAID 1操作系统</p>
<ul>
<li>联想 2.5" 6Gb SATA SSD</li>
</ul></li>
<li><p><strong>存储:</strong> 24x 22TB SAS HDD 12Gbps 7.2K RPM</p>
<ul>
<li><p>Seagate Exos X22ST22000NM00 系列)或 WD Ultrastar</p></li>
<li><p>公开定价:每个驱动器约 ¥2,800-3,200约 $390-445</p></li>
<li><p>JBOD 配置(无 RAID所有驱动器独立</p></li>
<li><p>每节点528 TB 原始24 × 22TB</p></li>
<li><p>总集群6.86 PB 原始13 个节点 × 528 TB</p></li>
<li><p>3 倍复制2.29 PB 可用</p></li>
<li><p>性能:每驱动器 4K IOPS每节点 ~96K IOPS每节点 1.5 GB/s</p></li>
</ul></li>
<li><p><strong>网络:</strong> 2x 联想 ThinkSystem Broadcom 57504 25GbE4 端口,绑定)</p></li>
<li><p><strong>HBA</strong> 联想 ThinkSystem 430-8i SAS/SATA 12Gb HBA直通模式</p></li>
<li><p><strong>PSU</strong> 2x 1100W 铂金冗余208V</p></li>
<li><p><strong>机架空间:</strong> 13 个节点 × 2U = 26U</p></li>
</ul>
<h3 id="导入节点规格1-个节点专用于物理介质导入">2.5 导入节点规格1 个节点,专用于物理介质导入)</h3>
<p><strong>型号:联想 ThinkSystem SR650 V22U前面板可访问热插拔</strong> <strong>公开定价:每个配置节点约 ¥140,000</strong></p>
<p><strong>每个节点:</strong></p>
<ul>
<li><p><strong>CPU</strong> 2x Intel Xeon Gold 633832 核2.0 GHz48MB 缓存)</p>
<ul>
<li><p>总计64 核128 线程</p></li>
<li><p>高核数用于并行导入处理</p></li>
</ul></li>
<li><p><strong>RAM</strong> 256 GB DDR4-3200 ECC</p>
<ul>
<li>用于暂存导入数据的大缓冲区</li>
</ul></li>
<li><p><strong>启动:</strong> 2x 480GB SATA SSDRAID 1操作系统</p></li>
<li><p><strong>导入暂存存储:</strong> 4x 7.68TB NVMeJBOD</p>
<ul>
<li><p>总计:~31TB 暂存缓冲区</p></li>
<li><p>复制到存储集群之前的高速本地缓存</p></li>
</ul></li>
<li><p><strong>热插拔插槽(前面板):</strong> 12 个插槽支持:</p>
<ul>
<li><p><strong>USB 3.2 Gen 2x2</strong> 4x 前面板 USB-C 端口(每个 2.5 GB/s</p></li>
<li><p><strong>NVMe U.2</strong> 4x 热插拔 NVMe 插槽(每个驱动器最高 8 GB/s</p></li>
<li><p><strong>SATA/SAS</strong> 4x 热插拔 3.5" 插槽12 Gbps SAS</p></li>
</ul></li>
<li><p><strong>控制器:</strong></p>
<ul>
<li><p>联想 ThinkSystem 430-8i SAS/SATA HBA直通模式</p></li>
<li><p>PCIe Gen4 NVMe 交换机</p></li>
<li><p>USB 3.2 Gen 2x2 控制器</p></li>
</ul></li>
<li><p><strong>网络:</strong> 2x 25GbE绑定LACP</p></li>
<li><p><strong>PSU</strong> 2x 1100W 铂金</p></li>
</ul>
<p><strong>导入工作流程:</strong> 1. 操作员将物理介质USB、NVMe、SATA、SAS插入前面板 2. 驱动器自动挂载或热检测 3. 导入软件从介质读取数据 → 暂存 NVMe快速本地 4. 并行处理/验证二维码32-48 核) 5. 通过 25GbE或 100GbE将验证后的数据流式传输到存储集群 6. 导入完成后操作员移除介质LED 指示灯)</p>
<p><strong>性能:</strong></p>
<ul>
<li><p><strong>USB 3.2</strong> 4 端口 × 2.5 GB/s = 10 GB/s 聚合</p></li>
<li><p><strong>NVMe</strong> 4 驱动器 × 8 GB/s = 32 GB/s 聚合</p></li>
<li><p><strong>SATA/SAS</strong> 4 驱动器 × 1.5 GB/s = 6 GB/s 聚合</p></li>
<li><p><strong>网络:</strong> 2x 25GbE = 6.25 GB/s 到存储集群</p></li>
<li><p>暂存 NVMe31TB 缓冲区允许在网络传输之前进行离线处理</p></li>
</ul>
<p><strong>优势:</strong></p>
<ul>
<li><p><strong>无互联网/WiFi 瓶颈:</strong> 以全速直接物理介质导入</p></li>
<li><p><strong>并行导入:</strong> 同时接受最多 12 个驱动器</p></li>
<li><p><strong>灵活介质:</strong> 支持 USB、NVMe、SATA、SAS</p></li>
<li><p><strong>高吞吐量:</strong> 本地暂存消除了读取期间的网络瓶颈</p></li>
<li><p><strong>操作员友好:</strong> 前面板访问、LED 指示灯、热插拔安全</p></li>
</ul>
<h3 id="控制计算节点规格3-个节点整合">2.6 控制/计算节点规格3 个节点,整合)</h3>
<p><strong>型号:联想 ThinkSystem SR630 V21U多用途</strong> <strong>公开定价:每个配置节点约 ¥102,000</strong></p>
<p><strong>每个节点(运行所有服务):</strong></p>
<ul>
<li><p><strong>CPU</strong> 2x Intel Xeon Gold 633832 核2.0 GHz</p>
<ul>
<li><p>总计:每节点 64 核128 线程</p></li>
<li><p>足以满足摄取 + API + 控制平面 + 负载均衡</p></li>
</ul></li>
<li><p><strong>RAM</strong> 256 GB DDR4-3200 ECC8x 32GB</p>
<ul>
<li>分配128GB 用于摄取64GB 用于 API64GB 用于系统/控制</li>
</ul></li>
<li><p><strong>启动:</strong> 2x 480GB SATA SSDRAID 1操作系统</p></li>
<li><p><strong>本地存储:</strong> 2x 3.84TB NVMe</p>
<ul>
<li>摄取写入缓冲区 + API 读取缓存 + 监控数据</li>
</ul></li>
<li><p><strong>网络:</strong> 2x 联想 ThinkSystem Broadcom 57504 25GbE绑定LACP</p></li>
<li><p><strong>PSU</strong> 2x 800W 铂金</p></li>
</ul>
<h2 id="网络拓扑">3. 网络拓扑</h2>
<pre><code>核心交换机100GbE 上行链路)
机架 ToR 交换机(华为 CSS 配对25GbE 到服务器)
联想服务器双归属LACP 绑定)</code></pre>
<h2 id="成本估算近似">4. 成本估算(近似)</h2>
<p><strong>硬件(单机架 - 13 个存储 + 3 个控制/计算 + 1 个导入,完整 2.29 PB</strong></p>
<ul>
<li><p>存储节点13x$195K</p></li>
<li><p>控制/计算节点3x$48K</p></li>
<li><p>导入节点1x$22K</p></li>
<li><p>网络交换机2x$30K</p></li>
<li><p>其他硬件和基础设施:$13K</p></li>
<li><p><strong>总计:$308K 资本支出</strong></p></li>
<li><p><strong>注意:</strong> 不包括 UPS超出项目范围</p></li>
</ul>
<p><strong>电源需求:</strong></p>
<ul>
<li><p><strong>总机架功率:</strong> 最大 9.5kW</p>
<ul>
<li><p>13x 存储节点 @ 每个 400W = 5.2kW</p></li>
<li><p>3x 控制/计算节点 @ 每个 300W = 0.9kW</p></li>
<li><p>1x 导入节点 @ 500W = 0.5kW</p></li>
<li><p>2x 交换机 @ 每个 400W = 0.8kW</p></li>
<li><p>余量:~1.6kW 储备</p></li>
</ul></li>
<li><p><strong>PDU 需求:</strong> 2x 5kW PDUA+B 供电)</p></li>
<li><p><strong>冷却需求:</strong> ~12kW 热9.5kW × 1.3 PUE</p></li>
</ul>
<h2 id="冗余和高可用性单机架13-个存储节点">5. 冗余和高可用性单机架13 个存储节点)</h2>
<ul>
<li><p><strong>存储:</strong> JBOD + 3 倍复制分布在 13 个联想 ThinkSystem SR650 V2 节点上</p>
<ul>
<li><p><strong>任何 10 个存储节点可同时故障而不会丢失数据77% 冗余)</strong></p></li>
<li><p>312 个独立驱动器(每节点 24 个 × 13软件管理</p></li>
<li><p>单个驱动器故障:自动重新平衡到其他节点</p></li>
<li><p>无 RAID 重建开销 - 软件处理恢复</p></li>
<li><p>驱动器恢复:~22TB 通过 25GbE = ~2 小时vs RAID 重建需要数天)</p></li>
<li><p>数据条带化和复制用于并行 I/O</p></li>
<li><p>需要最少 4 个节点以维持数据可用性3 倍复制)</p></li>
</ul></li>
<li><p><strong>控制/计算:</strong> 3 个多用途节点(主动-主动-主动)</p>
<ul>
<li><p>所有 3 个节点运行摄取工作器、API 服务器、负载均衡器、控制平面</p></li>
<li><p>3 个节点中的任何 2 个可以处理完整工作负载N+1 冗余)</p></li>
<li><p>可以丢失 1 个控制/计算节点而不会中断服务</p></li>
<li><p>通过 DNS 轮询或浮动 VIPKeepalived进行负载均衡</p></li>
</ul></li>
<li><p><strong>网络:</strong> 华为 VLT/CSS 交换机双归属服务器2x25GbE 绑定)</p></li>
<li><p><strong>电源:</strong> 每个服务器双 PSU冗余 PDUA+B 供电)</p></li>
</ul>
<p><strong>扩展路径(如果未来需求增加):</strong></p>
<ul>
<li><p>第 1 年13 个存储 + 3 个控制/计算 + 1 个导入 = 2.29 PB 可用(覆盖所有 110 亿个二维码)</p></li>
<li><p>未来扩展:机架中 7U 可用 = 最多 3 个更多 2U 存储节点</p></li>
<li><p>16 个存储节点2.82 PB 可用(容量增加 23%</p></li>
<li><p>超过 16 个节点:需要第二个机架或更高容量的驱动器</p></li>
</ul>
<h2 id="性能验证基于-hdd单机架">6. 性能验证(基于 HDD单机架</h2>
<p><strong>目标指标13 个存储节点):</strong></p>
<ul>
<li><p>写入吞吐量:持续 6,960 个二维码/秒1.39 GB/s</p>
<ul>
<li><p>3 倍复制4.17 GB/s 网络写入流量</p></li>
<li><p>HDD 能力19.5 GB/s 聚合写入13 个节点 × 1.5 GB/s<strong>优秀</strong></p></li>
</ul></li>
<li><p>峰值突发21,000 个二维码/秒4.2 GB/s</p>
<ul>
<li><p>3 倍复制12.6 GB/s 网络写入流量</p></li>
<li><p>HDD 能力19.5 GB/s 聚合写入(峰值)✓ <strong>优秀</strong>55% 余量)</p></li>
</ul></li>
<li><p>读取延迟:&lt; 50ms P99带缓存</p>
<ul>
<li>HDD 寻道4-8ms顺序快速</li>
</ul></li>
<li><p>存储 IOPS125 万聚合(每节点 96K × 13每驱动器 4K</p>
<ul>
<li><p>足以满足大型顺序二维码写入(每个 50-200 KB</p></li>
<li><p>二维码是大块数据,不是小随机 I/O</p></li>
</ul></li>
<li><p>网络吞吐量650 Gbps 聚合(每节点 50 Gbps × 13</p></li>
<li><p>网络利用率:持续写入期间 &lt; 8%,峰值突发期间 &lt; 24%</p></li>
<li><p>存储容量2.29 PB 可用3 倍复制为 6.86 PB 原始)</p>
<ul>
<li><p><strong>覆盖所有 110 亿个二维码,最大 200KB 大小</strong></p></li>
<li><p>比 2.2 PB 最大需求高 4% 的缓冲区</p></li>
</ul></li>
<li><p>驱动器故障恢复:分布在所有健康节点上</p></li>
<li><p>冗余:可容忍最多 10 个存储节点故障77% 冗余)</p></li>
</ul>
<p><strong>HDD 性能特征:</strong></p>
<ul>
<li><p>顺序吞吐量:优秀(每驱动器 150-250 MB/s</p></li>
<li><p>随机 IOPS低于 NVMe4K IOPS vs 100K+ IOPS</p></li>
<li><p>二维码工作负载主要是顺序大块写入50-200 KB</p></li>
<li><p><strong>结论:</strong> HDD 非常适合此工作负载(大顺序 I/O</p></li>
</ul>
<h2 id="推荐配置摘要13-个存储节点完整容量">7. 推荐配置摘要13 个存储节点,完整容量)</h2>
<p><strong>配置13 个存储 + 3 个控制/计算 + 1 个导入JBOD + 3 副本,单机架)</strong></p>
<table>
<thead>
<tr class="header">
<th>指标</th>
<th>规格</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>存储服务器</strong></td>
<td>13x 联想 ThinkSystem SR650 V2每个 2U</td>
</tr>
<tr class="even">
<td><strong>控制/计算</strong></td>
<td>3x 联想 ThinkSystem SR630 V2每个 1U</td>
</tr>
<tr class="odd">
<td><strong>导入节点</strong></td>
<td>1x 联想 ThinkSystem SR650 V22U</td>
</tr>
<tr class="even">
<td><strong>交换机</strong></td>
<td>2x 华为 CE680025GbE</td>
</tr>
<tr class="odd">
<td><strong>每个存储节点的驱动器</strong></td>
<td>24x 22TB SAS12Gbps7.2K RPM</td>
</tr>
<tr class="even">
<td><strong>可用容量</strong></td>
<td><strong>2.29 PB</strong>(覆盖所有 110 亿个二维码,最大 200KB</td>
</tr>
<tr class="odd">
<td><strong>原始容量</strong></td>
<td>6.86 PB3 倍复制)</td>
</tr>
<tr class="even">
<td><strong>机架空间</strong></td>
<td>42U 中的 35U7U 扩展可用)</td>
</tr>
<tr class="odd">
<td><strong>聚合 IOPS</strong></td>
<td>125 万(每个存储节点 96K</td>
</tr>
<tr class="even">
<td><strong>聚合吞吐量</strong></td>
<td>39 GB/s 读取19.5 GB/s 写入</td>
</tr>
<tr class="odd">
<td><strong>电源</strong></td>
<td>12.7 kW9.8 kW 实际30% 余量)</td>
</tr>
<tr class="even">
<td><strong>资本支出(中国,联想+华为)</strong></td>
<td>¥1,973,000约 $274K USD</td>
</tr>
<tr class="odd">
<td><strong>存储冗余</strong></td>
<td>可丢失 10 个存储节点77% 冗余)</td>
</tr>
<tr class="even">
<td><strong>计算冗余</strong></td>
<td>N+13 个节点中的任何 2 个)</td>
</tr>
<tr class="odd">
<td><strong>导入速度</strong></td>
<td>10-32 GB/s物理介质</td>
</tr>
<tr class="even">
<td><strong>驱动器可靠性</strong></td>
<td>SAS 企业级</td>
</tr>
<tr class="odd">
<td><strong>扩展</strong></td>
<td>7U 可用 = 最多 3 个更多存储节点</td>
</tr>
</tbody>
</table>
<p><strong>关键特性:</strong></p>
<ul>
<li><p><strong>完整容量:</strong> 2.29 PB 覆盖所有 110 亿个二维码,最大 200KB 大小</p></li>
<li><p><strong>高冗余:</strong> 可容忍 10 个同时存储节点故障</p></li>
<li><p><strong>单机架:</strong> 所有设备在一个 42U 机架中(使用 35U</p></li>
<li><p><strong>国产品牌:</strong> 比戴尔便宜 20%,优秀的本地支持</p></li>
<li><p><strong>物理导入:</strong> 通过 USB/NVMe/SATA/SAS 热插拔 10-32 GB/s</p></li>
<li><p><strong>行业标准:</strong> JBOD + 3 副本架构</p></li>
</ul>
<h2 id="中国私有数据中心成本估算人民币">10. 中国私有数据中心成本估算(人民币)</h2>
<p><strong>汇率1 USD = 7.2 CNY近似2026 年 1 月)</strong></p>
<p><strong>中国摘要13 个存储节点完整容量IT 机房):</strong></p>
<ul>
<li><p><strong>推荐:</strong> 联想 ThinkSystem + 华为 CE6800</p></li>
<li><p><strong>资本支出:</strong> ¥1,973,000约 $274K USD基于公开定价</p></li>
<li><p><strong>容量:</strong> 2.29 PB 可用(覆盖所有 110 亿个二维码,最大 200KB 大小)</p></li>
<li><p><strong>电源需求:</strong> 总计 12.7 kW9.8 kW 实际 + 30% 余量)</p></li>
<li><p><strong>导入节点优势:</strong> 10-32 GB/s 物理介质导入USB/NVMe/SATA/SAS</p>
<ul>
<li><p>消除互联网/WiFi 瓶颈</p></li>
<li><p>前面板热插拔便于操作员使用</p></li>
<li><p>31TB 暂存缓冲区用于离线处理</p></li>
</ul></li>
</ul>
<h3 id="中国定价---联想-thinksystem-华为配置">中国定价 - 联想 ThinkSystem + 华为配置</h3>
<p><strong>硬件(联想 + 华为 - 13 个存储节点2.29 PB</strong></p>
<ul>
<li><p>存储节点13x 联想 ThinkSystem SR650 V224x 22TB SAS¥1,235,000</p>
<ul>
<li><p>基础服务器:每节点约 ¥35,000</p></li>
<li><p>24x 22TB SAS 驱动器 @ 每个 ¥3,000每节点 ¥72,000</p></li>
<li><p>CPU、RAM、HBA 升级:每节点约 ¥23,000</p></li>
<li><p>每节点总计¥95,000</p></li>
<li><p>公开定价参考:联想中国网站</p></li>
</ul></li>
<li><p>控制/计算节点3x 联想 ThinkSystem SR630 V2¥306,000</p>
<ul>
<li><p>每个节点¥102,000约 $14,200</p></li>
<li><p>多用途:摄取 + API + 负载均衡 + 控制</p></li>
</ul></li>
<li><p>导入节点1x 联想 ThinkSystem SR650 V2带热插拔¥140,000</p>
<ul>
<li>前面板 USB-C、NVMe U.2、SATA/SAS 热插拔</li>
</ul></li>
<li><p>网络交换机2x 华为 CloudEngine 6800-48S-EI¥180,000</p>
<ul>
<li>公开定价:每台交换机 ¥90,000</li>
</ul></li>
<li><p>PDU、线缆、杂项¥64,000</p></li>
<li><p><strong>硬件小计(联想 + 华为¥1,925,000</strong></p></li>
</ul>
<p><strong>基础设施(如果 IT 机房不存在):</strong></p>
<ul>
<li><p>机架42U国产¥8,000</p></li>
<li><p>冷却1x 20kW 行内,如果 IT 机房 HVAC 不足¥40,000</p></li>
<li><p><strong>基础设施小计¥48,000</strong></p></li>
<li><p><strong>注意:</strong> 可能在现有 IT 机房中部分/完全可用(相应减少资本支出)</p></li>
</ul>
<p><strong>总资本支出13 个存储节点,完整 2.29 PB</strong></p>
<ul>
<li><p><strong>联想 + 华为¥1,973,000</strong>(约 $274K USD推荐</p></li>
<li><p><strong>注意:</strong> 不包括 UPS超出项目范围。价格基于联想中国公开定价和华为企业报价。</p></li>
</ul>
<p><strong>电源需求13 个存储节点):</strong></p>
<ul>
<li><p><strong>总功率:</strong> 12.7 kW</p>
<ul>
<li><p>13x 存储节点 @ 每个 400W = 5.2 kW</p></li>
<li><p>3x 控制/计算节点 @ 每个 500W = 1.5 kW</p></li>
<li><p>1x 导入节点 @ 600W = 0.6 kW</p></li>
<li><p>2x 交换机 @ 每个 400W = 0.8 kW</p></li>
<li><p>开销和余量 = 4.6 kW</p></li>
</ul></li>
<li><p><strong>冷却需求:</strong> 16.5 kW 热12.7 kW × 1.3 PUE</p></li>
<li><p><strong>电路需求:</strong> 最少 2x 32A 三相 208V 电路</p></li>
</ul>
<h3 id="中国-hdd-采购">中国 HDD 采购</h3>
<p><strong>推荐:本地组装的企业级驱动器</strong></p>
<ul>
<li><p>Seagate Exos X22 22TB苏州工厂每个驱动器 ¥2,800-3,200</p></li>
<li><p>Western Digital Ultrastar DC HC570 22TB上海/深圳):每个驱动器 ¥2,900-3,300</p></li>
<li><p>本地组装 = 无进口增值税(节省 13%</p></li>
<li><p>提供增值税发票用于税务抵扣</p></li>
<li><p>与国际版本相同的保修</p></li>
<li><p>更快的更换(本地库存)</p></li>
</ul>
<h3 id="快速参考中国定价摘要13-个存储节点2.29-pb">快速参考中国定价摘要13 个存储节点2.29 PB</h3>
<table>
<thead>
<tr class="header">
<th>项目</th>
<th>价值</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>资本支出</strong></td>
<td>¥1,973,000约 $274K USD</td>
</tr>
<tr class="even">
<td><strong>容量</strong></td>
<td>2.29 PB 可用</td>
</tr>
<tr class="odd">
<td><strong>电源</strong></td>
<td>总计 12.7 kW</td>
</tr>
<tr class="even">
<td><strong>机架空间</strong></td>
<td>42U 中的 35U</td>
</tr>
</tbody>
</table>
<p><strong>联想 ThinkSystem SR650 V2 + SR630 V2 + 华为 CE6800</strong></p>
<ul>
<li><p>覆盖所有 110 亿个二维码,最大 200KB 大小</p></li>
<li><p>导入节点10-32 GB/s 物理介质导入(无网络瓶颈)</p></li>
<li><p>不包括 UPS超出项目范围</p></li>
</ul>
<p><strong>中国部署建议IT 机房13 个存储节点):</strong> 1. <strong>使用联想 ThinkSystem + 华为</strong> - 公开定价可用,比戴尔节省 20% 2. <strong>IT 机房需求13 个存储节点,完整 2.29 PB</strong> - 电源:需要 12.7 kW 容量208V 三相30A × 2 PDU - 冷却43,400 BTU/hr 散热(~3.6 吨12.7 kW × 3,412 BTU/kW - 地板承重:~1,100 kg 总重量17 台服务器 + 交换机 + 机架) - 导入节点的操作员访问(前面板热插拔) - 机架空间:使用 42U 中的 35U7U 用于未来扩展) 3. <strong>本地支持合同</strong> 必不可少(联想 + 华为在中国有优秀的支持4 小时响应) 5. <strong>批量采购折扣</strong> - 大订单协商 10-15% 折扣 6. <strong>付款条件:</strong> Net 30-90 常见,一些供应商提供 6-12 个月融资 7. <strong>增值税发票(增值税发票):</strong> 税务抵扣必不可少,确保所有供应商提供 8. <strong>国产驱动器:</strong> 从中国工厂购买 Seagate/WD 以避免进口增值税 9. <strong>网络集成:</strong> 规划到现有企业网络的上行链路</p>
<p><strong>供应商联系(中国):</strong></p>
<ul>
<li><p>联想DCG数据中心集团- https://www.lenovo.com/cn/zh/data-center联想数据中心</p>
<ul>
<li><p>ThinkSystem 服务器在网站上有公开定价</p></li>
<li><p>联系400-100-6000中国热线</p></li>
</ul></li>
<li><p>华为:企业网络部门 - https://e.huawei.com华为企业</p>
<ul>
<li><p>CloudEngine 交换机需要企业报价</p></li>
<li><p>联系本地华为客户经理</p></li>
</ul></li>
<li><p>本地集成商:通常比直接购买便宜 5-10%(例如,神州数码 Digital China</p></li>
</ul>
<h2 id="最终建议">11. 最终建议</h2>
<p><strong>推荐配置:联想 ThinkSystem + 华为在二线城市</strong></p>
<p><strong>硬件13 个存储节点,完整 2.29 PB 容量):</strong></p>
<ul>
<li><p><strong>13x 联想 ThinkSystem SR650 V2</strong> 存储节点(每个 24x 22TB SAS= <strong>2.29 PB 可用</strong></p></li>
<li><p><strong>3x 联想 ThinkSystem SR630 V2</strong> 控制/计算节点(多用途)</p></li>
<li><p><strong>1x 联想 ThinkSystem SR650 V2</strong> 导入节点(前面板热插拔)</p></li>
<li><p><strong>2x 华为 CloudEngine 6800-48S-EI</strong> 交换机48 端口 25GbE</p></li>
</ul>
<p><strong>容量:</strong> 2.29 PB 可用 - 覆盖所有 110 亿个二维码,最大 200KB 大小</p>
<p><strong>成本:</strong></p>
<ul>
<li><p><strong>资本支出:</strong> ¥1,973,000约 $274K USD</p></li>
<li><p><strong>注意:</strong> 不包括 UPS超出项目范围。基于联想中国和华为公开定价。</p></li>
</ul>
<p><strong>电源需求:</strong></p>
<ul>
<li><p><strong>总计:</strong> 12.7 kW9.8 kW 实际 + 30% 余量)</p></li>
<li><p><strong>冷却:</strong> 43,400 BTU/hr~3.6 吨)</p></li>
</ul>
</body>
</html>

481
doc/11b_cn.md Normal file
View File

@ -0,0 +1,481 @@
项目 11b - 硬件规格 v0.1
## 1. 需求
年度数据量110 亿个二维码,每个 50KB - 200KB。
- **总存储量:** 每年 550 TB - 2.2 PB
- **导入窗口:** 年度的 1/20 到 1/1018-36 天)
- **写入吞吐量:** 持续 3,480 - 6,960 个二维码/秒
- **导入期间数据速率:** 持续 348 MB/s - 1.39 GB/s
- **峰值突发3倍** 最高 21,000 个二维码/秒4 GB/s
**解决方案13 个存储节点 + 3 个控制/计算节点 + 1 个导入节点JBOD + 3 副本,单机架)**
- **可用容量:** 2.29 PB覆盖所有 110 亿个二维码,最大 200KB 大小)
- **原始容量:** 6.86 PB24 × 22TB × 13 个存储节点)
- **聚合 IOPS** ~125 万(每节点 96K × 13足以满足顺序二维码存储
- **聚合吞吐量:** 39 GB/s 读取19.5 GB/s 写入(超过 1.39 GB/s 需求)
- **冗余:** 3 倍复制JBOD软件管理可容忍 10 个节点故障)
- **硬件(联想 + 华为,推荐):**
- 13x 联想 ThinkSystem SR650 V2 存储节点(每个 24x 22TB SAS
- 3x 联想 ThinkSystem SR630 V2 控制/计算节点(多用途)
- 1x 联想 ThinkSystem SR650 V2 导入节点前面板热插拔USB/NVMe/SATA/SAS
- 2x 华为 CloudEngine 6800 交换机48 端口 25GbE
- **导入能力:** 10-32 GB/s 物理介质导入(无互联网瓶颈)
- **成本(中国,联想+华为):** ¥1,973,000 资本支出(约 $274K USD
- **注意:** 不包括 UPS超出项目范围。价格基于联想中国和华为公开定价。
- **适合:** 单个 42U 机架(使用 35U7U 用于扩展)
## 2. 硬件配置
**供应商:联想(推荐用于中国部署)**
- **服务器:** 联想 ThinkSystem SR650 V2 和 SR630 V2
- 全球品牌,在中国市场表现优异
- 比戴尔在中国市场便宜 20-25%
- 相同的 Intel Xeon CPU企业级质量
- 公开定价:每个配置节点约 ¥95,000-120,000
- **网络:** 华为 CloudEngine 6800
- 在中国市场处于行业领先地位
- 公开定价:每台 48 端口 25GbE 交换机约 ¥90,000
- 与中国网络(中国电信/联通/移动)集成更好
- **管理:** 联想 XClarity ControllerIPMI/Redfish 标准)
- **支持:** 联想中国 4 小时现场响应
- **驱动器:** Seagate Exos 或 WD Ultrastar中国组装无进口增值税
### 2.1 机架布局(单个 42U 标准机架)
**单机架完整部署13 个存储 + 3 个控制/计算 + 1 个导入节点)**
- **U1-U2** 2x 华为 CloudEngine 6800-48S-EI 交换机48 端口 25GbE冗余CSS
- **U3-U4** 2x 国产 PDU20x C134x C19 插座208V 三相A+B 供电)
- **U5-U30** 13x 存储节点(每个 2U联想 ThinkSystem SR650 V224x 22TB SAS
- 2.29 PB 可用(覆盖所有 110 亿个二维码,最大 200KB 大小)
- **U31-U33** 3x 控制/计算节点(每个 1U联想 ThinkSystem SR630 V2多用途
- 运行摄取工作器、API 服务器、负载均衡器、控制平面
- 所有服务在所有 3 个节点上运行以实现冗余
- **U34-U35** 1x 导入节点2U联想 ThinkSystem SR650 V2前面板热插拔用于物理介质
- USB 3.2 / NVMe / SATA / SAS 热插拔插槽
- 直接物理介质导入(无网络瓶颈)
- **U36-U42** 保留用于未来扩展7U 可用)
**使用的总机架空间42U 中的 35U**
### 2.2 网络设计
**机架顶部交换机:**
- 型号:华为 CloudEngine 6800-48S-EI推荐
- 48x 25GbE SFP28 端口 + 6x 100GbE QSFP28 上行链路端口
- 2x 冗余 PSUAC/DC
- 2x 冗余风扇
- VRP OS华为通用路由平台
- 公开定价:中国每台交换机约 ¥90,000
- 在中国市场处于行业领先地位,比戴尔便宜 25%
- 配置:
- CSS集群交换系统配对以实现冗余
- 所有服务器连接的 LACP 绑定(每节点 2x25GbE
- VLAN管理VLAN10、存储VLAN20、APIVLAN30
- 启用巨型帧MTU 9000
**上行链路:**
- 2x 100GbE 光纤到核心/分发交换机
- ECMP 路由用于负载分发
**线缆:**
- DAC直连铜缆Twinax 用于机架内(< 5m
- OM4 MMF 或 SMF 用于机架间连接
### 2.3 电源设计
**电源需求(单机架 - 带导入节点13 个存储 + 3 个计算 + 1 个导入):**
- 存储节点13 个节点 × 500W = 6,500WHDD 比 NVMe 耗电少得多)
- 每个 HDD~10W 空闲,~12W 活动
- 每节点 24 个 HDD~300W
- CPU + RAM + 风扇:~200W
- 控制/计算节点3 个节点 × 600W = 1,800W
- 运行所有服务的多用途节点
- CPU 利用率更高但已整合
- 导入节点1 个节点 × 700W = 700W
- 由于 NVMe 暂存驱动器 + 多个控制器而功耗更高
- 导入操作期间的峰值
- 网络交换机2 个交换机 × 400W = 800W
- **总计:~9,800W = 9.8 kW**
- **含 30% 余量:单机架 12.7 kW**
**电源摘要:**
- 存储节点6.5 kW13 个节点 × 500W
- 控制/计算节点1.8 kW3 个节点 × 600W
- 导入节点0.7 kW1 个节点 × 700W
- 网络交换机0.8 kW2 个交换机 × 400W
- **总计9.8 kW含 30% 余量为 12.7 kW**
**PDU 配置(单机架 - 13 个存储节点):**
- 2x 国产计量机架 PDU冗余供电A+B 电源)
- 输入208V 三相,每个 PDU 30A
- 容量208V × 30A × 1.732 = 每个 PDU 10.8 kVA三相
- 总计:机架 21.6 kVA足以满足 12.7 kW 负载,有余量)
- 每个服务器:双 PSU 连接到单独的 PDUA+B 供电)
**冷却(单机架 - 带导入节点13 个存储节点):**
- 散热12.7 kW × 3.41 = 43,307 BTU/hr单机架
- 需求43,400 BTU/hr 的冷却容量(~3.6 吨)
- 选项:
- 使用现有 IT 机房 CRAC/HVAC如果容量可用
- 添加 1x 20kW 行内冷却单元¥40,000-50,000
- 标准精密空调单元4-5 吨容量)
- 单机架无需特殊围护
### 2.4 存储节点规格
**存储容量规划:**
- 最大需求:每年 2.2 PB
- 复制策略影响原始容量需求:
- RAID 10 + 2 倍复制4.4 PB 原始(复杂,双层冗余)
- JBOD + 3 倍复制6.6 PB 原始(更简单,仅软件冗余)
**架构选择JBOD vs RAID**
**JBOD + 3 副本(推荐,软件简单):**
- 无 RAID 控制器复杂性
- 软件处理所有冗余Ceph、MinIO 等)
- 每个驱动器独立,故障恢复更容易
- 更好的性能可观测性
- 分布式存储的标准方法
- 更容易重新平衡和维护
**RAID 10 + 2 副本(传统方法):**
- 硬件 RAID 提供本地冗余
- 更低的网络复制流量
- 更快的本地读取RAID 条带化)
- 更复杂的故障场景RAID + 集群)
- 驱动器故障时的 RAID 重建开销
**存储节点13 个节点22TB SAS HDD + JBOD + 3 副本(覆盖所有 110 亿个二维码)**
**型号:联想 ThinkSystem SR650 V22U24x 2.5" 驱动器插槽)**
**公开定价:中国每个配置节点约 ¥95,000-105,000**
**每个存储节点:**
- **CPU** 2x Intel Xeon Silver 431620 核2.3 GHz30MB 缓存)
- 总计:每节点 40 核80 线程
- 零件号4XG7A42589
- **RAM** 256 GB DDR4-3200 ECC RDIMM8x 32GB
- 零件号4X77A08633 或同等产品
- **启动:** 2x 480GB SATA SSDRAID 1操作系统
- 联想 2.5" 6Gb SATA SSD
- **存储:** 24x 22TB SAS HDD 12Gbps 7.2K RPM
- Seagate Exos X22ST22000NM00 系列)或 WD Ultrastar
- 公开定价:每个驱动器约 ¥2,800-3,200约 $390-445
- JBOD 配置(无 RAID所有驱动器独立
- 每节点528 TB 原始24 × 22TB
- 总集群6.86 PB 原始13 个节点 × 528 TB
- 3 倍复制2.29 PB 可用
- 性能:每驱动器 4K IOPS每节点 ~96K IOPS每节点 1.5 GB/s
- **网络:** 2x 联想 ThinkSystem Broadcom 57504 25GbE4 端口,绑定)
- **HBA** 联想 ThinkSystem 430-8i SAS/SATA 12Gb HBA直通模式
- **PSU** 2x 1100W 铂金冗余208V
- **机架空间:** 13 个节点 × 2U = 26U
### 2.5 导入节点规格1 个节点,专用于物理介质导入)
**型号:联想 ThinkSystem SR650 V22U前面板可访问热插拔**
**公开定价:每个配置节点约 ¥140,000**
**每个节点:**
- **CPU** 2x Intel Xeon Gold 633832 核2.0 GHz48MB 缓存)
- 总计64 核128 线程
- 高核数用于并行导入处理
- **RAM** 256 GB DDR4-3200 ECC
- 用于暂存导入数据的大缓冲区
- **启动:** 2x 480GB SATA SSDRAID 1操作系统
- **导入暂存存储:** 4x 7.68TB NVMeJBOD
- 总计:~31TB 暂存缓冲区
- 复制到存储集群之前的高速本地缓存
- **热插拔插槽(前面板):** 12 个插槽支持:
- **USB 3.2 Gen 2x2** 4x 前面板 USB-C 端口(每个 2.5 GB/s
- **NVMe U.2** 4x 热插拔 NVMe 插槽(每个驱动器最高 8 GB/s
- **SATA/SAS** 4x 热插拔 3.5" 插槽12 Gbps SAS
- **控制器:**
- 联想 ThinkSystem 430-8i SAS/SATA HBA直通模式
- PCIe Gen4 NVMe 交换机
- USB 3.2 Gen 2x2 控制器
- **网络:** 2x 25GbE绑定LACP
- **PSU** 2x 1100W 铂金
**导入工作流程:**
1. 操作员将物理介质USB、NVMe、SATA、SAS插入前面板
2. 驱动器自动挂载或热检测
3. 导入软件从介质读取数据 → 暂存 NVMe快速本地
4. 并行处理/验证二维码32-48 核)
5. 通过 25GbE或 100GbE将验证后的数据流式传输到存储集群
6. 导入完成后操作员移除介质LED 指示灯)
**性能:**
- **USB 3.2** 4 端口 × 2.5 GB/s = 10 GB/s 聚合
- **NVMe** 4 驱动器 × 8 GB/s = 32 GB/s 聚合
- **SATA/SAS** 4 驱动器 × 1.5 GB/s = 6 GB/s 聚合
- **网络:** 2x 25GbE = 6.25 GB/s 到存储集群
- 暂存 NVMe31TB 缓冲区允许在网络传输之前进行离线处理
**优势:**
- **无互联网/WiFi 瓶颈:** 以全速直接物理介质导入
- **并行导入:** 同时接受最多 12 个驱动器
- **灵活介质:** 支持 USB、NVMe、SATA、SAS
- **高吞吐量:** 本地暂存消除了读取期间的网络瓶颈
- **操作员友好:** 前面板访问、LED 指示灯、热插拔安全
### 2.6 控制/计算节点规格3 个节点,整合)
**型号:联想 ThinkSystem SR630 V21U多用途**
**公开定价:每个配置节点约 ¥102,000**
**每个节点(运行所有服务):**
- **CPU** 2x Intel Xeon Gold 633832 核2.0 GHz
- 总计:每节点 64 核128 线程
- 足以满足摄取 + API + 控制平面 + 负载均衡
- **RAM** 256 GB DDR4-3200 ECC8x 32GB
- 分配128GB 用于摄取64GB 用于 API64GB 用于系统/控制
- **启动:** 2x 480GB SATA SSDRAID 1操作系统
- **本地存储:** 2x 3.84TB NVMe
- 摄取写入缓冲区 + API 读取缓存 + 监控数据
- **网络:** 2x 联想 ThinkSystem Broadcom 57504 25GbE绑定LACP
- **PSU** 2x 800W 铂金
## 3. 网络拓扑
```
核心交换机100GbE 上行链路)
机架 ToR 交换机(华为 CSS 配对25GbE 到服务器)
联想服务器双归属LACP 绑定)
```
## 4. 成本估算(近似)
**硬件(单机架 - 13 个存储 + 3 个控制/计算 + 1 个导入,完整 2.29 PB**
- 存储节点13x$195K
- 控制/计算节点3x$48K
- 导入节点1x$22K
- 网络交换机2x$30K
- 其他硬件和基础设施:$13K
- **总计:$308K 资本支出**
- **注意:** 不包括 UPS超出项目范围
**电源需求:**
- **总机架功率:** 最大 9.5kW
- 13x 存储节点 @ 每个 400W = 5.2kW
- 3x 控制/计算节点 @ 每个 300W = 0.9kW
- 1x 导入节点 @ 500W = 0.5kW
- 2x 交换机 @ 每个 400W = 0.8kW
- 余量:~1.6kW 储备
- **PDU 需求:** 2x 5kW PDUA+B 供电)
- **冷却需求:** ~12kW 热9.5kW × 1.3 PUE
## 5. 冗余和高可用性单机架13 个存储节点)
- **存储:** JBOD + 3 倍复制分布在 13 个联想 ThinkSystem SR650 V2 节点上
- **任何 10 个存储节点可同时故障而不会丢失数据77% 冗余)**
- 312 个独立驱动器(每节点 24 个 × 13软件管理
- 单个驱动器故障:自动重新平衡到其他节点
- 无 RAID 重建开销 - 软件处理恢复
- 驱动器恢复:~22TB 通过 25GbE = ~2 小时vs RAID 重建需要数天)
- 数据条带化和复制用于并行 I/O
- 需要最少 4 个节点以维持数据可用性3 倍复制)
- **控制/计算:** 3 个多用途节点(主动-主动-主动)
- 所有 3 个节点运行摄取工作器、API 服务器、负载均衡器、控制平面
- 3 个节点中的任何 2 个可以处理完整工作负载N+1 冗余)
- 可以丢失 1 个控制/计算节点而不会中断服务
- 通过 DNS 轮询或浮动 VIPKeepalived进行负载均衡
- **网络:** 华为 VLT/CSS 交换机双归属服务器2x25GbE 绑定)
- **电源:** 每个服务器双 PSU冗余 PDUA+B 供电)
**扩展路径(如果未来需求增加):**
- 第 1 年13 个存储 + 3 个控制/计算 + 1 个导入 = 2.29 PB 可用(覆盖所有 110 亿个二维码)
- 未来扩展:机架中 7U 可用 = 最多 3 个更多 2U 存储节点
- 16 个存储节点2.82 PB 可用(容量增加 23%
- 超过 16 个节点:需要第二个机架或更高容量的驱动器
## 6. 性能验证(基于 HDD单机架
**目标指标13 个存储节点):**
- 写入吞吐量:持续 6,960 个二维码/秒1.39 GB/s
- 3 倍复制4.17 GB/s 网络写入流量
- HDD 能力19.5 GB/s 聚合写入13 个节点 × 1.5 GB/s✓ **优秀**
- 峰值突发21,000 个二维码/秒4.2 GB/s
- 3 倍复制12.6 GB/s 网络写入流量
- HDD 能力19.5 GB/s 聚合写入(峰值)✓ **优秀**55% 余量)
- 读取延迟:< 50ms P99带缓存
- HDD 寻道4-8ms顺序快速
- 存储 IOPS125 万聚合(每节点 96K × 13每驱动器 4K
- 足以满足大型顺序二维码写入(每个 50-200 KB
- 二维码是大块数据,不是小随机 I/O
- 网络吞吐量650 Gbps 聚合(每节点 50 Gbps × 13
- 网络利用率:持续写入期间 < 8%峰值突发期间 < 24%
- 存储容量2.29 PB 可用3 倍复制为 6.86 PB 原始)
- **覆盖所有 110 亿个二维码,最大 200KB 大小**
- 比 2.2 PB 最大需求高 4% 的缓冲区
- 驱动器故障恢复:分布在所有健康节点上
- 冗余:可容忍最多 10 个存储节点故障77% 冗余)
**HDD 性能特征:**
- 顺序吞吐量:优秀(每驱动器 150-250 MB/s
- 随机 IOPS低于 NVMe4K IOPS vs 100K+ IOPS
- 二维码工作负载主要是顺序大块写入50-200 KB
- **结论:** HDD 非常适合此工作负载(大顺序 I/O
## 7. 推荐配置摘要13 个存储节点,完整容量)
**配置13 个存储 + 3 个控制/计算 + 1 个导入JBOD + 3 副本,单机架)**
| 指标 | 规格 |
|--------|---------------|
| **存储服务器** | 13x 联想 ThinkSystem SR650 V2每个 2U|
| **控制/计算** | 3x 联想 ThinkSystem SR630 V2每个 1U|
| **导入节点** | 1x 联想 ThinkSystem SR650 V22U|
| **交换机** | 2x 华为 CE680025GbE|
| **每个存储节点的驱动器** | 24x 22TB SAS12Gbps7.2K RPM|
| **可用容量** | **2.29 PB**(覆盖所有 110 亿个二维码,最大 200KB|
| **原始容量** | 6.86 PB3 倍复制)|
| **机架空间** | 42U 中的 35U7U 扩展可用)|
| **聚合 IOPS** | 125 万(每个存储节点 96K|
| **聚合吞吐量** | 39 GB/s 读取19.5 GB/s 写入 |
| **电源** | 12.7 kW9.8 kW 实际30% 余量)|
| **资本支出(中国,联想+华为)** | ¥1,973,000约 $274K USD|
| **存储冗余** | 可丢失 10 个存储节点77% 冗余)|
| **计算冗余** | N+13 个节点中的任何 2 个)|
| **导入速度** | 10-32 GB/s物理介质|
| **驱动器可靠性** | SAS 企业级 |
| **扩展** | 7U 可用 = 最多 3 个更多存储节点 |
**关键特性:**
- ✅ **完整容量:** 2.29 PB 覆盖所有 110 亿个二维码,最大 200KB 大小
- ✅ **高冗余:** 可容忍 10 个同时存储节点故障
- ✅ **单机架:** 所有设备在一个 42U 机架中(使用 35U
- ✅ **国产品牌:** 比戴尔便宜 20%,优秀的本地支持
- ✅ **物理导入:** 通过 USB/NVMe/SATA/SAS 热插拔 10-32 GB/s
- ✅ **行业标准:** JBOD + 3 副本架构
## 10. 中国私有数据中心成本估算(人民币)
**汇率1 USD = 7.2 CNY近似2026 年 1 月)**
**中国摘要13 个存储节点完整容量IT 机房):**
- **推荐:** 联想 ThinkSystem + 华为 CE6800
- **资本支出:** ¥1,973,000约 $274K USD基于公开定价
- **容量:** 2.29 PB 可用(覆盖所有 110 亿个二维码,最大 200KB 大小)
- **电源需求:** 总计 12.7 kW9.8 kW 实际 + 30% 余量)
- **导入节点优势:** 10-32 GB/s 物理介质导入USB/NVMe/SATA/SAS
- 消除互联网/WiFi 瓶颈
- 前面板热插拔便于操作员使用
- 31TB 暂存缓冲区用于离线处理
### 中国定价 - 联想 ThinkSystem + 华为配置
**硬件(联想 + 华为 - 13 个存储节点2.29 PB**
- 存储节点13x 联想 ThinkSystem SR650 V224x 22TB SAS¥1,235,000
- 基础服务器:每节点约 ¥35,000
- 24x 22TB SAS 驱动器 @ 每个 ¥3,000每节点 ¥72,000
- CPU、RAM、HBA 升级:每节点约 ¥23,000
- 每节点总计¥95,000
- 公开定价参考:联想中国网站
- 控制/计算节点3x 联想 ThinkSystem SR630 V2¥306,000
- 每个节点¥102,000约 $14,200
- 多用途:摄取 + API + 负载均衡 + 控制
- 导入节点1x 联想 ThinkSystem SR650 V2带热插拔¥140,000
- 前面板 USB-C、NVMe U.2、SATA/SAS 热插拔
- 网络交换机2x 华为 CloudEngine 6800-48S-EI¥180,000
- 公开定价:每台交换机 ¥90,000
- PDU、线缆、杂项¥64,000
- **硬件小计(联想 + 华为¥1,925,000**
**基础设施(如果 IT 机房不存在):**
- 机架42U国产¥8,000
- 冷却1x 20kW 行内,如果 IT 机房 HVAC 不足¥40,000
- **基础设施小计¥48,000**
- **注意:** 可能在现有 IT 机房中部分/完全可用(相应减少资本支出)
**总资本支出13 个存储节点,完整 2.29 PB**
- **联想 + 华为¥1,973,000**(约 $274K USD推荐
- **注意:** 不包括 UPS超出项目范围。价格基于联想中国公开定价和华为企业报价。
**电源需求13 个存储节点):**
- **总功率:** 12.7 kW
- 13x 存储节点 @ 每个 400W = 5.2 kW
- 3x 控制/计算节点 @ 每个 500W = 1.5 kW
- 1x 导入节点 @ 600W = 0.6 kW
- 2x 交换机 @ 每个 400W = 0.8 kW
- 开销和余量 = 4.6 kW
- **冷却需求:** 16.5 kW 热12.7 kW × 1.3 PUE
- **电路需求:** 最少 2x 32A 三相 208V 电路
### 中国 HDD 采购
**推荐:本地组装的企业级驱动器**
- Seagate Exos X22 22TB苏州工厂每个驱动器 ¥2,800-3,200
- Western Digital Ultrastar DC HC570 22TB上海/深圳):每个驱动器 ¥2,900-3,300
- 本地组装 = 无进口增值税(节省 13%
- 提供增值税发票用于税务抵扣
- 与国际版本相同的保修
- 更快的更换(本地库存)
### 快速参考中国定价摘要13 个存储节点2.29 PB
| 项目 | 价值 |
|------|------|
| **资本支出** | ¥1,973,000约 $274K USD|
| **容量** | 2.29 PB 可用 |
| **电源** | 总计 12.7 kW |
| **机架空间** | 42U 中的 35U |
**联想 ThinkSystem SR650 V2 + SR630 V2 + 华为 CE6800**
- 覆盖所有 110 亿个二维码,最大 200KB 大小
- 导入节点10-32 GB/s 物理介质导入(无网络瓶颈)
- 不包括 UPS超出项目范围
**中国部署建议IT 机房13 个存储节点):**
1. **使用联想 ThinkSystem + 华为** - 公开定价可用,比戴尔节省 20%
2. **IT 机房需求13 个存储节点,完整 2.29 PB**
- 电源:需要 12.7 kW 容量208V 三相30A × 2 PDU
- 冷却43,400 BTU/hr 散热(~3.6 吨12.7 kW × 3,412 BTU/kW
- 地板承重:~1,100 kg 总重量17 台服务器 + 交换机 + 机架)
- 导入节点的操作员访问(前面板热插拔)
- 机架空间:使用 42U 中的 35U7U 用于未来扩展)
3. **本地支持合同** 必不可少(联想 + 华为在中国有优秀的支持4 小时响应)
5. **批量采购折扣** - 大订单协商 10-15% 折扣
6. **付款条件:** Net 30-90 常见,一些供应商提供 6-12 个月融资
7. **增值税发票(增值税发票):** 税务抵扣必不可少,确保所有供应商提供
8. **国产驱动器:** 从中国工厂购买 Seagate/WD 以避免进口增值税
9. **网络集成:** 规划到现有企业网络的上行链路
**供应商联系(中国):**
- 联想DCG数据中心集团- https://www.lenovo.com/cn/zh/data-center联想数据中心
- ThinkSystem 服务器在网站上有公开定价
- 联系400-100-6000中国热线
- 华为:企业网络部门 - https://e.huawei.com华为企业
- CloudEngine 交换机需要企业报价
- 联系本地华为客户经理
- 本地集成商:通常比直接购买便宜 5-10%(例如,神州数码 Digital China
## 11. 最终建议
**推荐配置:联想 ThinkSystem + 华为在二线城市**
**硬件13 个存储节点,完整 2.29 PB 容量):**
- **13x 联想 ThinkSystem SR650 V2** 存储节点(每个 24x 22TB SAS= **2.29 PB 可用**
- **3x 联想 ThinkSystem SR630 V2** 控制/计算节点(多用途)
- **1x 联想 ThinkSystem SR650 V2** 导入节点(前面板热插拔)
- **2x 华为 CloudEngine 6800-48S-EI** 交换机48 端口 25GbE
**容量:** 2.29 PB 可用 - 覆盖所有 110 亿个二维码,最大 200KB 大小
**成本:**
- **资本支出:** ¥1,973,000约 $274K USD
- **注意:** 不包括 UPS超出项目范围。基于联想中国和华为公开定价。
**电源需求:**
- **总计:** 12.7 kW9.8 kW 实际 + 30% 余量)
- **冷却:** 43,400 BTU/hr~3.6 吨)