๐ Unit 1 โ Introduction to SN13 Data Universe
Setelah menyelesaikan unit ini, kamu akan:
- Paham mission & raison d'รชtre Data Universe (SN13) di ekosistem Bittensor
- Tahu arsitektur miner โ validator dan alur data pipeline SN13
- Mengerti kenapa data is the new oil untuk AI training (call-back ke Phase 0 Unit 2)
- Bisa menghitung kasar hardware & bandwidth budget sebelum deploy
- Tahu perbedaan fundamental SN13 vs SN41 (storage-heavy vs compute-light)
Sebelum lanjut, pastikan kamu sudah selesaikan:
- โ Phase 0 lengkap (Web3, AI, Decentralized AI, Kenapa Bittensor)
- โ Phase 1 Concept I & II (Core Concepts, Tokenomics, Core Subnets)
- โ Phase 2 GP-1 โ Sportstensor (SN41) sampai miner running
- โ
Punya coldkey/hotkey wallet, paham
btcli, paham miner lifecycle
๐ Kenapa Data Universe Ada?โ
Kalau kamu sudah baca Phase 0 Unit 2, kamu tahu bahwa AI modern (LLM, vision, reasoning model) butuh data dalam jumlah yang gila-gilaan. GPT-4 ditraining dengan puluhan TB teks. LLaMA 3 pakai 15T token. Gemini butuh multimodal corpus: text + video + audio + code.
Tapi ada masalah klasik di dunia AI centralized:
| Problem | Dampak |
|---|---|
| Data terkunci di platform besar | Reddit, Twitter/X, YouTube charge fee jutaan USD per bulan untuk API akses |
| Scraping unilateral rentan banned | Single IP ketahuan โ rate-limited โ data pipeline mati |
| Fresh data sangat mahal | Training dengan data 6 bulan lalu = model stale |
| Centralized vendor lock-in | Data provider single point of failure (contoh: Twitter cut off academic API 2023) |
Data Universe (SN13) menyelesaikan ini dengan prinsip Bittensor: decentralize the data layer. Ratusan miner di seluruh dunia scraping โ upload โ validator audit โ reward yang kontribusi data paling fresh, unique, dan valid.
SN13 itu seperti "Uber untuk data scraping": siapa saja (dengan storage + bandwidth) bisa jadi supplier, validator jadi auditor kualitas, dan pembeli (AI developer) dapat akses ke data pool terdesentralisasi tanpa harus bayar ke Reddit/X langsung.
๐งญ Mission Statement SN13โ
Data Universe menyediakan pipeline data yang continuously updated, decentralized, dan auditable untuk training AI generasi berikutnya.
Tiga sumber data utama yang di-scrape miner saat kurikulum ini ditulis:
- Reddit โ teks forum, opini, diskusi niche (subreddit)
- Twitter / X โ microblog, trending topics, real-time sentiment
- YouTube โ transcript video, metadata channel
Tiga platform ini punya signal-to-noise ratio yang bagus untuk training LLM: Reddit punya long-form reasoning, Twitter punya real-time event coverage, YouTube punya multimodal (audio + text). Subnet ini ekspandable โ di masa depan bisa ditambah source baru lewat governance.
๐๏ธ Arsitektur SN13โ
Peran Masing-masing Nodeโ
โ๏ธ Miner โ The Data Scrapers
- Jalan scraper otomatis 24/7 (Reddit/X/YouTube)
- Simpan raw data โ compress ke Parquet/JSON.gz
- Upload ke S3-compatible storage (AWS S3 / Cloudflare R2 / Backblaze)
- Emit metadata (URL bucket + hash) on-chain ke subnet
- Respon ke query validator via HTTP endpoint (interaction layer โ bahas di Unit 6)
๐ก๏ธ Validator โ The Auditors
- Sampling random dari bucket miner (misal: 1% data)
- Verifikasi ke source asli (apakah tweet ini real? apakah timestamp akurat?)
- Scoring berdasarkan freshness, uniqueness, volume, validity, coverage
- Set weights on-chain โ menentukan emission TAO ke miner
โ๏ธ Subnet (NetUID 13)
- Coordinator on-chain: registry UID, weights, emission
- Bukan tempat data disimpan (chain tetap lightweight) โ hanya pointer
๐ Scoring Sekilas (Full Detail di Unit 4)โ
Kelima dimensi scoring SN13:
| Dimensi | Bobot Kasar | Artinya |
|---|---|---|
| ๐ Freshness | Tertinggi (โค 24 jam best) | Data yang baru di-scrape jauh lebih berharga |
| ๐ Uniqueness | Tinggi | Duplikat dihukum โ deduplication critical |
| ๐ฆ Volume | Sedang (ada cap) | Banyak data = poin, tapi ada titik diminishing return |
| ๐ฏ Coverage | Sedang | Diversify source (jangan cuma 1 subreddit) |
| โ Validity | Gate | Kalau validator gagal verify โ skor nol |
Miner yang upload data palsu / duplikat / stale akan dapat score โ 0 dan di-deregister setelah immunity period habis. Validator SN13 punya heuristik cross-check yang agresif.
๐ป Hardware Requirementsโ
Berbeda dengan subnet compute-heavy (Chutes, Targon) yang butuh GPU, SN13 adalah subnet storage-heavy & network-heavy. GPU TIDAK diperlukan.
Minimum Spec (Baru Mulai)โ
| Komponen | Spec | Catatan |
|---|---|---|
| OS | Ubuntu 22.04 LTS | Debian 12 juga bisa |
| CPU | 4 vCPU | Scraping I/O-bound, gak butuh banyak core |
| RAM | 8 GB | 16 GB lebih aman buat parsing YouTube transcript besar |
| Storage | 500 GB SSD (NVMe preferred) | Data rotate, tapi buffer lokal penting |
| Bandwidth | 50+ Mbps symmetric | Upload ke S3 bottleneck utama |
| Public IP / Port | Terbuka di port miner (default 8091 atau configurable) | Validator butuh reach miner |
Recommended Spec (Serious Miner)โ
| Komponen | Spec |
|---|---|
| CPU | 8 vCPU (compress Parquet paralel) |
| RAM | 16โ32 GB |
| Storage | 1 TB NVMe SSD (working set) + S3 unlimited |
| Bandwidth | 100 Mbps+ symmetric |
| Jaringan | Data center / VPS (bukan home ISP dengan CGNAT) |
๐ฎ๐ฉ Jangan jalankan miner SN13 dari rumah kalau ISP kamu pakai CGNAT (Indihome residential biasanya CGNAT, IP kamu di-share). Validator gak bisa reach endpoint kamu โ scoring jatuh.
Solusi praktis:
- VPS di Singapore (Vultr, DigitalOcean, Linode) โ latency rendah, public IP static, $40โ60/bulan
- Tunnel via Cloudflare Tunnel / ngrok kalau insist pakai rumah โ tapi risiko koneksi drop
- Upgrade ke Indihome Bisnis / Biznet (static IP available, ~Rp 500rb/bulan)
Dari pengalaman alumni CLC sebelumnya: VPS Singapore adalah pilihan paling stabil & cost-effective untuk SN13.
๐ฐ Ekonomi Kasar Miner SN13โ
Sebelum kamu deploy, budget kasar bulanan:
| Item | Biaya Bulanan (USD) |
|---|---|
| VPS Vultr 4 vCPU 8 GB 500 GB | ~$40 |
| S3 Storage (Cloudflare R2, 1 TB) | ~$15 |
| Egress bandwidth (R2 = gratis) | $0 |
| Reddit API (free tier cukup awalnya) | $0 |
| Twitter API (pakai library scrape gratis) | $0 |
| Total | ~$55/bulan |
ROI sangat tergantung TAO price dan posisi ranking miner. Di rentang bull (TAO > $400), miner top-50 SN13 bisa earn setara $200โ500/bulan gross. Tapi ingat: camp ini bukan get-rich-quick โ goal kamu adalah belajar & graduasi.
Angka di atas estimasi kasar April 2026. Real earning volatile โ bisa lebih tinggi saat subnet emission naik, atau sangat rendah kalau kamu di bawah immunity threshold.
๐ SN13 vs SN41 โ Kapan Pakai Yang Mana?โ
Kamu sudah jalan miner SN41. Apa bedanya?
| Aspek | SN41 Sportstensor | SN13 Data Universe |
|---|---|---|
| Core work | Predictive model untuk hasil pertandingan | Scraping & storing raw web data |
| Hardware bottleneck | CPU + model inference | Storage + bandwidth |
| GPU? | Opsional (buat ML model) | Tidak perlu |
| Scoring sinyal | Akurasi prediksi vs actual result | Freshness + uniqueness + validity |
| Kompleksitas ML | Tinggi (butuh feature engineering) | Rendah (scraper standard) |
| Ideal untuk | ML engineer, data scientist | DevOps, backend engineer, hobbyist dengan storage |
Banyak graduate CLC jalankan miner di SN41 dan SN13 bersamaan di VPS terpisah untuk diversifikasi emission TAO. Tapi untuk graduasi camp, satu miner stabil (yang running saat submission) sudah cukup.
๐บ๏ธ Roadmap 6 Unit GP-2โ
Berikut alur belajar kita 6 unit ke depan:
Setiap unit punya deliverable praktis โ end of Unit 6, kamu sudah punya miner jalan 24/7 dengan data real terupload ke S3 dan ter-audit validator.
๐ฏ Rangkumanโ
- Data Universe (SN13) = subnet penyedia data terdesentralisasi untuk training AI (Reddit + Twitter + YouTube)
- NetUID = 13, mainnet Bittensor
- Miner = scraper + uploader; validator = auditor sampel + scorer
- Scoring 5 dimensi: freshness, uniqueness, volume, coverage, validity
- Hardware: storage-heavy + bandwidth-heavy, no GPU needed (Ubuntu 22.04, 4 vCPU, 8 GB RAM, 500 GB SSD, 50 Mbps+)
- Total cost operasional ~$55/bulan (VPS + R2)
- Indonesia: VPS Singapore > home ISP karena CGNAT
โ Quick Checkโ
- Berapa NetUID Data Universe di mainnet Bittensor?
- Apakah SN13 butuh GPU? Kenapa?
- Sebutkan 3 sumber data utama yang di-scrape miner SN13.
- Apa yang terjadi kalau miner upload data duplikat ke bucket?
- Kenapa home ISP residential Indonesia biasanya bermasalah jalan miner SN13?
๐ก Jawaban
- 13 โ NetUID 13.
- Tidak. Pekerjaan miner adalah I/O-bound (scraping + compress + upload), bukan compute-bound. GPU = waste of money di SN13.
- Reddit, Twitter/X, YouTube.
- Validator deteksi duplikat โ uniqueness score turun โ reward jatuh; kalau terlalu banyak duplikat, skor total bisa โ 0.
- CGNAT โ IP publik di-share banyak user, validator gak bisa reach miner endpoint. Butuh public IP static (VPS).
๐ Troubleshootingโ
| Gejala | Kemungkinan Penyebab | Solusi |
|---|---|---|
| "Saya bingung pilih VPS region" | Latency ke Bittensor mainnet & source API | Singapore untuk Indonesia โ proxy ke Reddit/X cepat |
| "Storage 500 GB cukup gak?" | Tergantung retention policy | Cukup untuk working buffer; data lama rotate ke S3 |
| "Gaji TAO gak jelas" | Subnet emission fluktuatif | Pakai taostats.io/subnets/13 untuk tracking realtime |
Next: Unit 2 โ Environment Setup & Deployment โ
Data is the new oil. Bittensor is the refinery. ๐ข๏ธ