Skip to main content

๐Ÿ“Š Unit 1 โ€” Introduction to SN13 Data Universe

Goal Unit Ini

Setelah menyelesaikan unit ini, kamu akan:

  • Paham mission & raison d'รชtre Data Universe (SN13) di ekosistem Bittensor
  • Tahu arsitektur miner โ†” validator dan alur data pipeline SN13
  • Mengerti kenapa data is the new oil untuk AI training (call-back ke Phase 0 Unit 2)
  • Bisa menghitung kasar hardware & bandwidth budget sebelum deploy
  • Tahu perbedaan fundamental SN13 vs SN41 (storage-heavy vs compute-light)
Prasyarat

Sebelum lanjut, pastikan kamu sudah selesaikan:

  • โœ… Phase 0 lengkap (Web3, AI, Decentralized AI, Kenapa Bittensor)
  • โœ… Phase 1 Concept I & II (Core Concepts, Tokenomics, Core Subnets)
  • โœ… Phase 2 GP-1 โ€” Sportstensor (SN41) sampai miner running
  • โœ… Punya coldkey/hotkey wallet, paham btcli, paham miner lifecycle

๐ŸŒŒ Kenapa Data Universe Ada?โ€‹

Kalau kamu sudah baca Phase 0 Unit 2, kamu tahu bahwa AI modern (LLM, vision, reasoning model) butuh data dalam jumlah yang gila-gilaan. GPT-4 ditraining dengan puluhan TB teks. LLaMA 3 pakai 15T token. Gemini butuh multimodal corpus: text + video + audio + code.

Tapi ada masalah klasik di dunia AI centralized:

ProblemDampak
Data terkunci di platform besarReddit, Twitter/X, YouTube charge fee jutaan USD per bulan untuk API akses
Scraping unilateral rentan bannedSingle IP ketahuan โ†’ rate-limited โ†’ data pipeline mati
Fresh data sangat mahalTraining dengan data 6 bulan lalu = model stale
Centralized vendor lock-inData provider single point of failure (contoh: Twitter cut off academic API 2023)

Data Universe (SN13) menyelesaikan ini dengan prinsip Bittensor: decentralize the data layer. Ratusan miner di seluruh dunia scraping โ†’ upload โ†’ validator audit โ†’ reward yang kontribusi data paling fresh, unique, dan valid.

Framing Sederhana

SN13 itu seperti "Uber untuk data scraping": siapa saja (dengan storage + bandwidth) bisa jadi supplier, validator jadi auditor kualitas, dan pembeli (AI developer) dapat akses ke data pool terdesentralisasi tanpa harus bayar ke Reddit/X langsung.


๐Ÿงญ Mission Statement SN13โ€‹

Data Universe menyediakan pipeline data yang continuously updated, decentralized, dan auditable untuk training AI generasi berikutnya.

Tiga sumber data utama yang di-scrape miner saat kurikulum ini ditulis:

  1. Reddit โ€” teks forum, opini, diskusi niche (subreddit)
  2. Twitter / X โ€” microblog, trending topics, real-time sentiment
  3. YouTube โ€” transcript video, metadata channel
Kenapa 3 sumber ini?

Tiga platform ini punya signal-to-noise ratio yang bagus untuk training LLM: Reddit punya long-form reasoning, Twitter punya real-time event coverage, YouTube punya multimodal (audio + text). Subnet ini ekspandable โ€” di masa depan bisa ditambah source baru lewat governance.


๐Ÿ—๏ธ Arsitektur SN13โ€‹

Peran Masing-masing Nodeโ€‹

โ›๏ธ Miner โ€” The Data Scrapers

  • Jalan scraper otomatis 24/7 (Reddit/X/YouTube)
  • Simpan raw data โ†’ compress ke Parquet/JSON.gz
  • Upload ke S3-compatible storage (AWS S3 / Cloudflare R2 / Backblaze)
  • Emit metadata (URL bucket + hash) on-chain ke subnet
  • Respon ke query validator via HTTP endpoint (interaction layer โ€” bahas di Unit 6)

๐Ÿ›ก๏ธ Validator โ€” The Auditors

  • Sampling random dari bucket miner (misal: 1% data)
  • Verifikasi ke source asli (apakah tweet ini real? apakah timestamp akurat?)
  • Scoring berdasarkan freshness, uniqueness, volume, validity, coverage
  • Set weights on-chain โ†’ menentukan emission TAO ke miner

โ›“๏ธ Subnet (NetUID 13)

  • Coordinator on-chain: registry UID, weights, emission
  • Bukan tempat data disimpan (chain tetap lightweight) โ€” hanya pointer

๐Ÿ“ˆ Scoring Sekilas (Full Detail di Unit 4)โ€‹

Kelima dimensi scoring SN13:

DimensiBobot KasarArtinya
๐Ÿ†• FreshnessTertinggi (โ‰ค 24 jam best)Data yang baru di-scrape jauh lebih berharga
๐Ÿ”‘ UniquenessTinggiDuplikat dihukum โ€” deduplication critical
๐Ÿ“ฆ VolumeSedang (ada cap)Banyak data = poin, tapi ada titik diminishing return
๐ŸŽฏ CoverageSedangDiversify source (jangan cuma 1 subreddit)
โœ… ValidityGateKalau validator gagal verify โ†’ skor nol
Jangan spam!

Miner yang upload data palsu / duplikat / stale akan dapat score โ‰ˆ 0 dan di-deregister setelah immunity period habis. Validator SN13 punya heuristik cross-check yang agresif.


๐Ÿ’ป Hardware Requirementsโ€‹

Berbeda dengan subnet compute-heavy (Chutes, Targon) yang butuh GPU, SN13 adalah subnet storage-heavy & network-heavy. GPU TIDAK diperlukan.

Minimum Spec (Baru Mulai)โ€‹

KomponenSpecCatatan
OSUbuntu 22.04 LTSDebian 12 juga bisa
CPU4 vCPUScraping I/O-bound, gak butuh banyak core
RAM8 GB16 GB lebih aman buat parsing YouTube transcript besar
Storage500 GB SSD (NVMe preferred)Data rotate, tapi buffer lokal penting
Bandwidth50+ Mbps symmetricUpload ke S3 bottleneck utama
Public IP / PortTerbuka di port miner (default 8091 atau configurable)Validator butuh reach miner
KomponenSpec
CPU8 vCPU (compress Parquet paralel)
RAM16โ€“32 GB
Storage1 TB NVMe SSD (working set) + S3 unlimited
Bandwidth100 Mbps+ symmetric
JaringanData center / VPS (bukan home ISP dengan CGNAT)
Pro Tip โ€” Indonesia Specific

๐Ÿ‡ฎ๐Ÿ‡ฉ Jangan jalankan miner SN13 dari rumah kalau ISP kamu pakai CGNAT (Indihome residential biasanya CGNAT, IP kamu di-share). Validator gak bisa reach endpoint kamu โ†’ scoring jatuh.

Solusi praktis:

  1. VPS di Singapore (Vultr, DigitalOcean, Linode) โ€” latency rendah, public IP static, $40โ€“60/bulan
  2. Tunnel via Cloudflare Tunnel / ngrok kalau insist pakai rumah โ€” tapi risiko koneksi drop
  3. Upgrade ke Indihome Bisnis / Biznet (static IP available, ~Rp 500rb/bulan)

Dari pengalaman alumni CLC sebelumnya: VPS Singapore adalah pilihan paling stabil & cost-effective untuk SN13.


๐Ÿ’ฐ Ekonomi Kasar Miner SN13โ€‹

Sebelum kamu deploy, budget kasar bulanan:

ItemBiaya Bulanan (USD)
VPS Vultr 4 vCPU 8 GB 500 GB~$40
S3 Storage (Cloudflare R2, 1 TB)~$15
Egress bandwidth (R2 = gratis)$0
Reddit API (free tier cukup awalnya)$0
Twitter API (pakai library scrape gratis)$0
Total~$55/bulan

ROI sangat tergantung TAO price dan posisi ranking miner. Di rentang bull (TAO > $400), miner top-50 SN13 bisa earn setara $200โ€“500/bulan gross. Tapi ingat: camp ini bukan get-rich-quick โ€” goal kamu adalah belajar & graduasi.

Disclaimer

Angka di atas estimasi kasar April 2026. Real earning volatile โ€” bisa lebih tinggi saat subnet emission naik, atau sangat rendah kalau kamu di bawah immunity threshold.


๐Ÿ†š SN13 vs SN41 โ€” Kapan Pakai Yang Mana?โ€‹

Kamu sudah jalan miner SN41. Apa bedanya?

AspekSN41 SportstensorSN13 Data Universe
Core workPredictive model untuk hasil pertandinganScraping & storing raw web data
Hardware bottleneckCPU + model inferenceStorage + bandwidth
GPU?Opsional (buat ML model)Tidak perlu
Scoring sinyalAkurasi prediksi vs actual resultFreshness + uniqueness + validity
Kompleksitas MLTinggi (butuh feature engineering)Rendah (scraper standard)
Ideal untukML engineer, data scientistDevOps, backend engineer, hobbyist dengan storage
Dual-Miner Strategy

Banyak graduate CLC jalankan miner di SN41 dan SN13 bersamaan di VPS terpisah untuk diversifikasi emission TAO. Tapi untuk graduasi camp, satu miner stabil (yang running saat submission) sudah cukup.


๐Ÿ—บ๏ธ Roadmap 6 Unit GP-2โ€‹

Berikut alur belajar kita 6 unit ke depan:

Setiap unit punya deliverable praktis โ€” end of Unit 6, kamu sudah punya miner jalan 24/7 dengan data real terupload ke S3 dan ter-audit validator.


๐ŸŽฏ Rangkumanโ€‹

  • Data Universe (SN13) = subnet penyedia data terdesentralisasi untuk training AI (Reddit + Twitter + YouTube)
  • NetUID = 13, mainnet Bittensor
  • Miner = scraper + uploader; validator = auditor sampel + scorer
  • Scoring 5 dimensi: freshness, uniqueness, volume, coverage, validity
  • Hardware: storage-heavy + bandwidth-heavy, no GPU needed (Ubuntu 22.04, 4 vCPU, 8 GB RAM, 500 GB SSD, 50 Mbps+)
  • Total cost operasional ~$55/bulan (VPS + R2)
  • Indonesia: VPS Singapore > home ISP karena CGNAT

โœ… Quick Checkโ€‹

  1. Berapa NetUID Data Universe di mainnet Bittensor?
  2. Apakah SN13 butuh GPU? Kenapa?
  3. Sebutkan 3 sumber data utama yang di-scrape miner SN13.
  4. Apa yang terjadi kalau miner upload data duplikat ke bucket?
  5. Kenapa home ISP residential Indonesia biasanya bermasalah jalan miner SN13?
๐Ÿ’ก Jawaban
  1. 13 โ€” NetUID 13.
  2. Tidak. Pekerjaan miner adalah I/O-bound (scraping + compress + upload), bukan compute-bound. GPU = waste of money di SN13.
  3. Reddit, Twitter/X, YouTube.
  4. Validator deteksi duplikat โ†’ uniqueness score turun โ†’ reward jatuh; kalau terlalu banyak duplikat, skor total bisa โ‰ˆ 0.
  5. CGNAT โ€” IP publik di-share banyak user, validator gak bisa reach miner endpoint. Butuh public IP static (VPS).

๐Ÿ› Troubleshootingโ€‹

GejalaKemungkinan PenyebabSolusi
"Saya bingung pilih VPS region"Latency ke Bittensor mainnet & source APISingapore untuk Indonesia โ€” proxy ke Reddit/X cepat
"Storage 500 GB cukup gak?"Tergantung retention policyCukup untuk working buffer; data lama rotate ke S3
"Gaji TAO gak jelas"Subnet emission fluktuatifPakai taostats.io/subnets/13 untuk tracking realtime

Next: Unit 2 โ€” Environment Setup & Deployment โ†’

Data is the new oil. Bittensor is the refinery. ๐Ÿ›ข๏ธ