π Data Universe (SN13) β Decentralized Data Provision Subnet
Setelah Chutes yang menyediakan compute (GPU inference), sekarang kita bahas subnet yang menyediakan bahan bakar AI: data. Welcome to Data Universe β NetUID 13.
Kalau di industri AI ada pepatah "data is the new oil", maka SN13 adalah kilang minyaknya Bittensor: subnet yang men-scrape, membersihkan, dan menyediakan dataset segar untuk siapa pun yang butuh train / fine-tune model.
Setelah selesai membaca unit ini kamu akan bisa:
- π― Menjelaskan misi SN13 dan kenapa "data provision" adalah subnet paling strategis di Bittensor
- π¦ Memahami sumber data yang di-scrape miner (Reddit, X/Twitter, YouTube transcripts)
- ποΈ Memahami storage architecture β kenapa S3-compatible dan bagaimana validator verifikasi
- π Memahami prinsip Data Universe scoring β faktor yang bikin miner dapat reward
- π Tahu kenapa SN13 adalah pilihan terbaik untuk miner pemula β dan ini yang akan kamu build di Phase 2 GP-2
π§ Kenapa "Data" Adalah Gold di AI?β
Industri AI modern dibangun di atas tiga pilar: compute, algoritma, data. Dari ketiganya, data adalah yang paling susah di-scale.
- Compute β beli GPU lebih banyak, masalah beres (asal punya modal).
- Algoritma β di-publish di arXiv gratis, siapa pun bisa pakai.
- Data berkualitas β ini yang scarce. Sumber data training internet tidak infinite, dan yang bagus (human-written, recent, non-synthetic) makin langka.
Ketika OpenAI / Google / Anthropic butuh data fresh, mereka:
- Bayar perusahaan scraping (Common Crawl, atau vendor private).
- Deal langsung dengan platform (Reddit deal ~$60M untuk Google, X deal dengan xAI).
- Bangun army scraper internal.
Masalahnya:
- Deal eksklusif bikin data jadi moat para raksasa β AI startup kecil tidak punya akses setara.
- Data statis cepat basi β tren berubah tiap bulan; dataset tahun lalu sudah out-of-distribution.
- Data ter-terlabel / dikontekstualisasi (bukan raw HTML) butuh pipeline kompleks.
SN13 memecahkan ini dengan desentralisasi kerja scraping ke ribuan miner global.
Bayangkan Wikipedia yang dibayar. Di Wikipedia orang kontribusi sukarela untuk mengisi artikel. Di SN13, miner "kontribusi" data dari Reddit / X / YouTube β tapi mereka dibayar dalam TAO sebanding dengan kualitas & ke-fresh-an data mereka. Lebih scalable, lebih bisa diandalkan secara ekonomi.
π― Apa itu Data Universe / SN13?β
Data Universe (NetUID 13), dikelola oleh tim Macrocosmos, adalah subnet Bittensor yang mission-nya adalah mengumpulkan, memvalidasi, dan menyediakan data training high-quality β terutama dari platform sosial & video yang kontennya dibuat manusia secara real-time.
Outputnya: dataset terbuka yang bisa dipakai untuk:
- π€ Fine-tune LLM dengan data percakapan terkini
- π Training model analisis sentimen untuk finance / marketing
- π¬ Penelitian social science dalam skala besar
- π Product intelligence (apa yang orang bicarakan tentang produk X)
π¦ Sumber Data yang Di-scrapeβ
Data Universe fokus pada sumber data yang high-signal dan fresh. Tiga sumber utama saat ini:
1. Redditβ
Subreddit-based scraping. Reddit adalah sumber diskusi panjang & terstruktur (berbeda dari X yang snippet pendek). Miner mengambil:
- Post (judul + body + metadata subreddit)
- Komentar (tree discussion)
- Timestamp (untuk mengukur ke-fresh-an)
2. X (Twitter)β
Microblogging, sumber sinyal real-time paling cepat (berita, drama, meme). Miner mengambil:
- Tweet text + metadata (author, timestamp, engagement)
- Tagged hashtag
- Reply thread
3. YouTube Transcriptsβ
Video caption / auto-generated transcript. Ini emas untuk training model karena:
- Format "spoken language" berbeda dari "written language"
- Konten long-form (podcast, lecture, tutorial) memberikan context panjang
- Multi-bahasa
Daftar sumber data bisa berubah. Tim Macrocosmos menambah / me-retire source berdasarkan prioritas downstream buyer. Cek repo macrocosm-os/data-universe untuk list aktual saat kamu masuk.
π Arsitektur SN13 β Dari Scrape sampai Rewardβ
Alur ini berjalan terus-menerus. Miner scrape 24/7, validator audit sampel tiap epoch, consumer query data lewat API Macrocosmos.
ποΈ Kenapa S3-Compatible Storage?β
Ini salah satu design decision paling cerdas di SN13 β dan sering jadi pertanyaan pemula.
Masalah: data yang di-scrape bisa sampai gigabytes per miner per hari. Kalau disimpan on-chain (Bittensor Subtensor), blockchain akan meledak dalam seminggu.
Solusi SN13: data disimpan off-chain di S3-compatible bucket milik masing-masing miner. Yang di-chain cukup:
- Commitment (hash) terhadap bucket content
- Metadata terbatas (index, source breakdown)
- Scoring weight hasil validator
Kenapa "S3-compatible" bukan S3 saja?
Karena standar S3 dipakai banyak provider:
- AWS S3 (original, paling mahal)
- Cloudflare R2 (no egress fee β populer di kalangan miner)
- Backblaze B2 (termurah untuk storage dingin)
- Wasabi, DigitalOcean Spaces, dll.
Miner bebas pilih provider mana pun selama endpoint-nya S3 API compatible. Ini menurunkan cost barrier entry signifikan.
Komunitas SN13 sering merekomendasikan Cloudflare R2 karena:
- Free tier 10GB storage + 1M Class A operations/bulan
- No egress fee β validator bisa fetch dari bucket kamu tanpa kamu dikenai charge bandwidth
- Setup gampang (mirip AWS S3 API)
βοΈ Apa yang Dikerjakan Miner SN13?β
Secara konkret, tugas miner Data Universe:
- Scrape data dari source yang dipilih subnet (Reddit / X / YouTube).
- Simpan lokal di SQLite dengan schema
DataEntity(content, source, timestamp, label). - Upload batch ke S3 bucket secara periodic (biasanya per-interval 2-4 jam).
- Expose index di endpoint HTTP lokal supaya validator bisa query "apa saja yang kamu punya".
- Commit bucket hash on-chain tiap epoch.
Tidak butuh GPU. Tidak butuh model inference. Hardware minimal banget:
- VPS murah (Contabo, Hetzner β β¬5β15/bulan)
- Storage cloud (R2 / B2 β $5β20/bulan tergantung volume)
- Bandwidth sedang (scraping + upload)
- Python skill dasar
Total modal entry bisa di bawah $30/bulan, jauh lebih murah dari Chutes.
π Bagaimana Scoring Bekerja?β
Ini bagian yang menentukan seberapa banyak TAO yang kamu dapat. Scoring SN13 dibangun di tiga dimensi utama:
1. Volume (Jumlah data)β
Makin banyak data valid yang kamu supply, makin tinggi base score. Tapi bukan linear β ada diminishing returns.
2. Freshness (Ke-fresh-an)β
Data recent (misal tweet hari ini) bernilai jauh lebih tinggi daripada data lama (tweet 3 tahun lalu). Kenapa? Karena downstream consumer (AI trainer) lebih butuh data current. Subnet aktif meng-decay nilai data lama.
3. Desirability (Keinginan)β
Subnet punya dynamic label preferences β beberapa topic / subreddit / keyword lebih "diinginkan" daripada yang lain. Contoh: r/wallstreetbets saat earnings season, atau tweet dengan keyword AI saat big model release. Miner yang nge-scrape label desirable dapat multiplier.
Rumus simplified:
score_miner β Ξ£ ( volume_i Γ freshness_weight(i) Γ desirability_weight(label_i) )
Validator menghitung ini tiap epoch, lalu set weight on-chain.
Validator secara aktif mendeteksi:
- Duplication β data yang sama persis antar-miner hanya dihitung untuk satu miner.
- Fake data β validator sampling random lalu verify ke source API aslinya. Kalau tidak match β penalty berat.
Jangan coba-coba generate synthetic data atau copy dari miner lain. Validator akan ketahuan.
πΌ Siapa yang Beli Data-nya?β
Pertanyaan penting: data yang di-scrape ini, siapa yang butuh?
Beberapa jalur monetisasi ekosistem SN13:
- Internal Bittensor subnets β subnet lain (misal subnet model training) beli data dari SN13 untuk fine-tune model mereka.
- External AI labs β peneliti / startup AI di luar Bittensor butuh dataset fresh berlabel, bayar Macrocosmos untuk akses API.
- Macrocosmos productization β tim membangun produk turunan (dashboard analitik, sentiment feed untuk trader) di atas data SN13.
Revenue ini secara tidak langsung menjaga "demand" terhadap emission TAO SN13 β makin banyak buyer, makin valid ekonomi subnet.
π° Miner Economics β Realistic Expectationβ
Biaya Tipikal (per bulan)β
| Komponen | Rentang |
|---|---|
| VPS (2 vCPU, 4GB RAM) β Contabo/Hetzner | $5β15 |
| Cloudflare R2 storage (50β200 GB) | $0.75β3 |
| Reddit/X API credentials atau proxy | $0β30 (tergantung strategi) |
| Registration fee SN13 (one-time) | Variatif dalam TAO β cek Taostats |
| Total OpEx | ~$10β50/bulan |
Potensi Revenue (kualitatif)β
Reward harian miner SN13 bergantung pada:
- Score rank kamu di antara ratusan miner lain
- Emission TAO ke subnet 13 (dynamic TAO)
- Harga TAO di market
Realistic expectation untuk miner baru yang setup OK tapi belum tuning:
- Minggu pertama sering di bawah break-even (masih ngumpulin volume & learning).
- Setelah tuning (pilih desirable labels, stabilkan uptime): realistic untuk profit kecilβmenengah dalam TAO, tergantung harga market.
- Top-tier miner dengan scraping strategy canggih: bisa signifikan β tapi juga mereka paling kompetitif.
Kamu akan lihat screenshot "earning $XXX/day" di Twitter. Itu biasanya cherry-picked di hari TAO pump. Budget planning kamu harus assumsi harga TAO flat / turun supaya tidak kaget kalau market jelek.
π§© Cocok untuk Kamu Kalau...β
Profile miner SN13 yang ideal β dan ini mayoritas peserta camp ini:
- β Budget mining terbatas ($10β50/bulan OK) β tidak perlu GPU mahal.
- β Python developer level menengah β bisa baca repo, ngoprek config file, debug exception.
- β
Familiar Linux basic β ssh, tmux/screen, systemd,
tail -f. - β Sabar tuning β subnet ini kompetisinya soal optimization, bukan brute-force compute.
- β Mau mulai dari miner pertama kamu β kurva belajar paling gentle di Bittensor.
β Kurang cocok kalau kamu cari "passive income tanpa effort" β scoring dinamis, kamu harus adjust strategy seiring waktu.
π Konteks di Kurikulum Iniβ
Inilah subnet pertama yang kita akan deploy miner-nya dalam Phase 2.
β‘οΈ Phase 2 β GP-2 (Guided Project 2): Data Universe (SN13) Mining akan membawa kamu step-by-step dari:
- Introduction SN13 & environment setup
- Deploy miner software
- Konfigurasi scraping strategy
- Tuning untuk optimasi reward
- S3 storage configuration & upload flow
- Interaction layer (query API test)
Semua konsep di unit ini β freshness, desirability, S3 bucket, commitment hash β akan kamu jalankan sendiri dengan tangan kamu di Phase 2 GP-2. Jadi pastikan paham dulu di level konsep sekarang.
Kami rekomendasikan tiap peserta mencoba dua-duanya: SN41 (Sportstensor) untuk belajar subnet prediction yang revenue-generating, dan SN13 untuk belajar subnet data yang paling pemula-friendly. Next unit kita bahas SN41.
π― Rangkumanβ
Yang perlu kamu ingat dari unit ini:
- SN13 = Data Universe β menyediakan training data fresh dari Reddit, X, YouTube untuk AI ecosystem.
- Data disimpan off-chain di S3-compatible bucket milik miner. On-chain hanya hash commitment & scoring.
- Scoring = volume Γ freshness Γ desirability β bukan sekadar "banyak-banyakan data", tapi relevance.
- Duplicate & fake data akan dihukum β validator cek ke source API asli secara random.
- Barrier of entry paling rendah di Bittensor β VPS + storage cloud cukup, tidak butuh GPU.
- Subnet ini yang akan kamu deploy di Phase 2 GP-2 β konsep di unit ini langsung kepakai.
β Quick Checkβ
Sebelum lanjut ke Unit 3 (Sportstensor), pastikan kamu bisa jawab:
- Kenapa data SN13 disimpan di S3 bucket miner, bukan on-chain?
- Tiga dimensi scoring SN13 adalah... (sebutkan semua).
- Kenapa "data lama" dinilai lebih rendah dari "data fresh" β apa alasan ekonomisnya?
- Cloudflare R2 populer di kalangan miner SN13 karena satu fitur spesifik β apa itu?
- Apa yang terjadi kalau dua miner upload data yang persis sama?
Semua terjawab β lanjut. Kalau masih goyang di scoring formula, baca ulang bagian Bagaimana Scoring Bekerja.
π Referensi Lanjutanβ
- Macrocosmos β Data Universe β tim pengelola SN13
- Repo SN13 (macrocosm-os/data-universe) β source code miner/validator
- Taostats β SN13 β emission & ranking real-time
- Cloudflare R2 β storage pilihan populer
- Phase 2 GP-2 Unit 1 β Introduction to SN13 (next deep-dive, hands-on)
Next: Unit 3 β Sportstensor (SN41) β Sports Event Prediction Subnet π