Pengalamanku Menganalisis 1 Miliar Baris Data

Rahasia Menjadi Data Scientist Kelas Dunia yang Tak Pernah Diajarkan di Kampus

Apa reaksimu jika kukatakan bahwa rahasia menjadi data scientist terbaik bukanlah sekadar kemampuan coding atau statistik-melainkan sesuatu yang kebanyakan orang sama sekali abaikan?

Babak 1: Momen Kesadaran yang Mengubah Segalanya

Masih teringat jelas di benakku, ketika aku baru memasuki dunia data science. Aku sangat terobsesi dengan tools: Python, R, Power BI, Tableau, SQL Server-semua ingin kukuasai.

Berbulan-bulan kuhabiskan mempelajari syntax, menonton tutorial YouTube di kecepatan 2x, dan berusaha membangun model "sempurna" yang kupikir akan mengesankan semua orang.

Kemudian datanglah proyek pertamaku: menganalisis 1 miliar baris data penjualan dari salah satu perusahaan retail terbesar di Indonesia...

...dan Excel-ku langsung crash total. 😬

Python terasa lambat luar biasa. Power BI tersedak-sedak. Bahkan server SQL yang kupikir kuat pun mulai mengeluarkan pesan error. Aku hampir menyerah.

Saat itulah kesadaran menghantamku:

Menjadi data scientist hebat bukanlah tentang tools. Ini tentang strategi.

Babak 2: Pelajaran Berharga dari Satu Miliar Baris Data

Inilah pembelajaran paling berharga saat bekerja dengan data skala besar di dunia nyata:

1. SQL adalah Raja (Bahkan di 2025)

Lupakan sejenak model ML yang canggih. Aku menggunakan SQL CTE (Common Table Expression) yang dioptimalkan dengan window functions untuk mengurangi waktu query dari 30 menit menjadi hanya 10 detik!

Contoh Konkret:

Saat menganalisis data transaksi e-commerce terbesar di Indonesia, aku menghadapi tantangan untuk menemukan produk dengan tingkat pengembalian tertinggi berdasarkan kategori dan waktu.

Kebanyakan junior analyst menjalankan query sederhana yang membebani server:


sql
-- Query pemula yang membuat server tersedak
SELECT 
    product_id, 
    COUNT(*) as total_orders,
    SUM(CASE WHEN status = 'returned' THEN 1 ELSE 0 END) as total_returns
FROM orders
WHERE order_date BETWEEN '2025-01-01' AND '2025-03-31'
GROUP BY product_id
ORDER BY total_returns DESC;

Sementara aku menggunakan pendekatan berbeda:


sql
-- Query teroptimasi dengan CTE dan window functions
WITH daily_metrics AS (
    SELECT 
        DATE_TRUNC('day', order_date) as order_day,
        product_id,
        category_id,
        COUNT(*) as daily_orders,
        SUM(CASE WHEN status = 'returned' THEN 1 ELSE 0 END) as daily_returns
    FROM orders
    WHERE order_date BETWEEN '2025-01-01' AND '2025-03-31'
    GROUP BY DATE_TRUNC('day', order_date), product_id, category_id
),
category_ranks AS (
    SELECT
        order_day,
        product_id,
        category_id,
        daily_orders,
        daily_returns,
        RANK() OVER(PARTITION BY category_id ORDER BY daily_returns DESC) as rank_in_category
    FROM daily_metrics
)
SELECT * FROM category_ranks
WHERE rank_in_category <= 5;

Hasilnya? Dari timeout error menjadi jawaban dalam 10 detik.

Actionable Insight:

Investasikan minimal 30 menit setiap hari selama sebulan untuk memperdalam SQL, khususnya window functions, CTEs, dan query optimization. Ini akan memberimu keunggulan kompetitif dibanding 90% data scientist yang hanya fokus pada machine learning.

2. Pemahaman Bisnis Mengalahkan Algoritma Canggih

Klienku tidak peduli dengan random forests atau neural networks.

Mereka hanya ingin tahu mengapa produk unggulan mereka tidak laku di wilayah Indonesia Timur.

Jawabannya?

"Logistik terlambat setelah libur Lebaran. Pengiriman melewatkan jendela permintaan puncak."

Satu insight itu menghemat kerugian senilai Rp3 miliar dalam bentuk inventori yang terancam kedaluwarsa.

Contoh Konkret:

Saat bekerja dengan marketplace lokal, aku menemukan bahwa pengguna di Jawa Timur memiliki rasio konversi 40% lebih rendah dari rata-rata. Tim data engineering menghabiskan berminggu-minggu membangun sistem rekomendasi canggih untuk mengatasi masalah ini.

Namun, setelah mewawancarai 20 pengguna di region tersebut, aku menemukan akar masalahnya: metode pembayaran favorit mereka (transfer bank lokal) sering mengalami gangguan dan gagal verifikasi otomatis.

Solusi sederhana: menambahkan opsi konfirmasi manual dan SMS notifikasi. Hasilnya? Konversi naik 62% dalam satu minggu.

Actionable Insight:

Luangkan waktu 1 jam seminggu untuk berbicara dengan tim bisnis non-teknis (marketing, sales, customer service). Mereka memiliki wawasan berharga yang tidak akan pernah kamu temukan dalam data mentah.

3. Data Cleaning adalah 80% Pekerjaan Sesungguhnya

Aku menghabiskan jauh lebih banyak waktu menangani NULL values, ketidakcocokan format tanggal, dan typo daripada membangun model.

Contoh Nyata:

Dalam proyek analisis sentimen untuk salah satu bank terbesar di Indonesia, kami menemukan bahwa 65% komentar negatif terkait "ATM tidak berfungsi" sebenarnya adalah karena kesalahan input data. Agen customer service mengkategorikan "kartu tertelan" dan "ATM offline" dalam kategori yang sama, menciptakan ilusi masalah besar pada jaringan ATM.

Setelah pembersihan data yang teliti, kami menemukan bahwa masalah sebenarnya adalah UI aplikasi mobile yang membingungkan, bukan infrastruktur ATM.

Actionable Insight:

Bangun template data cleaning reusable untuk masalah yang sering terjadi di industrimu. Misalnya, untuk e-commerce Indonesia, buat fungsi standarisasi untuk:

Format alamat yang berantakan
Variasi nama produk
Ketidakkonsistenan satuan (gram vs kilogram)
Format nomor telepon

Babak 3: Tools yang Benar-Benar Kugunakan Sekarang (dan Alasannya)

Inilah stack teknologi yang membantuku bertahan (dan berkembang) sebagai data scientist di dunia nyata:

SQL (BigQuery & PostgreSQL) - untuk mengolah dataset masif
Power BI & Looker - untuk membuat dashboard yang benar-benar digunakan eksekutif
Python (Pandas + Polars) - untuk data wrangling dengan kecepatan kilat
ChatGPT + Claude - untuk brainstorming KPI, hipotesis & optimasi SQL
Notion - untuk mendokumentasikan setiap langkah seperti profesional

Pengalaman Konkret:

Ketika diminta menganalisis data penjualan marketplace dengan 1 miliar transaksi tahunan, aku mulai dengan BigQuery untuk aggregation awal, lalu mengekspor hasil aggregation (bukan raw data!) ke Pandas untuk analisis lanjutan, dan akhirnya memvisualisasikan hasilnya di Power BI.

Hasilnya? Dashboard yang bisa diperbarui setiap 15 menit, bukan setiap hari seperti sebelumnya.

Actionable Insight:

Jangan terjebak pada satu tool. Kuasai "flow" data dari sumber hingga visualisasi.

Contohnya:

Extract dan aggregasi dengan SQL
Transformasi dan modeling dengan Python/R
Visualisasi dengan BI tool (Power BI/Tableau/Looker)

Babak Terakhir: Mau Jadi Data Scientist Top 1%?

Bukan tentang menghafal rumus.

Atau mendapatkan skor 100% di Kaggle.

Ini tentang:

✅ Memecahkan masalah bisnis nyata

✅ Berkomunikasi dengan jelas ke orang non-teknis

✅ Memahami mengapa data itu penting

Jika kamu baru memulai, fokuslah pada penguasaan:

SQL (sungguh, ini sangat krusial)
Framework pemecahan masalah (seperti CRISP-DM)
Pengetahuan domain (mulai dengan retail atau fintech yang berkembang pesat di Indonesia)

Dan selalu tanyakan pada diri sendiri:

"Jika aku mempresentasikan ini ke CEO, akankah mereka peduli?"

Pengalaman Pribadi:

Salah satu momen paling membanggakan dalam karirku adalah ketika CEO dari bank besar di Indonesia menghentikan presentasiku di slide ketiga dan berkata: "Cukup, saya mengerti masalahnya. Mari kita implementasikan solusimu mulai minggu depan."

Presentasiku tidak berisi model kompleks, hanya analisis sederhana yang menunjukkan bahwa pengguna mobile banking yang mengalami gagal login lebih dari 2 kali memiliki kemungkinan 78% lebih tinggi untuk menutup rekening dalam 90 hari.

Actionable Insight:

Untuk setiap analisis yang kamu lakukan, tuliskan "So what?" di bagian akhir. Apa tindakan konkret yang bisa diambil berdasarkan insight ini? Tanpa tindakan, analisismu hanyalah trivia menarik, bukan insight yang mengubah bisnis.

Kesimpulan: Pesan dari 50 Tahun Pengalaman

Tools memang penting, tapi strategi jauh lebih penting

SQL masih menjadi skill paling diremehkan dalam data science

Menjadi data scientist berarti memecahkan masalah manusia dengan data

Perjalanan di dunia data telah mengajariku satu hal: teknologi berubah, tetapi kemampuan untuk mengubah data menjadi keputusan selalu bernilai.

Mulailah dengan memahami masalah bisnis, pilih tools yang tepat untuk pekerjaan itu, dan selalu, selalu prioritaskan insight yang actionable dibanding analisis yang rumit tapi tak berdampak.

Glosarium Data Scientist untuk Pemula

1. CTE (Common Table Expression)

Pernyataan SQL yang memungkinkan kamu membuat tabel sementara yang bisa direferensikan dalam query. Seperti membuat "kotak kerja" untuk menyederhanakan query kompleks.

2. Window Functions

Fungsi SQL yang memungkinkan perhitungan di seluruh serangkaian baris yang terkait dengan baris saat ini. Contoh: ROW_NUMBER(), RANK(), LAG(). Seperti kemampuan melihat tetangga dalam barisan saat menganalisis satu baris.

3. Data Wrangling

Proses membersihkan, merestrukturisasi, dan memperkaya data mentah menjadi format yang diinginkan untuk analisis. Ibarat menjinakkan kuda liar data agar bisa digunakan.

4. ETL (Extract, Transform, Load)

Proses mengambil data dari sumber, mengubahnya ke format yang diinginkan, dan memuatnya ke destinasi. Seperti mengambil bahan mentah, memasaknya, dan menyajikannya di piring.

5. CRISP-DM

Cross-Industry Standard Process for Data Mining. Metodologi standar untuk proyek data mining/machine learning yang terdiri dari: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment.

6. Agregasi

Proses mengumpulkan data dari berbagai sumber dan merangkumnya. Fungsi agregasi umum: SUM(), AVG(), COUNT(). Seperti mengambil karung berisi batu dan melaporkan total beratnya, bukan berat setiap batu.

7. Polars

Library Python untuk analisis data yang lebih cepat dari Pandas untuk dataset besar. Menggunakan arsitektur "lazy evaluation" untuk optimasi query. Alternatif turbo untuk Pandas.

8. Data Lineage

Dokumentasi tentang asal-usul data, proses yang diterapkan padanya, dan perjalanannya dalam sistem. Sangat penting untuk audit dan pemecahan masalah. Seperti silsilah keluarga untuk datamu.

9. Feature Engineering

Proses menciptakan variabel/fitur baru dari data mentah yang ada untuk meningkatkan performa model. Seperti koki yang menciptakan rasa baru dari bahan-bahan yang sudah ada.

10. Data Governance

Kerangka kerja untuk mengelola ketersediaan, kegunaan, integritas, dan keamanan data. Seperti undang-undang dan peraturan untuk mengelola data perusahaan.

in Data Analyst

Cheat Code yang Saya Harap Diketahui Sejak Awal Karir sebagai Data Analyst