Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hari ini saya membaca makalah tahun 2025 "Memprediksi Tren Harga Cryptocurrency Jangka Pendek dengan Data Buku Pesanan", dan penulis juga memiliki akun X @Kev, sehingga Anda dapat pergi dan menonton. Temuan inti dari makalah ini adalah bahwa pra-pemrosesan data frekuensi tinggi lebih diutamakan daripada kompleksitas model, yaitu, setelah pembersihan data, merancang fitur secara manual + model sederhana sebanding dengan atau bahkan lebih baik daripada model dalam yang sepenuhnya otomatis (fitur pembelajaran otomatis jaringan saraf). Temuan ini adalah konsensus arus utama di bidang keuangan tradisional, tetapi jarang melakukan penelitian di pasar kripto.
Data penelitian penulis adalah data buku pesanan asli L2 dari antarmuka publik Bybit pada 30 Januari 2025. Satu snapshot setiap 100 milidetik, dengan maksimum 200 lapisan pesanan per snapshot. Eksperimen utama memakan waktu 100.000 buah (sekitar 166 menit), dan eksperimen urutan diperluas menjadi 1 juta keping (sekitar 28 jam). Data tersedia secara bebas, sehingga reproduktifitas kertas bagus.
Metode penelitiannya adalah membagi data menjadi tiga kelompok: tidak disaring, SG difilter, dan Kalman difilter, dan kemudian memasukkan 6 model secara terpisah, dan memprediksi arah harga setelah 100ms / 500ms / 1s di bawah label klasifikasi biner (naik/turun) dan tiga klasifikasi (naik/datar/turun), masing-masing. Secara total, 3 (pra-pemrosesan data), × 6 (6 set model), ×2 (prediksi hasil klasifikasi biner atau tiga), × 3 (tiga jendela waktu prediksi) = 108 set eksperimen.
Model dikelompokkan berdasarkan kompleksitas sebagai berikut:
- Model Sederhana (Regresi Logistik dan XGBoost): Desain fitur secara manual (misalnya, perbedaan volume bid-ask, ketidakseimbangan penawaran-permintaan) sebagai input model. Yang tercepat, dan kita dapat memahami bagaimana model membuat penilaian berdasarkan fitur-fiturnya, dan kita tahu mengapa demikian.
- Model Hibrida (CNN+CatBoost dan CNN+XGBsoost): Alih-alih merancang fitur secara manual, biarkan jaringan saraf mempelajari fitur data sendiri, lalu masukkan fitur tersebut ke dalam pohon keputusan. Keuntungannya adalah dimungkinkan untuk menemukan kombinasi fitur yang tidak terduga dengan buatan, tetapi kerugiannya adalah fitur-fitur ini sulit dijelaskan, dan kami tidak tahu mengapa mereka diketahui.
- Deep Model (DeepLOB dan versi yang disederhanakan): Jaringan saraf end-to-end yang secara otomatis menyelesaikan semuanya mulai dari ekstraksi fitur (perbedaannya adalah dapat mengekstrak informasi urutan sebagai fitur kali ini) hingga penilaian akhir.
Metrik evaluasi adalah tingkat akurasi prediksi (secara teknis disebut skor F1, yang mengukur "berapa kali Anda benar-benar naik ketika Anda mengatakan itu benar-benar naik" dan "berapa kali Anda menangkapnya ketika benar-benar naik", 0 banding 1, semakin tinggi semakin baik). Catat waktu pelatihan pada saat yang bersamaan. 80% dari set pelatihan dan 20% dari set pengujian, tanpa validasi silang, karena data waktu tidak cocok untuk pengocok acak.
Poin inti 1: Kualitas data lebih penting daripada pemilihan model
Ambil prediksi buku pesanan tiga kategori 500ms 40 lapis sebagai contoh:
- XGBoost yang sama memiliki akurasi prediksi 0,45 saat memasukkan data mentah, tetapi naik menjadi 0,54 setelah penghalusan SG, peningkatan sekitar 21%.
- Menukar model dengan DeepLOB yang lebih kompleks, yang lebih rendah pada data mentah (0,43). Meskipun DeepLOB melakukan penghalusan SG (0,52), masih belum sebagus XGBoost+SG (0,54).
Peningkatan kualitas data jauh lebih besar daripada peningkatan kompleksitas model.
Mengapa penyaringan SG begitu efektif?
Data buku pesanan mentah sangat keriting, dan harga serta volume pesanan tertunda melonjak hebat pada tingkat milidetik, yang biasanya diyakini industri sebagai "kedipan" yang disebabkan oleh pembuat pasar dengan cepat menyesuaikan kutipan. Penyaringan SG adalah mengambil jendela kecil dan menggeser data, menyesuaikan kurva halus di jendela di setiap posisi, dan mengambil nilai titik tengah kurva sebagai hasil penghalusan. Tidak seperti rata-rata bergerak sederhana, itu tidak merusak titik balik tren yang sebenarnya - karena menggunakan kurva agar sesuai dengan bentuk data, bukan rata-rata secara kasar. Baris kode dalam scipy dapat dipanggil, jendela 21, dan polinomial orde ketiga adalah parameter paling stabil dalam kertas, yang dapat digunakan sebagai titik awal untuk penelitian Anda.
2. Jendela keputusan membatasi kompleksitas model
Dua konsep harus dibedakan di sini:
- Waktu pelatihan adalah waktu pelatihan model offline (satu kali)
- Waktu inferensi adalah waktu ketika model membuat prediksi untuk setiap data baru di pasar riil
Frekuensi inferensi tergantung pada desain strategi, dan durasi jendela keputusan menentukan batas atas kecepatan inferensi, dan batas atas kecepatan inferensi membatasi kompleksitas model.
...

Teratas
Peringkat
Favorit
