ทำไม Backtest ของผมให้ตัวเลขน้อยลงเมื่อทำการทดสอบที่ยากขึ้น

⚠️ เนื้อหานี้เป็นบันทึกการวิจัยและการเทรดส่วนตัว ไม่ใช่คำแนะนำการลงทุน ผู้เขียนไม่ได้ให้บริการที่ปรึกษาที่ได้รับใบอนุญาต

บทเรียนที่ขัดกับสัญชาตญาณจากการทดสอบเชิงปริมาณคือ: ตัวเลขที่น้อยลงจากการทดสอบที่ยากขึ้นนั้น น่าเชื่อถือกว่า ตัวเลขที่ใหญ่กว่าจากการทดสอบที่ง่ายกว่า

ผมเรียนรู้สิ่งนี้โดยเฉพาะจากการศึกษา volume-pop บนหุ้นไทย

การตั้งค่า

วิธีพื้นฐานของผมคือการ breakout จาก contracting base — หุ้นที่สร้างฐานแน่นด้วย higher lows แล้ว break ผ่าน pivot point สมมติฐาน volume-pop คือการกำหนดให้ปริมาณขึ้น 1.5 เท่าในวันที่ breakout จะปรับปรุงผลลัพธ์: ถ้าหุ้น break เงียบๆ ข้ามไป; ถ้ามีการซื้อจริงเข้ามา ก็เข้า

ผมอธิบาย finding หลักในบทความก่อนหน้า Volume-pop ปรับปรุงประสิทธิภาพในประเทศไทย และทำให้ประสิทธิภาพในสหรัฐฯ แย่ลง ผลลัพธ์ในทิศทางทั้งสองเป็นของจริง

แต่เมื่อมีคนถามว่า finding ของไทย น่าเชื่อถือ หรือไม่ — ว่าผมสามารถทำการทดสอบที่ยากขึ้นและยังเห็นผลลัพธ์ได้หรือเปล่า — ผมก็กลับไปทำ stress test เพิ่มเติม

ผลลัพธ์รวมเดิม: การปรับปรุงค่าเฉลี่ย forward return +3.60% เมื่อใช้ volume-pop gate

นั่นคือตัวเลขที่ดูแข็งแกร่ง

สิ่งที่การทดสอบที่ยากขึ้นแสดง

การทดสอบ 1: Regime gate

ผมแบ่งผลลัพธ์ตามสภาวะตลาด Volume-pop ทำงานได้เฉพาะใน Confirmed Uptrend (ดัชนี SET อยู่เหนือ MA 50 วัน และ MA 50 อยู่เหนือ MA 200 วัน) ในสภาวะ correction การปรับปรุงหายไป ช่วงความเชื่อมั่นสำหรับ Confirmed Uptrend: [+0.10%, +1.60%] ช่วงความเชื่อมั่นสำหรับ correction ครอบคลุมศูนย์ — ไม่มีสัญญาณ

การปรับปรุงเป็นของจริง แต่มีเงื่อนไข regime ค่าเฉลี่ยรวม +3.60% รวมสัญญาณจริงใน uptrend กับสัญญาณศูนย์ใน correction การรวมกันนั้นทำให้ตัวเลขดูใหญ่กว่าผลกระทบที่สามารถ address ได้จริง

การทดสอบ 2: Walk-forward

ค่าเฉลี่ยรวมมาจากการรวมทุกปี แต่บางปีพิเศษมาก — ปี 2009 (การฟื้นตัว) ปี 2014 (bull run ของ SET) ปี 2020 (การพุ่งหลัง COVID) ปีเหล่านี้มี momentum แข็งแกร่งทั่วกระดาน และสัญญาณ volume-pop แข็งแกร่งเป็นพิเศษในช่วงนั้น ทำให้ค่าเฉลี่ยรวมพองตัวขึ้น

ใน walk-forward testing — ที่แต่ละ out-of-sample window ถูกประเมินอย่างอิสระ — เรื่องราวเปลี่ยนไป:

60% ของปีเป็นบวก (12 จาก 20 ปี ระหว่างปี 1990-2025)
การปรับปรุงมัธยฐานรายปี: +1.9% (ไม่ใช่ +3.60%)
ส่วนใหญ่ของค่าเฉลี่ยรวมมาจาก 3 ปีสูงสุด ลบทิ้ง: ผลลัพธ์กลายเป็น marginal

ค่ากลาง walk-forward ซื่อสัตย์ ค่าเฉลี่ยรวมนั้นเยินยอ

ทำไมตัวเลขที่น้อยกว่าถึงดีกว่า

นี่คือส่วนที่ขัดกับสัญชาตญาณ: ค่ากลาง WF ที่ +1.9% น่าเชื่อถือกว่า ค่าเฉลี่ยรวมที่ +3.60% ไม่ใช่เพราะมันใหญ่กว่า — มันไม่ใช่ — แต่เพราะมันรอดจาก:

การแบ่ง regime ที่อาจทำให้มันกลายเป็นศูนย์
20 out-of-sample windows อิสระที่อาจแสดงความไม่สอดคล้อง
การลบ 3 ปีที่พิเศษออก ซึ่ง inflate ผลลัพธ์รวม

สิ่งที่ยังเป็นบวกหลังจากการทดสอบทั้งหมดนั้นได้รับการทดสอบที่หนักกว่า การลดลงจาก 3.60% เป็น 1.9% คือการทดสอบที่บอกคุณว่า 1.7 เปอร์เซ็นต์พอยต์ของตัวเลขเดิมมาจากสภาวะที่เอื้ออำนวยซึ่งไม่ได้เกิดขึ้นเสมอ

1.9% คือสิ่งที่คุณควรคาดหวังในปีปกติ 3.60% คือสิ่งที่คุณได้เมื่อเฉลี่ยปีปกติกับปีพิเศษเข้าด้วยกัน

ความหมายสำหรับการตีความ Backtest

มีสองวิธีในการทำให้ตัวเลข backtest ใหญ่ขึ้น:

ทำให้วิธีการละเอียดขึ้น: เพิ่ม filter ปรับ parameter เลือก lookback window สิ่งนี้ inflate ตัวเลขโดยการ fit วิธีการกับข้อมูลประวัติศาสตร์ การปรับปรุงอาจไม่เกิดซ้ำ

การทดสอบที่ยากขึ้นบน fixed method: รันผ่าน walk-forward windows แบ่งตาม regime ลบปีสูงสุด N ปี ทดสอบซ้ำบนข้อมูล OOS ตัวเลขมักจะหดตัว — แต่สิ่งที่เหลืออยู่มีแนวโน้มที่จะแสดงถึง edge จริง

วิธีแรกคือวิธีที่ผู้เทรดรายย่อยส่วนใหญ่ปรับปรุง backtest วิธีที่สองคือสิ่งที่ผมพยายามทำ

เมื่อตัวเลขหดตัวภายใต้การทดสอบที่ยากขึ้น นั่นไม่ใช่ความล้มเหลว นั่นคือการทดสอบที่ทำงานถูกต้อง — กรองส่วนประกอบที่มาจากโชคออก และเหลือแกนหลักที่สามารถ replicate ได้

การปรับปรุง volume-pop บนหุ้นไทยเปลี่ยนจาก +3.60% เป็น +1.9% ภายใต้การทดสอบที่ยากขึ้น ผมเชื่อ +1.9% มากกว่า มันคือตัวเลขที่ผมยินดีพึ่งพาสำหรับการตัดสินใจด้านเงินทุน

กฎปฏิบัติ

ก่อนที่จะอ้างผลลัพธ์ backtest ใดๆ ตอนนี้ผมถามว่า: ตัวเลขนี้จะเป็นอย่างไรภายใต้ walk-forward? Regime-split? ลบ top-3?

ถ้าผลลัพธ์พังทลายภายใต้การทดสอบเหล่านั้น ตัวเลขเดิมเป็นแค่ noise ที่ดูดี

ถ้าผลลัพธ์หดตัวแต่รอดชีวิต — อย่างที่ volume-pop ทำ — คุณมีบางอย่าง มันเล็กกว่าที่ดูเหมือน แต่มันเป็นของจริง