Phân phối Poisson là công cụ thống kê cổ điển dùng để mô hình hóa số sự kiện hiếm xảy ra trong khoảng thời gian cố định — và “số bàn thắng trong một trận bóng đá” gần đúng với giả định này. Mô hình Poisson trở thành phương pháp nền tảng của hầu hết siêu máy tính dự đoán bóng đá, bao gồm cả GOALGORITHM và Ensemble AI Model của BongdaNET. Phân tích dữ liệu, không khuyến khích cá cược.
Mô hình Poisson là gì?
Phân phối Poisson mô tả xác suất xảy ra k sự kiện trong khoảng thời gian cố định, với điều kiện:
1. Các sự kiện xảy ra độc lập với nhau
2. Tốc độ trung bình λ (lambda) không đổi
3. Hai sự kiện không xảy ra đồng thời
Công thức Poisson:
P(X = k) = λ^k × e^(−λ) / k!
Trong đó:
– k = số bàn thắng cần tính (0, 1, 2, 3…)
– λ = số bàn thắng trung bình kỳ vọng
– e ≈ 2.71828
– k! = giai thừa của k (vd 3! = 3×2×1 = 6)
Áp dụng vào bóng đá: nếu ước lượng đội A ghi trung bình λ_A = 1.8 bàn/trận trong điều kiện sân nhà gặp đối thủ tầm trung, ta có thể tính xác suất đội A ghi 0, 1, 2, 3… bàn trong 1 trận cụ thể.
Vì sao Poisson hợp với số bàn thắng?
Bóng đá có 3 đặc tính khớp với giả định Poisson:
| Đặc tính trận đấu | Khớp giả định Poisson? |
|---|---|
| Số bàn thắng/trận thấp (trung bình 2.5-3.0) | ✅ Poisson lý tưởng cho “rare events” |
| Cơ hội ghi bàn rải rác suốt 90 phút | ✅ Tốc độ ~đều |
| Mỗi cú sút độc lập với cú sút khác về xác suất vào lưới | ⚠️ Một phần (chấm dứt khi penalty thẻ đỏ) |
Trên dữ liệu thực tế của Premier League 2014-2024, phân phối số bàn thắng/trận bám sát phân phối Poisson với λ trung bình ≈ 1.45 cho đội nhà và 1.18 cho đội khách. Sai số dưới 3% so với phân phối lý thuyết — đủ tốt để làm baseline.
Cách tính λ (lambda) cho 1 trận cụ thể
λ không phải hằng số — mỗi trận có λ riêng dựa vào sức mạnh đội + đối thủ + sân nhà. Công thức Maher 1982 (kinh điển):
λ_A = α_A × β_B × γ_home
Trong đó:
– α_A = chỉ số tấn công của đội A (chuẩn hóa)
– β_B = chỉ số phòng ngự của đội B (chuẩn hóa)
– γ_home = hệ số sân nhà (~1.35 cho EPL)
Tương tự cho đội B:
λ_B = α_B × β_A × γ_away
Với γ_away ≈ 0.85.
Cách ước lượng α, β: dùng maximum likelihood estimation trên 38 trận gần nhất của mỗi đội — chính là bước “feature engineering” trong pipeline siêu máy tính BongdaNET.
Ví dụ thực tế: Tính kèo trận EPL
Giả sử trận Manchester City (sân nhà) vs Arsenal, sau khi chạy MLE qua 38 trận gần nhất:
– λ_City = 2.1 bàn (kỳ vọng)
– λ_Arsenal = 1.3 bàn (kỳ vọng)
Áp dụng Poisson tính xác suất số bàn từng đội:
| k bàn | P(City ghi k) | P(Arsenal ghi k) |
|---|---|---|
| 0 | 12.2% | 27.3% |
| 1 | 25.7% | 35.4% |
| 2 | 27.0% | 23.0% |
| 3 | 18.9% | 10.0% |
| 4 | 9.9% | 3.2% |
| 5+ | 6.3% | 1.1% |
Vì hai đội ghi bàn gần như độc lập (theo Maher), nhân hai phân phối → ma trận xác suất 5×5 tỷ số:
| Arsenal 0 | Arsenal 1 | Arsenal 2 | Arsenal 3+ | |
|---|---|---|---|---|
| City 0 | 3.3% | 4.3% | 2.8% | 1.8% |
| City 1 | 7.0% | 9.1% | 5.9% | 3.7% |
| City 2 | 7.4% | 9.6% | 6.2% | 3.9% |
| City 3+ | 9.8% | 12.7% | 8.3% | 5.2% |
Tổng hợp:
– City thắng = tổng ô dưới đường chéo ≈ 56.4%
– Hòa = tổng đường chéo ≈ 23.6%
– Arsenal thắng = tổng ô trên đường chéo ≈ 20.0%
So sánh với kèo nhà cái (vd Pinnacle 1.83 / 4.20 / 3.80 → fair probability sau de-vig ~54% / 23% / 23%): mô hình Poisson cơ bản cho kết quả gần với thị trường. Đây là lý do Poisson xứng đáng là “baseline” trong mọi ensemble nghiêm túc.
Giới hạn của mô hình Poisson cơ bản
Mô hình “vanilla Poisson” có 3 yếu điểm đã được nghiên cứu:
1. Giả định độc lập sai trong trận căng thẳng
Khi 1 đội ghi bàn ở phút 80, đội kia đẩy cao đội hình, làm tăng xác suất cả 2 đội ghi tiếp. Hai biến số “bàn thắng đội nhà” và “bàn thắng đội khách” không hoàn toàn độc lập — có correlation âm nhẹ trong trận hấp dẫn.
2. Underestimate xác suất 0-0 và 1-1
Phân phối Poisson cơ bản dự đoán quá ít tỷ số 0-0 và 1-1 so với thực tế. Trên 10 mùa EPL, có 8.2% trận kết thúc 0-0 nhưng Poisson chỉ dự ~7.5%; có 12.8% trận 1-1 nhưng Poisson dự ~11.2%.
3. Không nắm bắt momentum trong trận
Đội đang dẫn thường chậm lại (cầm bóng giữ kết quả), giảm tốc độ ghi bàn. Poisson giả định λ không đổi suốt 90 phút — sai trong giai đoạn cuối.
Dixon-Coles 1997: Bản nâng cấp Poisson
Mark Dixon & Stuart Coles (1997) đề xuất chỉnh sửa quan trọng cho mô hình Poisson:
Áp dụng “low-score adjustment factor” τ(λ_A, λ_B, ρ) cho 4 tỷ số: 0-0, 1-0, 0-1, 1-1
Hệ số τ làm tăng nhẹ xác suất 4 tỷ số “low-scoring” và giảm nhẹ các tỷ số khác cùng tổng bàn — duy trì tính chuẩn hóa của phân phối nhưng khớp với dữ liệu thực tế tốt hơn.
Đồng thời, Dixon-Coles giới thiệu:
– Weighting theo thời gian — trận gần đây có trọng số cao hơn (exponential decay)
– Maximum likelihood estimation chung cho cả hai đội + sân nhà
Kết quả backtest: Dixon-Coles giảm log-loss 4-7% so với Poisson vanilla trên EPL 2000-2024.
→ Đây là phương pháp BongdaNET dùng làm lớp Poisson trong cả GOALGORITHM và Ensemble AI Model.
Cách BongdaNET tích hợp Poisson vào ensemble
Mô hình Poisson cho ra xác suất tỷ số chính xác rất tốt nhưng yếu ở:
– Phản ứng nhanh với chấn thương / thẻ đỏ phút chót
– Đánh giá phong độ tâm lý đội tuyển
– Nắm bắt pattern phi tuyến giữa 40+ feature
Vì vậy BongdaNET kết hợp Poisson với:
– Chỉ số ELO — sức mạnh tương đối
– Mô hình xG — chất lượng cơ hội (tiền đề cho λ ước lượng tốt hơn)
– AI Machine Learning — pattern phi tuyến + thông tin chấn thương real-time
Trọng số Poisson trong ensemble:
– GOALGORITHM (annual league): 25%
– Ensemble AI Model (tournament): 25%
Lớp Poisson là xương sống chuyển hóa “expected goals” (λ) sang “xác suất tỷ số chính xác” — không ensemble nào bỏ qua được bước này.
Câu Hỏi Thường Gặp
Poisson chính xác đến đâu cho dự đoán bóng đá?
Poisson vanilla đạt log-loss ~0.62 trên EPL (so với baseline market 0.58). Dixon-Coles cải thiện xuống 0.57-0.59 — gần ngang market. Ensemble tích hợp Poisson + ELO + xG + ML đạt 0.54 (vượt market closing line).
Có thể tự build Poisson model tại nhà?
Có. Cần: dữ liệu kết quả 1-2 mùa giải (FBref miễn phí) + Python với scipy.stats.poisson + công thức MLE cơ bản (≈ 50 dòng code). Hướng dẫn trong sách “Soccer Analytics” của McHale & Forrest.
Poisson có dự đoán được hòa 0-0 không?
Có, nhưng underestimate ~10%. Cần Dixon-Coles correction để khớp dữ liệu thực tế. Lý do: trận 0-0 thường có “low expected goals” nhưng cũng có yếu tố tâm lý (đội yếu cố thủ) mà Poisson không bắt được.
Vì sao bài này nhắc Dixon-Coles nhưng không Bayesian Poisson?
Bayesian Poisson (Baio & Blangiardo 2010) tốt hơn cho giải có ít dữ liệu (vd V-League với ~26 vòng/mùa). Bài viết này tập trung phiên bản frequentist vì đơn giản hơn để bạn đọc tự reproduce. BongdaNET có lớp Bayesian áp dụng riêng cho V-League trong GOALGORITHM.
λ trung bình thật của Premier League là bao nhiêu?
Mùa giải 2023-2024: λ trung bình đội nhà = 1.51, đội khách = 1.18. Tổng kỳ vọng ~2.69 bàn/trận. Tương đối ổn định qua 10 mùa giải gần đây (dao động 2.55-2.85).
Mô hình Poisson có áp dụng được cho thị trường Châu Á (Handicap) không?
Có. Sau khi tính ma trận 5×5 tỷ số, tổng xác suất nhóm theo cách hiệu HC cho phép tính fair odds cho mọi handicap line (0.25, 0.5, 0.75…). BongdaNET dùng cách này tạo bảng kèo Châu Á tại /ty-le-keo/.
Đọc tiếp
4 mô hình toán học trong ensemble:
– ⭐ Bạn đang đọc: Mô hình Poisson (phân phối xác suất số bàn thắng)
– Chỉ số ELO — sức mạnh tương đối hai đội
– Mô hình xG — chất lượng cú sút
– AI Machine Learning — pattern phi tuyến từ dữ liệu lớn
Quay về:
– Máy tính dự đoán bóng đá BongdaNET
– Nhận định bóng đá hôm nay
Nguồn tham khảo
- Maher, M.J. (1982) — “Modelling association football scores”, The Statistician
- Dixon, M. & Coles, S. (1997) — “Modelling Association Football Scores and Inefficiencies in the Football Betting Market”, Applied Statistics
- Baio, G. & Blangiardo, M. (2010) — Bayesian hierarchical model for football leagues
- FBref.com — dữ liệu Premier League 2014-2024 cho minh họa λ trung bình
Tác giả: Tô Hoàng Anh — chuyên gia phân tích dữ liệu bóng đá, BongdaNET.
Phân tích dữ liệu, không khuyến khích cá cược.





