Các nhà nghiên cứu đã thử tìm cách dự đoán kết quả của mùa World Cup lần này. Nhiều công ty đã sử dụng các nhà thống kê chuyên nghiệp để phân tích cơ sở dữ liệu để định lượng xác suất kết quả của các trận đấu.
Một cách ước tính tốt hơn là kết hợp những tỷ lệ cược lấy từ những người đặt cược. Cách tiếp cận này cho thấy Brazil là đội được yêu thích nhất, với xác suất thắng World Cup là 16,6%, và đứng ngay sau đó là Đức (12,8%) và Tây Ban Nha (12,5%).
Tuy nhiên trong những năm gần đây, các nhà nghiên cứu đã phát triển được những kỹ thuật máy học có khả năng làm tốt hơn nhiều so với những phương pháp thống kê thông thường. Vậy những phương pháp này đã dự đoán kết quả của World Cup 2018 như thế nào?
Câu trả lời đến từ công trình nghiên cứu của Andreas Groll tại Đại học Kỹ thuật Dortmund ở Đức và một số cộng sự của anh. Những người này đã kết hợp các công cụ máy học và các phương pháp thống kế thông thường, một phương pháp được gọi là cách tiếp cận rừng-ngẫu-nhiên, để xác định được đội có khả năng cao dành được chiến thắng.
Trong một vài năm trở lại đây, phương pháp rừng-ngẫu-nhiên được coi là một công cụ mạnh mẽ, có khả năng phân tích những tập dữ liệu lớn, đồng thời tránh được cạm bẫy của các phương pháp khai thác dữ liệu khác. Phương pháp này dựa trên nguyên lý rằng những sự kiện xảy ra trong tương lai có thể được quyết định bởi một biểu đồ quyết định hình cây, nơi mà kết quả được tính toán tại mỗi nhánh bằng cách tham chiếu đến tập huấn luyện.
Tuy nhiên, cây quyết định có một vấn đề phổ biến. Trong những giai đoạn sau của quá trình phân nhánh, các quyết định có thể bị bóp méo nghiêm trọng, bởi tập huấn luyện rất thưa thớt và dễ có biến đổi lớn, một vấn đề được gọi là mô hình quá khớp (overfitting).
Cách tiếp cận rừng-ngẫu-nhiên lại khác một chút. Thay vì phải tính kết quả tại mỗi nhánh, quá trình này tính kết quả ở những nhánh ngẫu nhiên. Và nó làm công đoạn này nhiều lần, mỗi lần với một tập gồm nhiều nhánh được chọn ngẫu nhiên. Kết quả cuối cùng là trung bình của tất cả những cây quyết định này.
Cách tiếp cận này có những lợi thế đáng kể. Đầu tiên, nó không gặp phải vấn đề mô hình quá khớp như trong những cây quyết định thông thường. Nó cũng cho thấy yếu tố nào là quan trọng nhất trong việc xác định kết quả.
Vì thế, nếu một cây quyết định có chứa nhiều tham số, ta có thể dễ dàng thấy được tham số nào có ảnh hưởng lớn nhất đến kết quả. Sau đó, những yếu tố ít quan trọng hơn có thể sẽ bị bỏ qua trong tương lai.
Groll và cộng sự đã sử dụng cách tiếp cận này để mô phỏng World Cup 2018. Họ đã mô hình hoá kết quả của mỗi trận đấu và sử dụng các kết quả này để dựng lên một giải đấu có xác suất xảy ra cao nhất.
Groll và cộng sự bắt đầu với một loạt cấc yếu tố tiềm năng mà có thể được sử dụng để xác định kết quả. Những yếu tố này bao gồm các yếu tố kinh tế như GDP hay dân số của quốc gia, xếp hạng FIFA của đội tuyển quốc gia, tại sản của từng đội cũng như độ tuổi trung bình, số cầu thủ Champions League mà họ có, liệu họ có lợi thế chủ nhà hay không, v.v…
Thậm chí cách tiếp cận rừng-ngẫu-nhiên còn cho phép Groll sử dụng cả những thứ hạng mà những người đặt cược sử dụng.
Họ sẽ sử dụng những thông tin này trong mô hình và có được những thông tin chi tiết khá thú vị. Lấy ví dụ như, những yếu tố có ảnh hưởng nhiều nhất là thông tin về các thứ hạng như thứ hạng FIFA, thứ hạng của những tay đặt cược, v.v..
Những yếu tố quan trọng khác bao gồm GDP và số cầu thủ Champions League trong đội của các nước. Những yếu tố không quan trọng bao gồm dân số của quốc gia, quốc tịch của huấn luyện viên, v.v…
Và, phương pháp rừng-ngẫu-nhiên đã chọn Tây Ban Nha là đội có khả năng chiến thắng cao nhất, với xác suất là 17,8%.
Tuy nhiên, yếu tố quan trọng trong dự đoán này là cấu trúc của giải đấu. Nếu Đức vượt qua được vòng loại nhóm, có nhiều khả năng là họ sẽ gặp phải đối thủ mạnh trong vòng loại 16 đội.Vì vậy phương pháp rừng-ngẫu-nhiên đã ước tính cơ hội để Đức đạt được vào vòng tứ kết là 58%.
Trái lại, Tây Ban Nha có ít khả năng sẽ gặp phải đối thủ mạnh trong vòng loại 16 đội, và vì thế, họ có 73% cơ hội được đi vào vòng tứ kết.
Nếu cả hai đội này đi vào vòng tứ kết, tỉ lệ chiến thắng của họ là gần bằng nhau. Groll và cộng sự của anh cho rằng: “Tây Ban nha được ưu ái hơn một chút so với Đức vì Đức có khả năng khá cao là sẽ bị loại trong vòng chọi 16 đội.”
Tuy nhiên, có một điều bất ngờ khác: Quá trình cây-ngẫu nhiên có thể mô phỏng toàn bộ giải đấu, và quá trình này đã đưa ra một kết quả hoàn toàn khác.
Groll và cộng sự đã mô phỏng toàn bộ giải đấu 100.000 lần. “Theo như mô phỏng giải đấu có khả năng xảy ra cao nhất, thay vì Tây Ban Nha, thì Đức mới là đội sẽ thắng World Cup.”
Mặc dù vậy, do số lượng hoán vị rất lớn của giải đấu, khả năng này vẫn có thể rất khó xảy ra. Groll và cộng sự ước tính khả năng xảy ra trường hợp này là 1 trên 100.000.
Nói tóm gọn lại là, vào đầu giải đấu, Tây Ban Nha có khả năng chiến thắng cao, theo Groll và cộng sự. Tuy nhiên nếu Đức có thể vào được vòng tứ kết, họ sẽ có khả năng chiến thắng cao hơn.
Tham khảo MIT Technology Review