Ứng dụng của thuật toán rừng ngẫu nhiên – Random Forests, đây là một dạng nâng cao của Cây quyết định – decision tree; Rừng ngẫu nhiên là một thuật toán học máy linh hoạt, dễ sử dụng , tạo ra kết quả tuyệt vời ngay cả khi không điều chỉnh siêu tham số. Nó cũng là một trong những thuật toán được sử dụng nhiều nhất, do tính đơn giản và đa dạng của nó (nó có thể được sử dụng cho cả nhiệm vụ phân loại và hồi quy).

Bạn đang xem: Sử dụng thuật toán Random Forest để xây dựng mô hình dự đoán


Thuật toán rừng ngẫu nhiên – Random Forests

Thuật toán Random Forest là gì ?

Random Forest là một thuật toán học máy phổ biến thuộc về kỹ thuật học có giám sát. Nó có thể được sử dụng cho cả vấn đề Phân loại và Hồi quy trong ML. Nó dựa trên khái niệm học tập theo nhóm, là một quá trình kết hợp nhiều bộ phân loại để giải quyết một vấn đề phức tạp và để cải thiện hiệu suất của mô hình.

Như tên cho thấy, “Rừng ngẫu nhiên là một bộ phân loại chứa một số cây quyết định trên các tập con khác nhau của tập dữ liệu đã cho và lấy giá trị trung bình để cải thiện độ chính xác dự đoán của tập dữ liệu đó.” Thay vì dựa vào một cây quyết định, rừng ngẫu nhiên lấy dự đoán từ mỗi cây và dựa trên đa số phiếu dự đoán, và nó dự đoán kết quả cuối cùng.

Số lượng cây lớn hơn trong rừng dẫn đến độ chính xác cao hơn và ngăn ngừa vấn đề trang bị quá mức.

Sơ đồ dưới đây giải thích hoạt động của thuật toán Rừng ngẫu nhiên:

*
Kết hợp nhiều cây quyết định ra rừng ngẫu nhiên

Tầm quan trọng của tính năng rừng ngẫu nhiên

Một chất lượng tuyệt vời khác của thuật toán rừng ngẫu nhiên là rất dễ dàng đo lường tầm quan trọng tương đối của từng tính năng đối với dự đoán. Sklearn cung cấp một công cụ tuyệt vời để đo lường tầm quan trọng của một tính năng bằng cách xem xét mức độ mà các nút cây sử dụng tính năng đó làm giảm tạp chất trên tất cả các cây trong rừng. Nó tự động tính điểm số này cho mỗi tính năng sau khi đào tạo và chia tỷ lệ kết quả để tổng của tất cả mức độ quan trọng bằng một.


Nếu bạn không biết cây quyết định hoạt động như thế nào hoặc lá hay nút là gì, thì đây là một mô tả hay từ Wikipedia: “Trong cây quyết định, mỗi nút bên trong đại diện cho một ‘thử nghiệm’ trên một thuộc tính (ví dụ: đồng xu lật xuất hiện đầu hoặc đuôi), mỗi nhánh đại diện cho kết quả của bài kiểm tra và mỗi nút lá đại diện cho một nhãn lớp (quyết định được thực hiện sau khi tính toán tất cả các thuộc tính).  Một nút không có con là một lá ”.

Bằng cách xem xét tầm quan trọng của tính năng, bạn có thể quyết định tính năng nào có thể bị loại bỏ vì chúng không đóng góp đủ (hoặc đôi khi không đóng góp gì) cho quá trình dự đoán. Điều này rất quan trọng vì một quy tắc chung trong học máy là bạn càng có nhiều tính năng thì mô hình của bạn càng có nhiều khả năng bị trang bị quá mức và ngược lại.

Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên

Mặc dù một khu rừng ngẫu nhiên là một tập hợp các cây quyết định, có một số khác biệt.

Nếu bạn nhập một tập dữ liệu đào tạo với các tính năng và nhãn vào cây quyết định, nó sẽ hình thành một số bộ quy tắc, sẽ được sử dụng để đưa ra các dự đoán.

Ví dụ: để dự đoán liệu một người có nhấp vào quảng cáo trực tuyến hay không, bạn có thể thu thập các quảng cáo mà người đó đã nhấp vào trong quá khứ và một số tính năng mô tả quyết định của họ. Nếu bạn đặt các tính năng và nhãn vào cây quyết định, nó sẽ tạo ra một số quy tắc giúp dự đoán liệu quảng cáo có được nhấp vào hay không. Để so sánh, thuật toán rừng ngẫu nhiên chọn ngẫu nhiên các quan sát và đặc điểm để xây dựng một số cây quyết định và sau đó tính trung bình các kết quả.

Một sự khác biệt khác là cây quyết định “sâu” có thể bị quá mức. Hầu hết thời gian, rừng ngẫu nhiên ngăn chặn điều này bằng cách tạo các tập hợp con ngẫu nhiên của các đối tượng địa lý và xây dựng các cây nhỏ hơn bằng cách sử dụng các tập hợp con đó. Sau đó, nó kết hợp các cây con. Điều quan trọng cần lưu ý là điều này không phải lúc nào cũng hoạt động và nó cũng làm cho quá trình tính toán chậm hơn, tùy thuộc vào số lượng cây mà khu rừng ngẫu nhiên xây dựng.

Các ứng dụng của Rừng ngẫu nhiên

Chủ yếu có bốn lĩnh vực mà Rừng ngẫu nhiên chủ yếu được sử dụng:

Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán này để xác định rủi ro cho vay.Y học: Với sự trợ giúp của thuật toán này, các xu hướng bệnh tật và nguy cơ của bệnh có thể được xác định.Sử dụng đất: Chúng tôi có thể xác định các khu vực sử dụng đất tương tự bằng thuật toán này.Tiếp thị: Các xu hướng tiếp thị có thể được xác định bằng cách sử dụng thuật toán này.

Ưu điểm của Rừng ngẫu nhiên

Random Forest có khả năng thực hiện cả hai nhiệm vụ Phân loại và Hồi quy.Nó có khả năng xử lý các tập dữ liệu lớn với kích thước cao.Nó nâng cao độ chính xác của mô hình và ngăn chặn vấn đề trang bị quá mức.

Nhược điểm của Rừng ngẫu nhiên

Mặc dù rừng ngẫu nhiên có thể được sử dụng cho cả nhiệm vụ phân loại và hồi quy, nó không phù hợp hơn cho các nhiệm vụ Hồi quy.

Các siêu tham số quan trọng

Các siêu tham số trong rừng ngẫu nhiên được sử dụng để tăng khả năng dự đoán của mô hình hoặc để làm cho mô hình nhanh hơn. Hãy xem các siêu tham số của chức năng rừng ngẫu nhiên tích hợp sẵn của sklearns.

 

TĂNG SỨC MẠNH DỰ ĐOÁN

Thứ nhất, có siêu tham số n_estimators  , chỉ là số cây mà thuật toán xây dựng trước khi lấy phiếu bầu tối đa hoặc lấy giá trị trung bình của các dự đoán. Nói chung, số lượng cây cao hơn làm tăng hiệu suất và làm cho các dự đoán ổn định hơn, nhưng nó cũng làm chậm quá trình tính toán.

Một siêu tham số quan trọng khác là max_features, là số lượng tối đa các đối tượng mà rừng ngẫu nhiên xem xét để tách một nút. Sklearn cung cấp một số tùy chọn, tất cả đều được mô tả trong.

Siêu tham số quan trọng cuối cùng là min_sample_leaf. Điều này xác định số lượng lá tối thiểu cần thiết để tách một nút bên trong.

 

TĂNG TỐC ĐỘ CỦA MÔ HÌNH

Siêu tham số n_jobs cho động cơ biết nó được phép sử dụng bao nhiêu bộ xử lý. Nếu nó có giá trị là một, nó chỉ có thể sử dụng một bộ xử lý. Giá trị “-1” có nghĩa là không có giới hạn.

Siêu tham số random_state  làm cho đầu ra của mô hình có thể sao chép được. Mô hình sẽ luôn tạo ra cùng một kết quả khi nó có một giá trị xác định là random_state và nếu nó được cung cấp cùng một siêu tham số và cùng một dữ liệu huấn luyện.

Cuối cùng, có oob_score (còn được gọi là lấy mẫu oob), là một phương pháp xác thực chéo rừng ngẫu nhiên. Trong lần lấy mẫu này, khoảng một phần ba dữ liệu không được sử dụng để đào tạo mô hình và có thể được sử dụng để đánh giá hoạt động của nó. Những mẫu này được gọi là mẫu xuất túi. Nó rất giống với phương pháp xác thực bỏ một-ra-chéo, nhưng hầu như không có gánh nặng tính toán bổ sung nào đi cùng với nó.

Quặng sắt là một nguồn tài nguyên có giá trị đóng vai trò quan trọng đối với sự phát triển kinh tế, nhất là công nghiệp, của mọi quốc gia. Sự biến động giá quặng sắt có thể ảnh hưởng đến các ngành công nghiệp có liên quan như ngành thép, xây dựng, ô tô, tàu biển,… Do đó, việc dự báo chính xác giá quặng sắt thế giới đã thu hút được sự quan tâm của các doanh nghiệp, nhà đầu tư và các nhà khoa học trong các lĩnh vực liên quan đến sắt thép. Bài báo này ứng dụng mô hình trí tuệ nhân tạo Random Forest để dự báo giá quặng sắt thế giới trên cơ sở bộ dữ liệu theo tháng của các nhân tố ảnh hưởng tới giá quặng sắt bao gồm chỉ số giá sắt phế liệu, chỉ số sản xuất thép, xuất khẩu quặng sắt của Úc, cước phí vận tải đường biển, tỷ giá của đồng đôla Úc và của đồng nhân dân tệ, đại dịch Covid-19 và cơ chế thương lượng giá quặng sắt trong giai đoạn từ tháng 3/1990 đến tháng 2/2022. Kết quả nghiên cứu cho thấy mô hình Random Forest có thể dự báo tốt giá quặng sắt thế giới. Kết quả dự báo từ tập huấn luyện và tập kiểm tra bám sát giá thực tế và có sai số dự báo ở mức thấp, với sai số trung bình tuyệt đối lần lượt là MAE = 1,329 và 8,78; và căn bậc hai trung bình bình phương sai số dự báo tương ứng là RMSE = 2,848 và 13,65.

Từ khóa: quặng sắt, giá quặng sắt thế giới, dự báo, mô hình Random Forest.

1. Đặt vấn đề

Trí tuệ nhân tạo (artificial intelligence - AI) là một lĩnh vực của khoa học và công nghệ nhằm làm cho máy có những khả năng của trí tuệ và trí thông minh của con người, tiêu biểu như biết suy nghĩ và lập luận để giải quyết vấn đề, biết giao tiếp do hiểu ngôn ngữ và tiếng nói, biết học và tự thích nghi,… Trí tuệ nhân tạo ra đời từ năm 1956 tại hội nghị mùa hè tại trường Dartmouth, Mỹ và không ngừng phát triển trong hơn 60 năm qua. Ngày nay, trí tuệ nhân tạo được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau trong đời sống như giáo dục, y tế, sản xuất, tài chính, kinh doanh, các thiết bị như tivi, điện thoại,… Các mô hình trí tuệ nhân tạo được phát triển khá nhanh và được nhiều nhà nghiên cứu đề xuất sử dụng trong việc dự báo các hiện tượng trong nhiều lĩnh vực khác nhau như sinh học, y học, sinh thái, thiên văn, tự động hóa, thời tiết, ngân hàng, chứng khoán, giá cả hàng hóa,… bởi các mô hình này có thể xử lý được lượng lớn các dữ liệu nhanh hơn nhiều và đưa ra các dự đoán chính xác hơn khả năng của con người. Các mô hình này có thể phân tích “hành vi” của dữ liệu mà không cần có những giả định liên quan đến phân bố thống kê của dữ liệu như trong các mô hình kinh tế lượng hay chuỗi dừng trong các mô hình tự hồi quy theo chuỗi thời gian. Các mô hình trí tuệ nhân tạo có ưu điểm hơn so với các mô hình kinh tế lượng do trí tuệ nhân tạo cho phép xử lý dữ liệu có xu hướng phức tạp, các mối quan hệ phi tuyến tính. Hơn thế nữa, các mô hình trí tuệ nhân tạo cho các kết quả dự báo chính xác hơn. Kết quả nghiên cứu của Lasheras và cộng sự, Ramyar và Kianfar, Kristjanpoller và Hernandez, Dehghani, Alameer và cộng sự cho thấy các mô hình trí tuệ mạng nơron nhân tạo cho kết quả dự báo chính xác hơn các mô hình kinh tế lượng truyền thống như mô hình chuỗi thời gian ARIMA, mô hình vectơ tự hồi quy (VAR), mô hình kinh tế lượng hợp phần GARCH <10, 14, 9, 4, 1>.

Tổng quan nghiên cứu cho thấy tới nay ảnh hưởng của đại dịch Covid-19 và các nhân tố liên quan đến cung, cầu quặng sắt, vốn là những thông tin quan trọng ảnh hưởng đến giá quặng sắt, chưa được sử dụng trong các mô hình dự báo giá quặng sắt. Các công trình nghiên cứu chủ yếu dựa vào dữ liệu theo năm của các biến số để dự báo giá quặng sắt và các dự liệu này chưa được cập nhật đến năm 2022. Để bổ sung cho các nghiên cứu về giá quặng sắt thế giới, bài báo này sử dụng mô hình trí tuệ nhân tạo Random Forest đa biến, với các biến độc lập là chỉ số giá sắt phế liệu, chỉ số sản xuất thép, xuất khẩu quặng sắt của Úc, cước phí vận tải đường biển, tỷ giá của đồng đôla Úc và của đồng nhân dân tệ, đại dịch Covid-19 và cơ chế thương lượng giá quặng sắt, để dự báo giá quặng sắt dựa trên các số liệu được thu thập theo tháng từ tháng 3/1990 đến tháng 2/2022.

2. Phương pháp nghiên cứu

2.1. Mô hình Random Forest

Mô hình Random Forest, hay còn gọi là rừng ngẫu nhiên, là phương pháp phân lớp thuộc tính, một thuật toán trong phương pháp học máy, sử dụng nhiều cây phân loại hoặc hồi quy trong một nhóm được phát triển bởi Leo Breiman <2, 3>. Mô hình này sử dụng kỹ thuật đóng gói (bagging) cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút (node) của cây phân lớp để phân chia thành các mức tiếp theo. Cụ thể, đây là thuật toán phân lớp bao gồm một tập các phân lớp có cấu trúc cây quyết định với những véctơ độc lập, tương tự nhau được phân bố một cách ngẫu nhiên và mỗi cây sẽ “bỏ một phiếu bầu” cho lớp phổ biến nhất ở véctơ đầu vào, làm cơ sở ra quyết định cho thuật toán. Các phương pháp học nhóm kết hợp với các kết quả riêng lẻ của từng cây thường mang lại kết quả tốt hơn.

Mô tả thuật toán Random Forest:

Chọn T là số lượng các cây thành phần sẽ được xây dựng.Chọn m là số lượng các thuộc tính được dùng để phân chia tại mỗi nút (node) của cây. p là tổng số các thuộc tính. m thường nhỏ hơn p rất nhiều. Giá trị m được giữ không đổi trong suốt quá trình xây dựng cây.Dựng T cây quyết định. Trong đó mỗi cây quyết định được hình thành như sau: (a) xây dựng tập mẫu khởi động (bootstrap) với n mẫu, hình thành từ việc hoán vị tập các mẫu ban đầu. Mỗi cây sẽ được dựng từ tập khởi động này; (b) Khi xây dựng cây quyết định, tại mỗi nút (node) sẽ chọn ra m thuộc tính và sử dụng m thuộc tính này để tìm ra cách phân chia tốt nhất; (c) Mỗi cây quyết định được phát triển lớn nhất có thể và không bị cắt xén.Sau khi xây dựng được rừng ngẫu nhiên (Random Forest), để phân lớp cho đối tượng T, thu thập kết quả phân lớp đối tượng này trên tất cả các cây quyết định và tính bình quân giá trị dự báo của các cây quyết định để làm kết quả cuối cùng của thuật toán. Tỷ lệ lỗi của cây phụ thuộc vào độ mạnh của từng cây quyết định thành phần và mối quan hệ qua lại giữa các cây đó.2.2. Các biến sử dụng trong mô hình

Theo quan điểm của các nhà kinh tế học hiện đại, giá cả hàng hóa chịu ảnh hưởng của nhiều nhân tố khác nhau như cung, cầu về hàng hóa đó, tác động của các chính sách kinh tế có liên quan, tỷ giá hối đoái, cước phí vận tải, điều kiện tự nhiên, dịch bệnh,… <12>. Dựa trên cơ sở lý luận về sự hình thành giá cả, các nhân tố ảnh hưởng tới giá cả, tổng quan nghiên cứu về các nhân tố ảnh hưởng tới giá cả và căn cứ vào khả năng thu thập dữ liệu cần thiết phục vụ cho nghiên cứu định lượng, bài báo sử dụng mô hình Random Forest để dự báo giá quặng sắt thế giới trên cơ sở các nhân tố ảnh hưởng tới giá quặng sắt bao gồm chỉ số giá sắt phế liệu, chỉ số sản xuất thép, xuất khẩu quặng sắt của Úc, cước phí vận tải đường biển, tỷ giá của đồng đôla Úc và của đồng nhân dân tệ, đại dịch Covid-19 và cơ chế thương lượng giá quặng sắt.

Trong đó:

Biến phụ thuộc là giá quặng sắt thế giới (IO).Biến độc lập:

+ Chỉ số giá sắt phế liệu (SI) được coi là nhân tố ảnh hưởng tới cầu về quặng sắt do sắt phế liệu là hàng hóa thay thế cho quặng sắt trong các ngành công nghiệp có sử dụng quặng sắt. Khi chỉ số giá sắt phế liệu tăng lên, cầu về sắt phế liệu sẽ giảm xuống và cầu về quặng sắt sẽ tăng lên, kéo theo sự gia tăng của giá quặng sắt.

+ Chỉ số sản xuất thép (SPI) được coi là nhân tố ảnh hưởng tới cầu về quặng sắt do 98% quặng sắt khai thác ra được sử dụng để sản xuất thép. Nếu chỉ số sản xuất thép giảm xuống thì cầu đối với quặng sắt cũng giảm theo, làm giảm giá quặng sắt.

+ Xuất khẩu quặng sắt của Úc (EX) là biến đại diện cho cung quặng sắt thế giới. Với vai trò là nước xuất khẩu quặng sắt lớn nhất trên thế giới, chiếm 53,6% tổng kim ngạch xuất khẩu quặng sắt trong năm 2021, sự biến động trong xuất khẩu quặng sắt của Úc sẽ dẫn đến sự thay đổi cung quặng sắt thế giới. Theo lý thuyết kinh tế, khi xuất khẩu quặng sắt của Úc giảm xuống, giá quặng sắt thế giới sẽ tăng lên.

+ Cước phí vận tải đường biển (FR): Giá quặng sắt chịu ảnh hưởng của cước phí vận tải đường biển vì quặng sắt được xuất nhập khẩu bằng đường biển. Cước phí vận tải rẻ hơn sẽ kéo giá quặng sắt giảm xuống.

+ Tỷ giá của đồng đôla Úc (ERa) và tỷ giá hối đoái của đồng nhân dân tệ (ERc): Tỷ giá này được hiểu là 1 đồng đôla Úc hoặc 1 đồng nhân dân tệ có thể đổi được bao nhiêu đôla Mỹ. Là nước xuất khẩu quặng sắt nhiều nhất trên thế giới nên sự biến động về giá trị của đồng đôla Úc có thể kéo theo sự thay đổi giá quặng sắt thế giới. Tỷ giá giảm xuống đồng nghĩa với việc đồng đôla Úc yếu đi, khi đó giá quặng sắt xuất khẩu của Úc cũng như giá quặng sắt thế giới sẽ trở nên rẻ hơn và ngược lại. Là nước nhập khẩu quặng sắt lớn nhất thế giới, chiếm 70,1% tổng kim ngạch nhập khẩu quặng sắt toàn cầu vào năm 2020, sự biến động của đồng nhân dân tệ Trung Quốc sẽ có những ảnh hưởng đến giá quặng sắt thế giới khi đồng tiền này được sử dụng trong các hợp đồng nhập khẩu quặng sắt.

+ Đại dịch Covid-19 (Covid) bùng phát toàn cầu trong 2 năm qua cùng các biện pháp giãn cách xã hội trong từng quốc gia và giữa các quốc gia trên thế giới đã ảnh hưởng đến hoạt động sản xuất kinh doanh của các doanh nghiệp trong mọi lĩnh vực của nền kinh tế thế giới, trong đó có các doanh nghiệp liên quan đến quặng sắt. Cùng với sự gián đoạn trong hoạt động vận tải quốc tế, có thể nói đại dịch Covid-19 đã ảnh hưởng đến cung, cầu đối với quặng sắt, và do đó, có thể dẫn đến sự biến động về giá quặng sắt thế giới.

+ Cơ chế thương lượng giá quặng sắt (PN): Trong suốt 40 năm kể từ trước tháng 11/2008, giá quặng sắt thế giới trước được xác định chủ yếu bằng cơ chế thương lượng giữa các nhà sản xuất thép lớn nhất thế giới và các nhà cung cấp quặng sắt của họ. Theo đó, hàng năm họ sẽ gặp nhau để thương lượng, xác định giá quặng sắt cho cả 1 năm. Tuy nhiên, cơ chế thương lượng giá này đã bị phá bỏ do giá quặng sắt có biến động mạnh kể từ cuối năm 2008. Khi giá quặng sắt trên thị trường giao ngay thấp hơn mức giá thương lượng, một số nhà sản xuất thép lớn không tuân thủ thỏa thuận đã được thương lượng trước đó, yêu cầu được mua quặng sắt với mức giá thấp hơn hoặc chuyển sang mua quặng sắt trên thị trường giao ngay từ một số nhà cung cấp khác và kinh doanh kiếm lời nhờ chênh lệch giá. Đồng thời, các nhà cung cấp quặng sắt hàng đầu thế giới cũng muốn bán quặng sắt trên thị trường giao ngay nhất là khi thị trường quặng sắt và giá quặng sắt liên tục gia tăng trong giai đoạn tiếp đó. Chính vì vậy, việc áp dụng cơ chế thương lượng giá quặng sắt hay không có ảnh hưởng tới giá quặng sắt thế giới.

2.3. Dữ liệu nghiên cứu

Để dự báo giá quặng sắt thế giới, tác giả tiến hành thu thập số liệu theo tháng về các biến trong mô hình cho giai đoạn từ tháng 3/1990 đến tháng 2/2022. Giá quặng sắt thế giới được tham khảo từ Index Mundi <8>, chỉ số giá sắt phế liệu, chỉ số sản xuất thép được lấy từ Fred Economic Data <6>, xuất khẩu quặng sắt của Úc và cước phí vận tải đường biển được thu thập từ Trading Economics <15>, tỷ giá của đồng đôla Úc và của đồng nhân dân tệ được tham khảo từ Curency Converter <19>. Biến giả Covid-19 nhận giá trị bằng 0 đối với những tháng trước tháng 3/2020 và nhận giá trị bằng 1 đối với những tháng sau tháng 3/2020. Biến giả cơ chế thương lượng giá quặng sắt thế giới nhận giá trị bằng 1 đối với những tháng trước tháng 11/2008 và nhận giá trị bằng 0 đối với những tháng sau tháng 11/2008. Mẫu nghiên cứu bao gồm 384 quan sát.

3. Kết quả phân tích

Bài báo sử dụng mô hình Random Forest để dự báo giá quặng sắt thế giới. Kết quả phân tích được thể hiện trong Bảng 1, Hình 1 và Hình 2.

Hệ số tương quan giữa các biến

Số liệu trong Bảng 1 cho thấy hệ số tương quan giữa các biến độc lập đều nhỏ hơn 0,8. Kết quả này chứng minh giữa các biến độc lập trong mô hình không có mối quan hệ đa cộng tuyến. Hệ số tương quan giữa các biến độc lập và giá quặng sắt dao động trong khoảng 0,22-0,89, trong đó chỉ số giá sắt phế liệu (SI), xuất khẩu quặng sắt của Úc (EX), tỷ giá của đồng đôla Úc (ERa) và cơ chế thương lượng giá quặng sắt (PN) có quan hệ tương quan mạnh với giá quặng sắt do giá trị tuyệt đối của các hệ số tương quan >0,6.

*

Kết quả dự báo giá quặng sắt thế giới theo mô hình Random Forest

Để dự báo giá quặng sắt thế giới theo mô hình Random Forest, bộ dữ liệu thu thập được về các biến trong mô hình được chia thành 2 tập là tập huấn luyện (training dataset), chiếm 80%, được dùng để điều chỉnh các tham số của mô hình; và tập kiểm tra (testing dataset), chiếm 20%, được dùng để đánh giá mô hình. Tập mẫu được rút ra từ tập huấn luyện để xây dựng các cây quyết định. Mô hình được huấn luyện dựa trên tập huấn luyện (training dataset). Sau khi kết thúc quá trình huấn luyện, mô hình sẽ được đánh giá hiệu quả trên cơ sở tập kiểm tra (testing dataset) bằng cách so sánh giá trị dự báo và giá trị thực tế của biến phụ thuộc và các chỉ tiêu đánh giá sai số dự báo.

*

Kết quả dự báo theo mô hình Random Forest được thể hiện trong Hình 1. Theo đó, giá quặng sắt được dự báo theo tập huấn luyện bám rất sát giá quặng sắt thực tế trong giai đoạn nghiên cứu. Mô hình dự báo được kiểm tra lại trên cơ sở tập kiểm tra. Tuy độ chính xác của các dự báo không bằng so với kết quả thu được từ tập huấn luyện, nhưng kết quả dự báo giá quặng sắt từ tập kiểm tra cũng rất gần với giá quặng sắt thực tế.

Để đánh giá hiệu suất của mô hình Random Forest trong việc dự báo giá quặng sắt, tác giả sử dụng các chỉ tiêu đánh giá sai số dự báo là sai số trung bình tuyệt đối (MAE) và căn bậc hai trung bình bình phương sai số dự báo (RMSE). Các sai số dự báo từ tập huấn luyện, MAE = 1,329 và RMSE =2,848. Trong khi đó, dự báo từ tập kiểm tra có MAE = 8,78 và RMSE =13,65, cao hơn so với các sai số dự báo tương ứng từ tập huấn luyện, nhưng vẫn ở mức thấp.

Độ phù hợp của hàm hồi quy

Độ phù hợp của hàm hồi quy được thể hiện thông qua hệ số xác định R2. Nếu R2 > 0,7 thì có thể coi là hàm hồi quy xây dựng được là phù hợp. Kết quả phân tích ở Hình 2 cho thấy hệ số xác định của hàm hồi quy được đề xuất trong bài báo này lần lượt là R2 = 0,997 và R2 = 0,878 đối với dữ liệu phân tích từ tập huấn luyện và tập kiểm tra. Điều đó cho thấy các biến độc lập trong mô hình giúp giải thích lần lượt 99,7% và 87,89% sự biến động của giá quặng sắt thế giới cho tập huấn luyện và tập kiểm tra. Hàm hồi quy xây dựng được có độ phù hợp cao.

*

4. Kết luận

Bài báo này vận dụng mô hình trí tuệ nhân tạo Random Forest để dự báo giá quặng sắt thế giới dựa trên 8 nhân tố ảnh hưởng tới giá quặng sắt, bao gồm chỉ số giá sắt phế liệu, chỉ số sản xuất thép, xuất khẩu quặng sắt của Úc, cước phí vận tải đường biển, tỷ giá của đồng đôla Úc và của đồng nhân dân tệ, đại dịch Covid-19 và cơ chế thương lượng giá quặng sắt thế giới. Trên cơ sở mẫu nghiên cứu với 384 quan sát về các biến được thu thập theo tháng từ tháng 3/1990 đến tháng 2/2022, kết quả nghiên cứu cho thấy mô hình Random Forest được đề xuất trong nghiên cứu này có thể dự báo tốt giá quặng sắt thế giới. Kết quả dự báo từ tập huấn luyện và tập kiểm tra đều bám sát giá quặng sắt thực tế trong giai đoạn nghiên cứu với sai số dự báo (MAE và RMSE) thấp.

Lời cảm ơn:

Bài báo được hoàn thành với sự hỗ trợ từ đề tài nghiên cứu cấp cơ sở mã số T20-34 của Trường Đại học Mỏ - Địa chất.

TÀI LIỆU THAM KHẢO:

Breiman,L. (1999). Random forests. UC Berkeley TR567.Dehghani, H., Bogdanovic, D. (2018). Copper price estimation using BAT algorithm. Resource Policy, 55(C), 55-61. DOI: 10.1016/j.resourpol.2017.10.015.Ma, Y. (2013). Iron ore spot price volatility and change in forward pricing mechanism. Resource Policy, 38(4), 621-627. DOI: 10.1016/j.resourpol.2013.10.002.Nguyễn Văn Dần và Trần Xuân Hải, (2012). Giáo trình Cơ sở hình thành giá cả. Nhà xuất bản Tài chính.Zhu, Z.R. (2012). Identifying supply and demand elasticities of iron ore. Ph
D Thesis, Duke University, Durham.

Xem thêm: Cách Kết Nối 2 Laptop Qua Wifi Đơn Giản, Cách Kết Nối 2 Máy Tính Với Nhau Qua Wifi

Using Random Forest model to forecast global iron ore price

Ph
D. VU DIEP ANH

Faculty of Economics and Business Administration, Hanoi University of Mining and Geology

ABSTRACT:

Iron ore is a valuable resource and it plays an important role in the global economic development. Fluctuations in iron ore prices may affect related industries like construction, steel making, car manufacturing, and ship building. Therefore, accurate prediction of global iron ore prices has attracted the attention of enterprises, investors, and scholars. In this study, an artificial intelligence model, namely Random Forest, is used to forecast global iron ore price and this model uses monthly data from March 1990 to February 2022 about the factors affecting iron ore price including the scrap price index, the steel production index, the Australian iron ore exports, the international ocean freight rate, the exchange rate of the Australian dollar, the exchange rate of the Chinese yuan, the Covid-19 pandemic and the iron ore price negotiation mechanism. The analysis results show that the proposed Random Forest model can predict the global iron ore prices well. The forecasted values are close to the actual prices for the training and testing datasets with low prediction errors, MAE = 1.329 and 8.78, RMSE = 2.848 and 13.65 for the training and testing datasets, respectively.