Ứng dụng của thuật toán rừng thốt nhiên – Random Forests, đó là một dạng nâng cấp của Cây ra quyết định – decision tree; Rừng ngẫu nhiên là một trong những thuật toán học tập máy linh hoạt, dễ dàng sử dụng , chế tạo ra kết quả tuyệt vời ngay cả khi không kiểm soát và điều chỉnh siêu tham số. Nó cũng là trong những thuật toán được thực hiện nhiều nhất, vì tính dễ dàng và đơn giản và nhiều chủng loại của nó (nó rất có thể được sử dụng cho tất cả nhiệm vụ phân loại và hồi quy).
Bạn đang xem: Sử dụng thuật toán Random Forest để phân loại dữ liệu
Thuật toán rừng đột nhiên – Random Forests
Thuật toán Random Forest là gì ?
Random Forest là 1 trong những thuật toán học tập máy thịnh hành thuộc về chuyên môn học có giám sát. Nó hoàn toàn có thể được sử dụng cho tất cả vấn đề Phân loại và Hồi quy trong ML. Nó dựa trên khái niệm học tập theo nhóm, là một vượt trình kết đúng theo nhiều bộ phân loại để xử lý một vấn đề phức hợp và để cải thiện hiệu suất của mô hình.Như tên mang đến thấy, “Rừng ngẫu nhiên là một trong bộ phân các loại chứa một trong những cây ra quyết định trên các tập con không giống nhau của tập tài liệu đã mang lại và lấy quý giá trung bình để nâng cấp độ đúng chuẩn dự đoán của tập dữ liệu đó.” Thay vì nhờ vào một cây quyết định, rừng bỗng dưng lấy dự đoán từ mỗi cây và dựa trên phần lớn phiếu dự đoán, và nó dự đoán tác dụng cuối cùng.
Số lượng cây lớn hơn trong rừng dẫn cho độ đúng đắn cao hơn và phòng ngừa sự việc trang bị quá mức.
Sơ đồ tiếp sau đây giải thích hoạt động của thuật toán Rừng ngẫu nhiên:

Tầm quan trọng của tuấn kiệt rừng ngẫu nhiên
Một quality tuyệt vời không giống của thuật toán rừng tự dưng là rất tiện lợi đo lường tầm đặc biệt tương đối của từng tính năng so với dự đoán. Sklearn hỗ trợ một công cụ hoàn hảo để giám sát tầm đặc trưng của một tính năng bằng phương pháp xem xét mức độ mà các nút cây sử dụng tài năng đó làm bớt tạp hóa học trên toàn bộ các cây trong rừng. Nó tự động tính điểm số này cho từng tính năng sau thời điểm đào chế tạo và chia tỷ lệ hiệu quả để tổng của tất cả mức độ quan trọng bằng một.
Nếu bạn không biết cây quyết định chuyển động như nạm nào hoặc lá tuyệt nút là gì, thì đây là một biểu thị hay từ bỏ Wikipedia: “Trong cây quyết định, mỗi nút phía bên trong đại diện cho 1 ‘thử nghiệm’ trên một nằm trong tính (ví dụ: đồng xu lật lộ diện đầu hoặc đuôi), từng nhánh đại diện cho công dụng của bài xích kiểm tra với mỗi nút lá đại diện cho một nhãn lớp (quyết định được triển khai sau khi giám sát tất cả những thuộc tính). Một nút không tồn tại con là 1 trong lá ”.
Bằng bí quyết xem xét tầm quan trọng của tính năng, chúng ta có thể quyết định thiên tài nào bao gồm thể bị loại bỏ bỏ vì chưng chúng không góp sức đủ (hoặc nhiều khi không góp sức gì) cho quy trình dự đoán. Điều này rất quan trọng đặc biệt vì một quy tắc thông thường trong học thứ là bạn càng có rất nhiều tính năng thì tế bào hình của bạn càng có tương đối nhiều khả năng bị trang bị trên mức cần thiết và ngược lại.
Sự khác biệt giữa cây quyết định và rừng ngẫu nhiên
Mặc mặc dù một khu rừng ngẫu nhiên là một trong tập hợp các cây quyết định, có một trong những khác biệt.
Nếu các bạn nhập một tập dữ liệu đào tạo với các tính năng cùng nhãn vào cây quyết định, nó đã hình thành một vài bộ quy tắc, sẽ được sử dụng để lấy ra các dự đoán.
Ví dụ: để tham gia đoán liệu một người có nhấp vào quảng bá trực tuyến đường hay không, bạn cũng có thể thu thập những quảng cáo nhưng mà người đó đã nhấp vào trong vượt khứ và một số tính năng mô tả ra quyết định của họ. Nếu các bạn đặt những tính năng với nhãn vào cây quyết định, nó sẽ tạo nên ra một vài quy tắc giúp dự kiến liệu quảng cáo đã đạt được nhấp vào giỏi không. Để so sánh, thuật toán rừng hốt nhiên chọn ngẫu nhiên những quan giáp và đặc điểm để xây dựng một vài cây đưa ra quyết định và sau đó tính trung bình những kết quả.
Một sự khác biệt khác là cây ra quyết định “sâu” rất có thể bị quá mức. Hầu không còn thời gian, rừng ngẫu nhiên ngăn chặn điều này bằng phương pháp tạo các tập hợp con bất chợt của các đối tượng địa lý cùng xây dựng các cây nhỏ tuổi hơn bằng phương pháp sử dụng những tập hợp nhỏ đó. Sau đó, nó kết hợp các cây con. Điều quan trọng cần lưu ý là điều này chưa phải lúc làm sao cũng hoạt động và nó cũng tạo cho quá trình đo lường và thống kê chậm hơn, tùy nằm trong vào con số cây mà khu rừng rậm ngẫu nhiên xây dựng.
Các ứng dụng của Rừng ngẫu nhiên
Chủ yếu tất cả bốn lĩnh vực mà Rừng ngẫu nhiên hầu hết được sử dụng:
Ngân hàng: Lĩnh vực bank chủ yếu áp dụng thuật toán này để xác định rủi ro mang lại vay.Y học: Với sự trợ giúp của thuật toán này, các xu thế bệnh tật và nguy cơ tiềm ẩn của bệnh rất có thể được xác định.Sử dụng đất: Chúng tôi hoàn toàn có thể xác định các khu vực sử dụng đất tương tự như bằng thuật toán này.Tiếp thị: Các xu hướng tiếp thị hoàn toàn có thể được xác định bằng phương pháp sử dụng thuật toán này.Ưu điểm của Rừng ngẫu nhiên
Random Forest có công dụng thực hiện nay cả hai trách nhiệm Phân loại và Hồi quy.Nó có chức năng xử lý các tập tài liệu lớn với kích cỡ cao.Nó nâng cấp độ đúng đắn của quy mô và chống chặn vấn đề trang bị vượt mức.Nhược điểm của Rừng ngẫu nhiên
Mặc dù rừng ngẫu nhiên rất có thể được sử dụng cho cả nhiệm vụ phân một số loại và hồi quy, nó không phù hợp hơn cho các nhiệm vụ Hồi quy.Các khôn cùng tham số quan tiền trọng
Các siêu tham số vào rừng bỗng nhiên được áp dụng để tăng khả năng dự đoán của mô hình hoặc để làm cho mô hình nhanh hơn. Hãy xem các siêu tham số của tính năng rừng bất chợt tích vừa lòng sẵn của sklearns.
TĂNG SỨC MẠNH DỰ ĐOÁN
Thứ nhất, gồm siêu tham số n_estimators , chỉ là số cây cơ mà thuật toán xây dựng trước lúc lấy phiếu thai tối nhiều hoặc lấy cực hiếm trung bình của những dự đoán. Nói chung, số lượng cây cao hơn nữa làm tăng công suất và làm cho những dự đoán định hình hơn, tuy nhiên nó cũng làm chậm quy trình tính toán.
Một khôn xiết tham số quan trọng khác là max_features, là số lượng tối đa các đối tượng mà rừng bỗng nhiên xem xét để bóc tách một nút. Sklearn hỗ trợ một số tùy chọn, tất cả đều được diễn tả trong.
Siêu tham số quan liêu trọng sau cuối là min_sample_leaf. Điều này xác định số lượng lá tối thiểu quan trọng để bóc một nút mặt trong.
TĂNG TỐC ĐỘ CỦA MÔ HÌNH
Siêu tham số n_jobs cho hộp động cơ biết nó được phép áp dụng bao nhiêu cỗ xử lý. Nếu nó có mức giá trị là một, nó chỉ hoàn toàn có thể sử dụng một bộ xử lý. Giá trị “-1” có nghĩa là không gồm giới hạn.
Siêu tham số random_state làm cho đầu ra của mô hình có thể sao chép được. Mô hình sẽ luôn tạo ra thuộc một công dụng khi nó gồm một giá bán trị xác định là random_state và nếu nó được cung ứng cùng một hết sức tham số và thuộc một dữ liệu huấn luyện.
Cuối cùng, gồm oob_score (còn được điện thoại tư vấn là lấy mẫu oob), là một cách thức xác thực chéo cánh rừng ngẫu nhiên. Trong lần lấy mẫu mã này, khoảng một trong những phần ba dữ liệu không được áp dụng để đào tạo mô hình và hoàn toàn có thể được áp dụng để tiến công giá hoạt động của nó. Những mẫu mã này được điện thoại tư vấn là mẫu xuất túi. Nó vô cùng giống với phương thức xác thực vứt một-ra-chéo, nhưng đa số không tất cả gánh nặng nề tính toán bổ sung cập nhật nào đi cùng với nó.
Random Forests là thuật toán học có tính toán (supervised learning). Nó hoàn toàn có thể được sử dụng cho tất cả phân lớp và hồi quy. Nó cũng chính là thuật toán linh hoạt và dễ áp dụng nhất. Một khu rừng bao gồm cây cối. Fan ta bảo rằng càng có tương đối nhiều cây thì rừng càng mạnh. Random forests tạo nên cây ra quyết định trên những mẫu dữ liệu được chọn ngẫu nhiên, được dự đoán từ từng cây cùng chọn giải pháp tốt nhất bằng cách bỏ phiếu. Nó cũng hỗ trợ một chỉ báo khá tốt về tầm quan trọng của tính năng.Random forests có tương đối nhiều ứng dụng, chẳng hạn như công vắt đề xuất, phân các loại hình hình ảnh và tuyển lựa tính năng. Nó rất có thể được sử dụng để phân loại những ứng viên cho vay vốn trung thành, xác định chuyển động gian lận cùng dự đoán những bệnh. Nó nằm ở vị trí cơ sở của thuật toán Boruta, chọn các tính năng đặc biệt trong tập dữ liệu.
Thuật toán Random Forests
Giả sử bạn có nhu cầu đi trên một chuyến du ngoạn và bạn có nhu cầu đi đến một nơi mà bạn sẽ thích.
Vậy bạn sẽ làm gì nhằm tìm một vị trí mà bạn sẽ thích? bạn có thể tìm kiếm trực tuyến, đọc những bài reviews trên blog và các cổng thông tin du lịch hoặc chúng ta có thể hỏi đồng đội của mình.
Giả sử chúng ta đã quyết định hỏi bằng hữu và thì thầm với bọn họ về trải nghiệm du lịch trong quá khứ của họ đến các nơi khác nhau. Các bạn sẽ nhận được một số lời khuyên từ toàn bộ các bạn. Hiện giờ bạn phải tạo lập danh sách các vị trí được đề xuất. Sau đó, các bạn yêu ước họ bỏ thăm (hoặc lựa chọn địa điểm tốt nhất cho chuyến đi) từ list các vị trí được khuyến nghị bạn đã thực hiện. Địa điểm tất cả số phiếu bầu tối đa sẽ là lựa chọn cuối cùng của doanh nghiệp cho chuyến đi.
Trong quá trình quyết định sinh sống trên, có hai phần. Trước tiên, hãy hỏi đồng đội về trải đời du lịch cá thể của họ với nhận được khuyến nghị từ các nơi họ vẫn ghé thăm. Điều này tương tự như sử dụng thuật toán cây quyết định. Ở đây, mỗi người trong số chúng ta chọn mọi nơi mà người ta đã ghẹ thăm cho tới nay.Phần vật dụng hai, sau khi thu thập toàn bộ các khuyến nghị, là giấy tờ thủ tục bỏ phiếu để lựa chọn địa điểm tốt nhất có thể trong danh sách các khuyến nghị. Toàn bộ quá trình nhận được đề xuất từ đồng đội và bỏ thăm cho họ nhằm tìm ra nơi rất tốt được gọi là thuật toán rừng ngẫu nhiên.
Về khía cạnh kỹ thuật, nó là một phương pháp tổng hợp (dựa trên giải pháp tiếp cận phân chia và chinh phục) của các cây ra quyết định được tạo ra trên một tập dữ liệu được phân tách ngẫu nhiên. Bộ sưu tầm phân loại cây ra quyết định này còn được gọi là rừng. Cây đưa ra quyết định riêng lẻ được chế tác ra bằng cách sử dụng chỉ báo lựa chọn thuộc tính như tăng thông tin, phần trăm tăng và chỉ còn số Gini cho từng thuộc tính. Mỗi cây phụ thuộc vào một mẫu ngẫu nhiên độc lập. Trong câu hỏi phân loại, từng phiếu bầu chọn cùng lớp thịnh hành nhất được lựa chọn là kết quả cuối cùng. Trong trường đúng theo hồi quy, mức trung bình của tất cả các kết quả đầu ra của cây được xem như là kết trái cuối cùng. Nó đơn giản và dễ dàng và mạnh bạo hơn so với những thuật toán phân nhiều loại phi tuyến đường tính khác.
Thuật toán chuyển động như cố gắng nào?
Nó vận động theo tứ bước:
Chọn các mẫu tự nhiên từ tập tài liệu đã cho.Thiết lập cây ra quyết định cho từng chủng loại và nhận công dụng dự đoán trường đoản cú mỗi quyết định cây.Hãy quăng quật phiếu cho từng kết quả dự đoán.Chọn công dụng được dự đoán nhiều độc nhất là dự kiến cuối cùng.
Ưu điểm:Random forests được xem là một phương thức chính xác và mạnh bạo vì số cây đưa ra quyết định tham gia vào quy trình này.Nó không xẩy ra vấn đề overfitting. Lý do đó là nó mất vừa đủ của tất cả các dự đoán, trong những số đó hủy quăng quật những thành kiến.Thuật toán hoàn toàn có thể được áp dụng trong cả hai vụ việc phân loại và hồi quy.Random forests cũng hoàn toàn có thể xử lý các giá trị còn thiếu. Tất cả hai cách để xử lý những giá trị này: sử dụng các giá trị trung bình để thay thế sửa chữa các biến tiếp tục và giám sát và đo lường mức trung bình ngay sát kề của các giá trị bị thiếu.Bạn hoàn toàn có thể nhận được tầm đặc trưng của tài năng tương đối, góp chọn các tính năng góp phần nhiều nhất mang đến trình phân loại.Nhược điểm:Random forests đủng đỉnh tạo dự đoán cũng chính vì nó có rất nhiều cây quyết định. Bất cứ lúc nào nó chỉ dẫn dự đoán, toàn bộ các cây trong rừng đề xuất đưa ra dự đoán cho cùng một đầu vào cho trước và kế tiếp thực hiện bỏ thăm trên đó. Cục bộ quá trình này tốn thời gian.Mô hình cực nhọc hiểu hơn so cùng với cây quyết định, nơi chúng ta có thể dễ dàng chỉ dẫn quyết định bằng cách đi theo đường dẫn trong cây.
Các tuấn kiệt quan trọng
Random forests cũng cung cấp một chỉ số lựa chọn kĩ năng tốt. Scikit-learn hỗ trợ thêm một đổi mới với mô hình, cho thấy tầm đặc biệt hoặc đóng góp góp kha khá của từng chức năng trong dự đoán. Nó auto tính toán điểm liên quan của từng chức năng trong quá trình đào tạo. Sau đó, nó bằng vận mức độ liên quan xuống làm thế nào để cho tổng của tất cả các điểm là 1.
Điểm số này sẽ giúp bạn chọn những tính năng đặc biệt quan trọng nhất cùng thả các tính năng đặc biệt quan trọng nhất để sản xuất mô hình.
Random forests thực hiện tầm quan trọng đặc biệt của gini hoặc giảm tạp hóa học trung bình (MDI) để thống kê giám sát tầm đặc biệt của từng tính năng. Gini tầm quan liêu trọng nói một cách khác là tổng bớt trong tạp chất nút. Đây là nấc độ phù hợp hoặc độ chính xác của quy mô giảm khi bạn thả biến. Độ bự càng mập thì biến hóa số càng tất cả ý nghĩa. Ở đây, bớt trung bình là một trong những tham số quan trọng cho bài toán lựa chọn biến. Chỉ số Gini có thể mô tả mức độ mạnh phân tích và lý giải tổng thể của các biến.Random Forests với cây quyết định
Random Forests là một tập hợp của tương đối nhiều cây quyết định.Cây ra quyết định sâu có thể bị tác động quá mức, dẫu vậy Random forests chống cản bài toán lấp đầy bằng cách tạo cây trên các tập bé ngẫu nhiên.Cây quyết định nhanh hơn tính toán.Random forests cực nhọc giải thích, trong những lúc cây quyết định có thể diễn giải tiện lợi và có thể chuyển đổi thành quy tắc.
Xây dựng một Trình phân loại bằng phương pháp sử dụng Scikit-learn
Bạn sẽ xây dựng một quy mô trên tập tài liệu hoa iris, đó là 1 bộ phân các loại rất nổi tiếng. Nó bao hàm chiều dài vách ngăn, chiều rộng lớn vách ngăn, chiều dài cánh hoa, chiều rộng lớn cánh hoa và loại hoa. Có cha loài hoặc lớp: setosa, versicolor và virginia. Các bạn sẽ xây dựng một mô hình để phân các loại loại hoa. Tập dữ liệu có sẵn trong tủ sách scikit-learning hoặc bạn cũng có thể tải xuống từ bỏ UCI Machine Learning Repository.
Bắt đầu bằng phương pháp nhập tủ sách datasets từ scikit-learn và download tập dữ liệu iris bằng load_iris ().
#Import scikit-learn dataset libraryfrom sklearn import datasets#Load datasetiris = datasets.load_iris()Bạn hoàn toàn có thể in tên mục tiêu và đối tượng người dùng địa lý, để bảo đảm an toàn bạn bao gồm tập dữ liệu phù hợp, như vậy:
# print the label species(setosa, versicolor,virginica)print(iris.target_names)# print the names of the four featuresprint(iris.feature_names)<"setosa" "versicolor" "virginica"><"sepal length (cm)", "sepal width (cm)", "petal length (cm)", "petal width (cm)">Bạn phải luôn tò mò dữ liệu của chính mình một chút nhằm biết các bạn đang thao tác với cái gì. Tại đây, chúng ta cũng có thể thấy năm bậc nhất tiên của tập tài liệu được in, tương tự như biến kim chỉ nam cho cục bộ tập dữ liệu.
# print the iris data (top 5 records)print(iris.data<0:5>)# print the iris labels (0:setosa, 1:versicolor, 2:virginica)print(iris.target)<< 5.1 3.5 1.4 0.2>< 4.9 3. 1.4 0.2>< 4.7 3.2 1.3 0.2>< 4.6 3.1 1.5 0.2>< 5. 3.6 1.4 0.2>><0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2>Ở đây, bạn có thể tạo một Data
Frame của tập tài liệu iris theo cách sau.
# Creating a Data
Frame of given iris dataset.import pandas as pddata=pd.Data
Frame("sepal length":iris.data<:,0>,"sepal width":iris.data<:,1>,"petal length":iris.data<:,2>,"petal width":iris.data<:,3>,"species":iris.target)data.head()

# Import train_test_split functionfrom sklearn.model_selection import train_test_split
X=data<<"sepal length", "sepal width", "petal length", "petal width">> # Featuresy=data<"species"> # Labels# Split dataset into training set và test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # 70% training and 30% test
Sau lúc tách, các bạn sẽ đào tạo mô hình trên tập huấn luyện và giảng dạy và tiến hành các dự đoán trên tập kiểm tra.
#Import Random Forest Modelfrom sklearn.ensemble import Random
Forest
Classifier#Create a Gaussian Classifierclf=Random
Forest
Classifier(n_estimators=100)#Train the mã sản phẩm using the training sets y_pred=clf.predict(X_test)clf.fit(X_train,y_train)y_pred=clf.predict(X_test)Sau khi đào tạo, soát sổ tính chính xác bằng phương pháp sử dụng giá trị thực tế và dự đoán.#Import scikit-learn metrics module for accuracy calculationfrom sklearn import metrics# model Accuracy, how often is the classifier correct?print("Accuracy:",metrics.accuracy_score(y_test, y_pred))("Accuracy:", 0.93333333333333335)Bạn cũng rất có thể đưa ra dự kiến cho một mục, ví dụ: sepal length = 3 sepal width = 5 petal length = 4 petal width = 2Bây giờ bạn có thể dự đoán nhiều loại hoa nào.
clf.predict(<<3, 5, 4, 2>>)array(<2>)Ở đây, 2 cho thấy loại hoa Virginica
Các tính năng đặc biệt quan trọng trong Scikit-learn
Ở đây, nhiều người đang tìm các tính năng đặc biệt hoặc chọn các tính năng vào tập dữ liệu IRIS. Trong quy trình tìm hiểu, bạn có thể thực hiện nay tác vụ này trong công việc sau:
Đầu tiên, bạn cần tạo một quy mô Random Forests.Thứ hai, sử dụng biến đặc biệt quan trọng của hào kiệt để xem điểm đặc biệt quan trọng của đối tượng người tiêu dùng địa lý.Thứ ba, hình dung các điểm số này bằng thư viện
from sklearn.ensemble import Random
Forest
Classifier#Create a Gaussian Classifierclf=Random
Forest
Classifier(n_estimators=100)#Train the mã sản phẩm using the training sets y_pred=clf.predict(X_test)clf.fit(X_train,y_train)Random
Forest
Classifier(bootstrap=True, class_weight=None, criterion="gini",max_depth=None, max_features="auto", max_leaf_nodes=None,min_impurity_decrease=0.0, min_impurity_split=None,min_samples_leaf=1, min_samples_split=2,min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=1,oob_score=False, random_state=None, verbose=0,warm_start=False)import pandas as pdfeature_imp = pd.Series(clf.feature_importances_,index=iris.feature_names).sort_values(ascending=False)feature_imppetal width (cm) 0.458607petal length (cm) 0.413859sepal length (cm) 0.103600sepal width (cm) 0.023933dtype: float64Bạn cũng hoàn toàn có thể hình dung tầm đặc biệt quan trọng của đối tượng người dùng địa lý. Hình hình ảnh dễ hiểu cùng dễ hiểu.
Để hiển thị, bạn có thể sử dụng phối hợp matplotlib cùng seaborn. Bởi vì seaborn được gây ra trên đầu trang của matplotlib, nó cung ứng một số chủ đề tùy chỉnh cấu hình và cung cấp các loại diễn biến bổ sung. Matplotlib là 1 trong những superset của seaborn cùng cả nhị đều đặc biệt không kém cho visualizations tốt. Máy ba, tưởng tượng những điểm số bằng phương pháp sử dụng tủ sách seaborn.
import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline# Creating a bar plotsns.barplot(x=feature_imp, y=feature_imp.index)# địa chỉ cửa hàng labels to lớn your graphplt.xlabel("Feature Importance Score")plt.ylabel("Features")plt.title("Visualizing Important Features")plt.legend()plt.show()

Tại đây, bạn có thể loại bỏ tài năng "chiều rộng lớn sepal" do nó bao gồm tầm đặc biệt quan trọng rất tốt và lựa chọn 3 tuấn kiệt còn lại.
# Import train_test_split functionfrom sklearn.cross_validation import train_test_split`# Split dataset into features và labels
X=data<<"petal length", "petal width","sepal length">> # Removed feature "sepal length"y=data<"species"> `# Split dataset into training set và test set``X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.70, random_state=5) # 70% training and 30% test`Sau khi chia nhỏ, các bạn sẽ tạo ra một mô hình trên các tính năng hướng dẫn được chọn, thực hiện các dự kiến về các tính năng cỗ thử đã chọn và so sánh các giá trị thực tiễn và được dự đoán.
Xem thêm:
from sklearn.ensemble import Random
Forest
Classifier#Create a Gaussian Classifierclf=Random
Forest
Phần kết luận
Trong trả lời này, các bạn đã biết được Random Forests là gì, nó vận động như vậy nào, kiếm tìm ra những tính năng quan trọng, đối chiếu giữa Random Forests và cây quyết định, ưu thế và bất lợi. Bạn cũng đã học xuất bản mô hình, reviews và tìm các tính năng quan trọng trong scikit-learn.