Hồi quy phân tích mối quan hệ giữa các biến
Hồi quy là một kỹ thuật khai thác dữ liệu được sử dụng để dự đoán một loạt các giá trị số (còn gọi là các giá trị liên tục ), được đưa ra một tập dữ liệu cụ thể. Ví dụ, hồi quy có thể được sử dụng để dự đoán chi phí của một sản phẩm hoặc dịch vụ, với các biến khác.
Hồi quy được sử dụng trên nhiều ngành công nghiệp để lập kế hoạch kinh doanh và tiếp thị, dự báo tài chính, mô hình hóa môi trường và phân tích các xu hướng.
Regression Vs. Phân loại
Hồi quy và phân loại là các kỹ thuật khai phá dữ liệu được sử dụng để giải quyết các vấn đề tương tự, nhưng chúng thường bị nhầm lẫn. Cả hai đều được sử dụng trong phân tích dự đoán, nhưng hồi quy được sử dụng để dự đoán một giá trị số hoặc liên tục trong khi phân loại gán dữ liệu thành các loại rời rạc.
Ví dụ, hồi quy sẽ được sử dụng để dự đoán giá trị của ngôi nhà dựa trên vị trí của nó, feet vuông, giá khi bán lần cuối, giá của ngôi nhà tương tự và các yếu tố khác. Phân loại sẽ theo thứ tự nếu bạn muốn thay thế sắp xếp nhà ở thành các danh mục, chẳng hạn như khả năng đi bộ, kích thước lô hoặc tỷ lệ tội phạm.
Các loại kỹ thuật hồi quy
Hình thức hồi quy đơn giản và lâu đời nhất là hồi quy tuyến tính được sử dụng để ước tính mối quan hệ giữa hai biến. Kỹ thuật này sử dụng công thức toán học của một đường thẳng (y = mx + b). Nói một cách đơn giản, điều này đơn giản có nghĩa là, với một đồ thị có Y và trục X, mối quan hệ giữa X và Y là một đường thẳng với vài ngoại lệ. Ví dụ, chúng ta có thể giả định rằng, với sự gia tăng dân số, sản xuất lương thực sẽ tăng cùng tốc độ - điều này đòi hỏi một mối quan hệ tuyến tính mạnh mẽ giữa hai con số. Để hình dung điều này, hãy xem xét biểu đồ trong đó trục Y theo dõi sự gia tăng dân số và trục X theo dõi quá trình sản xuất thực phẩm. Khi giá trị Y tăng, giá trị X sẽ tăng với cùng tốc độ, làm cho mối quan hệ giữa chúng trở thành một đường thẳng.
Kỹ thuật nâng cao, chẳng hạn như hồi quy nhiều lần, dự đoán mối quan hệ giữa nhiều biến - ví dụ, có mối tương quan giữa thu nhập, giáo dục và nơi mà một người chọn sống không? Việc bổ sung thêm nhiều biến đáng kể làm tăng độ phức tạp của dự đoán. Có một số loại kỹ thuật hồi quy nhiều lần bao gồm tiêu chuẩn, phân cấp, setwise và từng bước, mỗi loại có ứng dụng riêng của nó.
Tại thời điểm này, điều quan trọng là phải hiểu những gì chúng tôi đang cố gắng dự đoán (biến phụ thuộc hoặc dự đoán ) và dữ liệu chúng tôi đang sử dụng để đưa ra dự đoán (các biến độc lập hoặc dự đoán ). Trong ví dụ của chúng tôi, chúng tôi muốn dự đoán vị trí mà người ta chọn để sống (biến dự đoán ) cho thu nhập và giáo dục (cả hai biến dự đoán ).
- Phép hồi quy nhiều tiêu chuẩn xem xét tất cả các biến dự báo cùng một lúc. Ví dụ 1) mối quan hệ giữa thu nhập và giáo dục (dự đoán) là gì và lựa chọn vùng lân cận (dự đoán); và 2) mức độ nào mà mỗi người dự đoán riêng lẻ đóng góp vào mối quan hệ đó?
- Stepwise multiple regression trả lời một câu hỏi hoàn toàn khác. Thuật toán hồi quy từng bước sẽ phân tích những yếu tố dự đoán nào được sử dụng tốt nhất để dự đoán sự lựa chọn của vùng lân cận - nghĩa là mô hình bậc thang đánh giá thứ tự tầm quan trọng của các biến dự báo và sau đó chọn một tập hợp con có liên quan. Loại bài toán hồi quy này sử dụng "các bước" để phát triển phương trình hồi quy. Với kiểu hồi quy này, tất cả các yếu tố dự đoán có thể không xuất hiện trong phương trình hồi quy cuối cùng.
- Hồi quy phân cấp , giống như bước từng bước, là một quá trình tuần tự, nhưng các biến dự báo được nhập vào mô hình theo thứ tự được xác định trước, nghĩa là thuật toán không chứa một tập hợp các phương trình để xác định thứ tự trong đó nhập các yếu tố dự đoán. Điều này được sử dụng thường xuyên nhất khi cá nhân tạo phương trình hồi quy có kiến thức chuyên môn về trường.
- Hồi quy setwise cũng tương tự như từng bước nhưng phân tích tập hợp các biến thay vì các biến riêng lẻ.