Định nghĩa mô hình thống kê hồi quy

Hồi quy phân tích mối quan hệ giữa các biến

Hồi quy là một kỹ thuật khai thác dữ liệu được sử dụng để dự đoán một loạt các giá trị số (còn gọi là các giá trị liên tục ), được đưa ra một tập dữ liệu cụ thể. Ví dụ, hồi quy có thể được sử dụng để dự đoán chi phí của một sản phẩm hoặc dịch vụ, với các biến khác.

Hồi quy được sử dụng trên nhiều ngành công nghiệp để lập kế hoạch kinh doanh và tiếp thị, dự báo tài chính, mô hình hóa môi trường và phân tích các xu hướng.

Regression Vs. Phân loại

Hồi quy và phân loại là các kỹ thuật khai phá dữ liệu được sử dụng để giải quyết các vấn đề tương tự, nhưng chúng thường bị nhầm lẫn. Cả hai đều được sử dụng trong phân tích dự đoán, nhưng hồi quy được sử dụng để dự đoán một giá trị số hoặc liên tục trong khi phân loại gán dữ liệu thành các loại rời rạc.

Ví dụ, hồi quy sẽ được sử dụng để dự đoán giá trị của ngôi nhà dựa trên vị trí của nó, feet vuông, giá khi bán lần cuối, giá của ngôi nhà tương tự và các yếu tố khác. Phân loại sẽ theo thứ tự nếu bạn muốn thay thế sắp xếp nhà ở thành các danh mục, chẳng hạn như khả năng đi bộ, kích thước lô hoặc tỷ lệ tội phạm.

Các loại kỹ thuật hồi quy

Hình thức hồi quy đơn giản và lâu đời nhất là hồi quy tuyến tính được sử dụng để ước tính mối quan hệ giữa hai biến. Kỹ thuật này sử dụng công thức toán học của một đường thẳng (y = mx + b). Nói một cách đơn giản, điều này đơn giản có nghĩa là, với một đồ thị có Y và trục X, mối quan hệ giữa X và Y là một đường thẳng với vài ngoại lệ. Ví dụ, chúng ta có thể giả định rằng, với sự gia tăng dân số, sản xuất lương thực sẽ tăng cùng tốc độ - điều này đòi hỏi một mối quan hệ tuyến tính mạnh mẽ giữa hai con số. Để hình dung điều này, hãy xem xét biểu đồ trong đó trục Y theo dõi sự gia tăng dân số và trục X theo dõi quá trình sản xuất thực phẩm. Khi giá trị Y tăng, giá trị X sẽ tăng với cùng tốc độ, làm cho mối quan hệ giữa chúng trở thành một đường thẳng.

Kỹ thuật nâng cao, chẳng hạn như hồi quy nhiều lần, dự đoán mối quan hệ giữa nhiều biến - ví dụ, có mối tương quan giữa thu nhập, giáo dục và nơi mà một người chọn sống không? Việc bổ sung thêm nhiều biến đáng kể làm tăng độ phức tạp của dự đoán. Có một số loại kỹ thuật hồi quy nhiều lần bao gồm tiêu chuẩn, phân cấp, setwise và từng bước, mỗi loại có ứng dụng riêng của nó.

Tại thời điểm này, điều quan trọng là phải hiểu những gì chúng tôi đang cố gắng dự đoán (biến phụ thuộc hoặc dự đoán ) và dữ liệu chúng tôi đang sử dụng để đưa ra dự đoán (các biến độc lập hoặc dự đoán ). Trong ví dụ của chúng tôi, chúng tôi muốn dự đoán vị trí mà người ta chọn để sống (biến dự đoán ) cho thu nhập và giáo dục (cả hai biến dự đoán ).