Phân loại trong khai thác dữ liệu

Phân loại là một kỹ thuật khai phá dữ liệu gán các danh mục cho một tập hợp dữ liệu để hỗ trợ cho các dự đoán và phân tích chính xác hơn. Còn được gọi đôi khi được gọi là Cây quyết định , phân loại là một trong nhiều phương pháp nhằm phân tích các tập dữ liệu rất lớn có hiệu quả.

Tại sao phân loại?

Cơ sở dữ liệu rất lớn đang trở thành tiêu chuẩn trong thế giới ngày nay của "dữ liệu lớn". Hãy tưởng tượng một cơ sở dữ liệu với nhiều terabyte dữ liệu —a terabyte là một nghìn tỷ byte dữ liệu.

Facebook một mình crunches 600 terabyte dữ liệu mới mỗi ngày (tính đến năm 2014, lần cuối cùng nó báo cáo các thông số kỹ thuật). Thách thức chính của dữ liệu lớn là làm thế nào để hiểu được nó.

Và khối lượng tuyệt đối không phải là vấn đề duy nhất: dữ liệu lớn cũng có xu hướng đa dạng, không có cấu trúc và thay đổi nhanh. Xem xét dữ liệu âm thanh và video, bài đăng trên phương tiện truyền thông xã hội, dữ liệu 3D hoặc dữ liệu không gian địa lý. Loại dữ liệu này không dễ phân loại hoặc sắp xếp.

Để đáp ứng thách thức này, một loạt các phương pháp tự động để trích xuất thông tin hữu ích đã được phát triển, trong số đó có phân loại .

Cách phân loại hoạt động

Với nguy cơ di chuyển quá xa vào công nghệ, hãy thảo luận cách phân loại hoạt động. Mục tiêu là tạo ra một bộ quy tắc phân loại sẽ trả lời một câu hỏi, đưa ra quyết định hoặc dự đoán hành vi. Để bắt đầu, một tập hợp dữ liệu đào tạo được phát triển có chứa một tập hợp các thuộc tính nhất định cũng như kết quả có khả năng.

Công việc của thuật toán phân loại là khám phá cách tập các thuộc tính đó kết thúc như thế nào.

Kịch bản : Có thể một công ty thẻ tín dụng đang cố gắng xác định khách hàng tiềm năng nào sẽ nhận được ưu đãi thẻ tín dụng.

Đây có thể là tập dữ liệu đào tạo của nó:

Dữ liệu đào tạo
Tên Tuổi tác Giới tính Thu nhập hàng năm Ưu đãi thẻ tín dụng
John Doe 25 M 39.500 đô la Không
Jane Doe 56 F 125.000 đô la Vâng

Cột "dự báo" Độ tuổi , Giới tínhThu nhập hàng năm xác định giá trị của " Ưu đãi thẻ tín dụng " thuộc tính dự đoán. Trong tập huấn luyện, thuộc tính dự đoán được biết. Thuật toán phân loại sau đó cố gắng xác định giá trị của thuộc tính dự đoán đã đạt được như thế nào: mối quan hệ nào tồn tại giữa các yếu tố dự đoán và quyết định? Nó sẽ phát triển một bộ quy tắc dự đoán, thường là một câu lệnh IF / THEN, ví dụ:

NẾU (Tuổi> 18 HOẶC Tuổi <75) VÀ Thu nhập hàng năm> 40.000 THEN Thẻ tín dụng Offer = yes

Rõ ràng, đây là một ví dụ đơn giản và thuật toán sẽ cần lấy mẫu dữ liệu lớn hơn nhiều so với hai bản ghi được hiển thị ở đây. Hơn nữa, các quy tắc dự đoán có thể phức tạp hơn nhiều, bao gồm các quy tắc phụ để nắm bắt các chi tiết thuộc tính.

Tiếp theo, thuật toán được đưa ra một "bộ dự đoán" của dữ liệu để phân tích, nhưng bộ này thiếu thuộc tính dự đoán (hoặc quyết định):

Dữ liệu dự đoán
Tên Tuổi tác Giới tính Thu nhập hàng năm Ưu đãi thẻ tín dụng
Jack Frost 42 M 88.000 đô la
Mary Murray 16 F $ 0

Dữ liệu dự báo này giúp ước tính tính chính xác của các quy tắc dự đoán, và các quy tắc sau đó được tinh chỉnh cho đến khi nhà phát triển xem xét các dự đoán có hiệu quả và hữu ích.

Ví dụ về phân loại ngày qua ngày

Phân loại, và các kỹ thuật khai thác dữ liệu khác, nằm đằng sau phần lớn trải nghiệm hàng ngày của chúng tôi là người tiêu dùng.

Dự báo thời tiết có thể sử dụng phân loại để báo cáo xem ngày nào sẽ mưa, nắng hay có mây. Ngành y tế có thể phân tích tình trạng sức khỏe để dự đoán kết quả y tế. Một loại phương pháp phân loại, Naive Bayesian, sử dụng xác suất có điều kiện để phân loại email spam. Từ việc phát hiện gian lận đến các đề xuất sản phẩm, phân loại là hậu trường mỗi ngày phân tích dữ liệu và tạo dự đoán.