K-means Clustering là gì?

Khai thác dữ liệu bằng thuật toán k-means

Thuật toán phân cụm k là một công cụ khai thác dữ liệu và máy học được sử dụng để nhóm các quan sát thành các nhóm quan sát có liên quan mà không có bất kỳ kiến ​​thức nào về các mối quan hệ đó. Bằng cách lấy mẫu, thuật toán cố gắng hiển thị trong đó danh mục hoặc cụm, dữ liệu thuộc về, với số cụm được xác định bởi giá trị k.

Thuật toán k- có nghĩa là thuật toán là một trong những kỹ thuật phân cụm đơn giản nhất và nó thường được sử dụng trong hình ảnh y khoa, sinh trắc học và các lĩnh vực liên quan. Ưu điểm của k- có nghĩa là phân cụm là nó nói về dữ liệu của bạn (sử dụng dạng không giám sát của nó) thay vì bạn phải hướng dẫn thuật toán về dữ liệu lúc bắt đầu (sử dụng dạng được giám sát của thuật toán).

Nó đôi khi được gọi là thuật toán của Lloyd, đặc biệt là trong giới khoa học máy tính vì thuật toán chuẩn được Stuart Lloyd đề xuất lần đầu tiên vào năm 1957. Thuật ngữ "k-means" được James McQueen đặt ra năm 1967.

Cách các hàm Thuật toán k-means

Thuật toán k- có nghĩa là thuật toán tiến hóa thu được tên của nó từ phương thức hoạt động của nó. Thuật toán tập hợp các quan sát thành các nhóm k , trong đó k được cung cấp như một tham số đầu vào. Sau đó nó gán mỗi quan sát cho các cụm dựa trên sự gần nhau của quan sát với trung bình của cụm. Ý nghĩa của cluster sau đó được tính toán lại và quá trình bắt đầu lại. Đây là cách thuật toán hoạt động:

  1. Thuật toán tùy ý chọn k điểm làm trung tâm cụm ban đầu (phương tiện).
  2. Mỗi điểm trong tập dữ liệu được gán cho cụm đã đóng, dựa trên khoảng cách Euclide giữa mỗi điểm và mỗi trung tâm cụm.
  3. Mỗi trung tâm cụm được tính toán lại là mức trung bình của các điểm trong cụm đó.
  4. Các bước 2 và 3 lặp lại cho đến khi các cụm hội tụ. Sự hội tụ có thể được xác định khác nhau tùy thuộc vào việc thực hiện, nhưng nó thường có nghĩa là không có sự quan sát nào thay đổi các cụm khi lặp lại bước 2 và 3 hoặc thay đổi không tạo ra sự khác biệt về vật liệu trong định nghĩa cụm.

Chọn số lượng cụm

Một trong những nhược điểm chính của k- có nghĩa là phân cụm là một thực tế rằng bạn phải xác định số lượng các cụm như là một đầu vào cho thuật toán. Theo thiết kế, thuật toán không có khả năng xác định số cụm thích hợp và phụ thuộc vào người dùng để xác định điều này trước.

Ví dụ: nếu bạn có một nhóm người sẽ được nhóm dựa trên nhận dạng giới tính nhị phân là nam hoặc nữ, hãy gọi thuật toán k- có nghĩa là sử dụng đầu vào k = 3 sẽ buộc mọi người thành ba cụm khi chỉ có hai hoặc một đầu vào của k = 2, sẽ cung cấp một sự phù hợp tự nhiên hơn.

Tương tự, nếu một nhóm các cá nhân dễ dàng được nhóm lại dựa trên trạng thái nhà và bạn gọi là thuật toán k- có nghĩa là với đầu vào k = 20, kết quả có thể quá tổng quát để có hiệu quả.

Vì lý do này, bạn nên thử nghiệm với các giá trị khác nhau của k để xác định giá trị phù hợp nhất với dữ liệu của bạn. Bạn cũng có thể muốn khám phá việc sử dụng các thuật toán khai phá dữ liệu khác trong việc tìm kiếm kiến ​​thức được học máy.