Khai thác dữ liệu là gì?

Các công ty lớn biết nhiều hơn về bạn hơn bạn có thể tưởng tượng - đây là cách

Khai thác dữ liệu là phân tích một lượng lớn dữ liệu để khám phá các mẫu và kiến ​​thức. Trong thực tế, khai thác dữ liệu còn được gọi là khám phá dữ liệu hoặc khám phá kiến ​​thức.

Khai thác dữ liệu sử dụng số liệu thống kê, nguyên tắc học máy (ML), trí thông minh nhân tạo (AI) và số lượng lớn dữ liệu (thường từ cơ sở dữ liệu hoặc tập dữ liệu) để xác định các mẫu theo cách tự động và hữu ích nhất có thể.

Khai thác dữ liệu làm gì?

Khai thác dữ liệu có hai mục tiêu chính: mô tả và dự đoán. Thứ nhất, khai thác dữ liệu mô tả những hiểu biết và kiến ​​thức thu được từ việc phân tích các mẫu trong dữ liệu. Thứ hai, khai thác dữ liệu sử dụng mô tả các mẫu dữ liệu được công nhận để dự đoán các mẫu trong tương lai.

Ví dụ: nếu bạn đã dành thời gian duyệt trên trang web mua sắm để tìm sách về cách xác định các loại cây khác nhau, dịch vụ khai thác dữ liệu hoạt động hậu trường trên trang web đó ghi lại mô tả tìm kiếm của bạn liên quan đến tiểu sử của bạn. Khi bạn đăng nhập lại hai tuần sau đó, dịch vụ khai thác dữ liệu của trang web sử dụng mô tả về các tìm kiếm trước đây của bạn để dự đoán sở thích hiện tại của bạn và cung cấp các đề xuất mua sắm được cá nhân hóa bao gồm sách về cách xác định nhà máy.

Cách khai thác dữ liệu hoạt động

Khai thác dữ liệu hoạt động bằng cách sử dụng thuật toán, tập hợp các hướng dẫn cho máy tính biết hoặc xử lý cách thực hiện tác vụ, để khám phá các loại mẫu khác nhau trong dữ liệu. Một vài phương pháp nhận dạng mẫu khác nhau được sử dụng trong khai thác dữ liệu bao gồm phân tích cụm, phát hiện bất thường, học kết hợp, phụ thuộc dữ liệu, cây quyết định, mô hình hồi quy, phân loại, phát hiện ngoại lệ và mạng nơron.

Mặc dù việc khai thác dữ liệu có thể được sử dụng để mô tả và dự đoán các mẫu trong tất cả các loại dữ liệu khác nhau, việc sử dụng nhiều người gặp phải thường xuyên nhất, ngay cả khi họ không nhận ra nó, là mô tả các mẫu trong lựa chọn và hành vi mua của bạn quyết định.

Ví dụ, có bao giờ bạn tự hỏi làm thế nào Facebook dường như luôn biết những gì bạn đang xem trực tuyến và hiển thị quảng cáo trong nguồn cấp tin tức của bạn liên quan đến các trang web khác mà bạn đã truy cập hoặc tìm kiếm trên web của bạn? Khai thác dữ liệu trên Facebook sử dụng thông tin được lưu trữ trong trình duyệt của bạn để theo dõi hoạt động của bạn, chẳng hạn như cookie , cùng với kiến ​​thức về mẫu của bạn dựa trên việc sử dụng dịch vụ của Facebook trước đây của bạn để khám phá và dự đoán sản phẩm hoặc dịch vụ mà bạn có thể quan tâm.

Loại dữ liệu nào có thể được khai thác?

Tùy thuộc vào dịch vụ hoặc cửa hàng (các cửa hàng vật lý cũng sử dụng khai thác dữ liệu), một lượng dữ liệu đáng ngạc nhiên về bạn và các mẫu của bạn có thể được khai thác. Dữ liệu thu thập được về bạn có thể bao gồm loại xe bạn lái xe, nơi bạn sinh sống, địa điểm bạn đã đi, tạp chí và báo bạn đăng ký và bạn có kết hôn hay không. Nó cũng có thể xác định xem bạn có sở thích hay không, sở thích của bạn là gì, ban nhạc bạn thích, khuynh hướng chính trị, thứ bạn mua trực tuyến, thứ bạn mua trong cửa hàng thực (thường thông qua thẻ thưởng khách hàng thân thiết) và mọi chi tiết bạn chia sẻ về cuộc sống của bạn trên truyền thông xã hội.

Ví dụ, các nhà bán lẻ và các ấn phẩm dựa trên thời trang nhắm vào thanh thiếu niên sử dụng thông tin chi tiết từ các hình ảnh khai thác dữ liệu trên các dịch vụ truyền thông xã hội như Instagram và Facebook để dự đoán xu hướng thời trang sẽ thu hút người mua sắm hoặc độc giả tuổi teen. Thông tin chi tiết được khám phá qua khai thác dữ liệu có thể rất chính xác đến mức một số nhà bán lẻ thậm chí có thể dự đoán liệu một người phụ nữ có thai hay không, dựa trên những thay đổi rất cụ thể trong lựa chọn mua của mình. Nhà bán lẻ, Target, được cho là rất chính xác với dự đoán mang thai dựa trên các mẫu trong lịch sử mua hàng mà nó gửi phiếu giảm giá cho các sản phẩm em bé cho một phụ nữ trẻ, mang lại bí mật mang thai trước khi cô nói với gia đình.

Tuy nhiên, phần lớn dữ liệu được tìm thấy và phân tích về thói quen mua, sở thích cá nhân, lựa chọn, tài chính và hoạt động trực tuyến của chúng tôi được sử dụng bởi các cửa hàng và dịch vụ với mục đích nâng cao trải nghiệm của khách hàng.