Chính xác 'Dữ liệu lớn' là gì?

Và tại sao lại là một thỏa thuận lớn?

'Dữ liệu lớn' là khoa học mới về sự hiểu biết và dự đoán hành vi của con người bằng cách nghiên cứu khối lượng lớn dữ liệu phi cấu trúc. Dữ liệu lớn còn được gọi là 'phân tích dự báo'.

Phân tích các bài đăng trên Twitter, nguồn cấp dữ liệu Facebook, tìm kiếm trên eBay, trình theo dõi GPS và máy ATM là một số ví dụ về dữ liệu lớn. Nghiên cứu video bảo mật, dữ liệu giao thông, mẫu thời tiết, chuyến bay đến, nhật ký tháp điện thoại di động và trình theo dõi nhịp tim là các hình thức khác. Dữ liệu lớn là một khoa học mới lộn xộn thay đổi hàng tuần và chỉ có một vài chuyên gia hiểu được tất cả.

Một số ví dụ về dữ liệu lớn trong cuộc sống thường xuyên là gì?

ảnh chụp màn hình http://project.wnyc.org/transit-time

Mặc dù hầu hết các dự án dữ liệu lớn đều rất mơ hồ, có những ví dụ thành công về dữ liệu lớn ảnh hưởng đến cuộc sống hàng ngày của các cá nhân, công ty và chính phủ:

Dự đoán bùng nổ virus: bằng cách nghiên cứu dữ liệu chính trị - xã hội, thời tiết và khí hậu, và dữ liệu bệnh viện / lâm sàng, các nhà khoa học hiện đang dự đoán bùng phát sốt xuất huyết với thông báo trước 4 tuần.

Đồng hồ giết người: dự án dữ liệu lớn này hồ sơ các nạn nhân giết người, nghi phạm và tội phạm ở Washington, DC. Cả hai như một cách để tôn vinh người đã qua đời và như một nguồn lực nhận thức cho mọi người, dự án dữ liệu lớn này là hấp dẫn.

Quy hoạch du lịch quá cảnh, NYC: Lập trình viên đài phát thanh WNYC, Steve Melendez, kết hợp lịch trình tàu điện ngầm trực tuyến với phần mềm hành trình du lịch. Sự sáng tạo của anh cho phép người dân New York nhấp vào vị trí của họ trên bản đồ và dự đoán thời gian đi lại cho tàu hỏa và tàu điện ngầm sẽ xuất hiện.

Xerox giảm tổn thất lực lượng lao động của họ: công việc trung tâm cuộc gọi là tình cảm mệt mỏi. Xerox đã nghiên cứu các reams dữ liệu với sự trợ giúp của các nhà phân tích chuyên nghiệp, và bây giờ họ có thể dự đoán thuê trung tâm cuộc gọi có khả năng ở lại với công ty dài nhất.

Hỗ trợ chống khủng bố: bằng cách nghiên cứu phương tiện truyền thông xã hội, hồ sơ tài chính, đặt vé máy bay và dữ liệu an ninh, thực thi pháp luật có thể dự đoán và xác định các nghi phạm khủng bố trước khi họ hành động xấu xa.

Điều chỉnh tiếp thị thương hiệu dựa trên đánh giá truyền thông xã hội : mọi người thẳng thắn và nhanh chóng chia sẻ suy nghĩ trực tuyến của họ về quán rượu, nhà hàng hoặc câu lạc bộ thể dục. Có thể nghiên cứu hàng triệu bài đăng trên phương tiện truyền thông xã hội này và cung cấp phản hồi cho công ty về những gì mọi người nghĩ về dịch vụ của họ.

Ai sử dụng dữ liệu lớn? Họ làm gì với nó?

Nhiều tập đoàn nguyên khối sử dụng dữ liệu lớn để điều chỉnh các dịch vụ và giá của họ để tối đa hóa sự hài lòng của khách hàng.

Tại sao dữ liệu lớn như vậy là một thỏa thuận lớn?

4 điều làm cho dữ liệu lớn quan trọng:

1. Dữ liệu rất lớn. Nó sẽ không vừa trên một ổ đĩa cứng , ít hơn một thanh USB . Khối lượng dữ liệu vượt xa những gì tâm trí con người có thể cảm nhận được (nghĩ tới một tỷ tỷ megabyte, và sau đó nhân số tiền đó với hàng tỷ).

2. Dữ liệu lộn xộn và không có cấu trúc. 50% đến 80% công việc dữ liệu lớn đang chuyển đổi và làm sạch thông tin để có thể tìm kiếm và sắp xếp được. Chỉ có một vài nghìn chuyên gia trên hành tinh của chúng ta hoàn toàn biết cách làm sạch dữ liệu này. Các chuyên gia này cũng cần các công cụ rất chuyên dụng, như HPE và Hadoop, để thực hiện công việc của họ. Có lẽ trong 10 năm, các chuyên gia dữ liệu lớn sẽ trở thành hàng tá, nhưng hiện tại, họ là một loài rất hiếm hoi của nhà phân tích và công việc của họ vẫn còn rất mơ hồ và tẻ nhạt.

3. Dữ liệu đã trở thành một mặt hàng ** có thể được bán và mua. Thị trường dữ liệu tồn tại nơi các công ty và cá nhân có thể mua terabyte phương tiện truyền thông xã hội và các dữ liệu khác. Hầu hết dữ liệu dựa trên đám mây, vì nó quá lớn để vừa với bất kỳ đĩa cứng nào. Mua dữ liệu thường liên quan đến phí đăng ký nơi bạn cắm vào một trang trại máy chủ đám mây.

** Các nhà lãnh đạo các công cụ và ý tưởng dữ liệu lớn là Amazon, Google, Facebook và Yahoo. Bởi vì các công ty này phục vụ rất nhiều triệu người với các dịch vụ trực tuyến của họ, nên có nghĩa là họ sẽ là điểm thu thập và tầm nhìn xa sau các phân tích dữ liệu lớn.

4. Khả năng của dữ liệu lớn là vô tận. Có lẽ các bác sĩ một ngày sẽ dự đoán các cơn đau tim và đột quỵ cho các cá nhân vài tuần trước khi chúng xảy ra. Tai nạn máy bay và ô tô có thể bị giảm do phân tích tiên đoán về dữ liệu cơ học và lưu lượng truy cập và thời tiết của chúng. Hẹn hò trực tuyến có thể được cải thiện bằng cách dự đoán dữ liệu lớn về những người có tính cách tương thích cho bạn. Các nhạc sĩ có thể hiểu sâu hơn về thành phần âm nhạc nào phù hợp nhất với thị hiếu thay đổi của khán giả mục tiêu. Các chuyên gia dinh dưỡng có thể dự đoán được sự kết hợp của thực phẩm mua ở cửa hàng nào sẽ làm trầm trọng thêm hoặc giúp đỡ tình trạng sức khỏe của một người. Bề mặt chỉ bị trầy xước và những khám phá trong dữ liệu lớn xảy ra hàng tuần.

Dữ liệu lớn là lộn xộn

Monty Rakusen / Getty

Dữ liệu lớn là phân tích dự báo: chuyển đổi dữ liệu phi cấu trúc lớn thành một thứ có thể tìm kiếm và sắp xếp được. Đây là một không gian lộn xộn và hỗn loạn đòi hỏi một loại kiến ​​thức và kiên nhẫn đặc biệt.

Lấy ví dụ dịch vụ chuyển phát UPS nguyên khối. Các lập trình viên tại UPS nghiên cứu dữ liệu từ GPS và điện thoại thông minh của trình điều khiển của họ để phân tích những cách hiệu quả nhất để thích nghi với tắc nghẽn giao thông. Dữ liệu GPS và điện thoại thông minh này là khổng lồ và không tự động sẵn sàng để phân tích. Dữ liệu này đổ vào từ nhiều cơ sở dữ liệu bản đồ và GPS khác nhau, thông qua các thiết bị phần cứng điện thoại thông minh khác nhau. Các nhà phân tích của UPS đã dành hàng tháng chuyển đổi tất cả dữ liệu đó thành một định dạng có thể dễ dàng tìm kiếm và sắp xếp. Mặc dù nỗ lực này đáng giá. Hôm nay, UPS đã tiết kiệm hơn 8 triệu gallon nhiên liệu kể từ khi họ bắt đầu sử dụng các phân tích dữ liệu lớn này.

Bởi vì dữ liệu lớn là lộn xộn và đòi hỏi rất nhiều nỗ lực để dọn dẹp và chuẩn bị cho việc sử dụng, các nhà khoa học dữ liệu đã trở thành biệt danh 'dữ liệu janitors' cho tất cả các công việc tẻ nhạt mà họ làm.

Tuy nhiên, khoa học về dữ liệu lớn và phân tích dự báo đang cải thiện mỗi tuần. Mong đợi dữ liệu lớn để mọi người dễ dàng tiếp cận vào năm 2025.

Không phải là một dữ liệu lớn đe dọa đến sự riêng tư?

Feingersh / Getty

Có, nếu luật pháp của chúng tôi và bảo vệ quyền riêng tư cá nhân không được quản lý cẩn thận thì dữ liệu lớn xâm nhập vào quyền riêng tư cá nhân. Như nó đứng, Google và YouTube và Facebook đã theo dõi thói quen trực tuyến hàng ngày của bạn . Điện thoại thông minh và cuộc sống máy tính của bạn để lại dấu chân kỹ thuật số mỗi ngày và các công ty tinh vi đang nghiên cứu những dấu chân đó.

Các luật xung quanh dữ liệu lớn đang phát triển. Bảo mật là một trạng thái của việc bạn phải chịu trách nhiệm cá nhân vì bạn không còn có thể trông đợi nó như là một quyền mặc định.

Bạn có thể làm gì để bảo vệ quyền riêng tư của mình:

Bước đơn lớn nhất bạn có thể thực hiện là che giấu thói quen hàng ngày của mình bằng kết nối mạng VPN . Một dịch vụ VPN sẽ tranh giành tín hiệu của bạn để danh tính và vị trí của bạn ít nhất bị che khuất một phần khỏi trình theo dõi. Điều này sẽ không làm cho bạn vô danh 100%, nhưng VPN sẽ giảm đáng kể bao nhiêu thế giới có thể quan sát thói quen trực tuyến của bạn.

Tôi có thể tìm hiểu thêm về dữ liệu lớn ở đâu?

Monty Raskusen / Getty

Dữ liệu lớn là một điều hấp dẫn cho những người có tâm trí phân tích và tình yêu dành cho công nghệ. Nếu đó là bạn, thì chắc chắn truy cập vào trang này của các dự án dữ liệu thú vị lớn.