Những điều bạn cần biết về lọc thư rác Bayesian

by Heinz Tschabitscher

Tìm hiểu cách thống kê giúp hộp thư đến của bạn luôn sạch sẽ

Bộ lọc spam Bayes tính toán xác suất của thư là spam dựa trên nội dung của nó. Không giống như các bộ lọc dựa trên nội dung đơn giản, lọc thư rác Bayes sẽ học hỏi từ thư rác và từ thư tốt, dẫn đến một cách tiếp cận chống thư rác rất mạnh mẽ, thích ứng và hiệu quả, tốt nhất, trả về hầu như không có bất kỳ sai tích cực nào.

Làm thế nào để bạn nhận ra email rác?

Hãy nghĩ về cách bạn phát hiện spam . Nhìn lướt qua thường là đủ. Bạn biết thư rác trông như thế nào và bạn biết thư nào trông như thế nào.

Xác suất của thư rác trông giống như thư tốt là khoảng ... không.

Việc ghi các bộ lọc dựa trên nội dung không thích ứng

Nó sẽ không tuyệt vời nếu các bộ lọc thư rác tự động cũng hoạt động như vậy?

Việc chấm điểm các bộ lọc spam dựa trên nội dung sẽ cố gắng thực hiện điều đó. Họ tìm kiếm các từ và các đặc tính khác điển hình của thư rác. Mỗi yếu tố đặc trưng được chỉ định một điểm số, và một điểm số thư rác cho toàn bộ tin nhắn được tính từ các điểm số cá nhân. Một số bộ lọc ghi điểm cũng tìm kiếm các đặc tính của thư hợp pháp, giảm điểm cuối cùng của một tin nhắn.

Cách tiếp cận bộ lọc chấm điểm không hoạt động, nhưng nó cũng có một số nhược điểm:

Danh sách các đặc điểm được xây dựng từ thư rác (và thư tốt) có sẵn cho các kỹ sư của bộ lọc. Để có được một nắm bắt tốt của các thư rác điển hình bất cứ ai có thể nhận được, thư phải được thu thập tại hàng trăm địa chỉ email. Điều này làm suy yếu hiệu quả của các bộ lọc, đặc biệt là vì các đặc tính của thư tốt sẽ khác nhau cho mỗi người , nhưng điều này không được tính đến.
Các đặc điểm để tìm kiếm ít nhiều được đặt trong đá . Nếu những kẻ gửi thư rác thực hiện các nỗ lực để thích nghi (và làm cho thư rác của họ trông giống như thư tốt để các bộ lọc), các đặc tính lọc phải được tinh chỉnh bằng tay - một nỗ lực lớn hơn.
Điểm số được gán cho mỗi từ có lẽ dựa trên ước tính tốt, nhưng nó vẫn tùy ý. Và giống như danh sách các đặc điểm, nó không thích ứng với thế giới thư rác thay đổi nói chung cũng như nhu cầu của người dùng cá nhân.

Bộ lọc thư rác Bayesian Tweak mình, nhận được tốt hơn và tốt hơn

Các bộ lọc spam Bayes cũng là một loại bộ lọc dựa trên nội dung. Tuy nhiên, cách tiếp cận của họ không có vấn đề với các bộ lọc spam đơn giản và nó hoạt động một cách triệt để. Vì điểm yếu của các bộ lọc điểm là trong danh sách các đặc tính được xây dựng theo cách thủ công và điểm số của chúng, danh sách này bị loại bỏ.

Thay vào đó, bộ lọc spam Bayes tự xây dựng danh sách. Lý tưởng nhất là bạn bắt đầu với một nhóm email lớn mà bạn đã phân loại là spam và một loạt thư tốt khác. Các bộ lọc xem xét cả hai và phân tích thư hợp pháp cũng như thư rác để tính toán xác suất của các đặc điểm khác nhau xuất hiện trong thư rác và trong thư tốt.

Làm thế nào một bộ lọc thư rác Bayesian kiểm tra một email

Các đặc tính mà bộ lọc thư rác Bayes có thể xem xét có thể là:

các từ trong thân của thông điệp, tất nhiên, và
tiêu đề của nó (người gửi và đường dẫn thư , chẳng hạn!), nhưng cũng
các khía cạnh khác như mã HTML / CSS (như màu sắc và định dạng khác) hoặc thậm chí
cặp từ, cụm từ và
thông tin meta (ví dụ: một cụm từ cụ thể xuất hiện).

Ví dụ: nếu một từ, "Descartes", không bao giờ xuất hiện trong thư rác nhưng thường trong email hợp pháp bạn nhận được, xác suất "Descartes" cho biết spam gần bằng không. Mặt khác, "Toner" xuất hiện độc quyền và thường xuyên trong thư rác. "Toner" có xác suất rất cao được tìm thấy trong thư rác, không thấp hơn nhiều 1 (100%).

Khi một tin nhắn mới đến, nó được phân tích bởi bộ lọc thư rác Bayes, và xác suất của tin nhắn hoàn chỉnh là thư rác được tính bằng cách sử dụng các đặc điểm riêng lẻ.

Giả sử một tin nhắn chứa cả "Descartes" và "toner". Từ những lời này một mình nó không rõ ràng cho dù chúng tôi có thư rác hoặc thư legit. Các đặc điểm khác sẽ (hy vọng và có thể nhất) cho biết xác suất cho phép bộ lọc phân loại thư là thư rác hoặc thư tốt.

Bộ lọc thư rác Bayesian có thể tự động tìm hiểu

Bây giờ chúng ta có một phân loại, thông điệp có thể được sử dụng để đào tạo bộ lọc chính nó hơn nữa. Trong trường hợp này, xác suất "Cartesian" cho biết thư tốt được hạ xuống (nếu thư có chứa cả "Cartesian" và "toner" được tìm thấy là spam), hoặc xác suất "mực" cho biết spam phải được xem xét lại.

Sử dụng kỹ thuật tự động thích nghi này, các bộ lọc Bayes có thể học hỏi từ cả các quyết định của riêng họ và của người dùng (nếu cô ấy tự sửa lỗi sai bởi các bộ lọc). Khả năng thích ứng của lọc Bayesian cũng đảm bảo rằng chúng hiệu quả nhất cho người dùng email cá nhân. Trong khi phần lớn thư rác của mọi người có thể có những đặc điểm tương tự, thì thư hợp pháp là khác biệt về mặt đặc trưng cho mọi người.

Làm cách nào những kẻ gửi spam có thể nhận được bộ lọc Bayesian trong quá khứ?

Các đặc tính của thư hợp pháp cũng quan trọng đối với quá trình lọc spam Bayes như spam. Nếu các bộ lọc được đào tạo đặc biệt cho mọi người dùng, những người gửi spam sẽ có thời gian khó khăn hơn trong việc xử lý các bộ lọc spam của mọi người (hoặc thậm chí là hầu hết mọi người) và các bộ lọc có thể thích ứng với hầu hết mọi người gửi spam.

Những kẻ gửi thư rác sẽ chỉ làm cho nó vượt qua các bộ lọc Bayesian được đào tạo tốt nếu chúng làm cho thư spam của họ trông hoàn hảo giống như email thông thường mà mọi người có thể nhận được.

Người gửi spam thường không gửi các email thông thường như vậy. Chúng ta hãy giả định điều này là bởi vì những email này không hoạt động như email rác. Vì vậy, rất có thể là họ sẽ không làm điều đó khi email thông thường, nhàm chán là cách duy nhất để làm cho nó qua bộ lọc thư rác.

Tuy nhiên, nếu những kẻ gửi thư rác chuyển sang hầu hết các email thông thường, chúng tôi sẽ lại thấy rất nhiều spam trong Hộp thư đến của chúng tôi và email có thể trở nên bực bội như trước những ngày trước Bayesian (hoặc thậm chí tệ hơn). Nó cũng sẽ hủy hoại thị trường cho hầu hết các loại thư rác, tuy nhiên, và do đó sẽ không kéo dài lâu.

Các chỉ số mạnh mẽ Có thể là một bộ lọc thư rác của Bayesian & # 39; s Achilles & # 39; Gót chân

Một ngoại lệ có thể được cảm nhận cho kẻ gửi thư rác để làm việc theo cách của họ thông qua các bộ lọc Bayes ngay cả với nội dung thông thường của họ. Đó là bản chất của số liệu thống kê Bayesian rằng một từ hoặc đặc tính thường xuyên xuất hiện trong thư tốt có thể rất quan trọng để biến bất kỳ thư nào trông giống như spam bị bộ lọc đánh giá là ham.

Nếu người gửi spam tìm cách xác định các từ tốt bằng thư của bạn — bằng cách sử dụng biên nhận trả lại HTML để xem thư nào bạn đã mở, ví dụ—, họ có thể bao gồm một thư trong một thư rác và liên lạc với bạn ngay cả bộ lọc Bayesian được đào tạo.

John Graham-Cumming đã thử điều này bằng cách để hai bộ lọc Bayes hoạt động với nhau, bộ lọc "xấu" thích ứng với thông điệp nào được tìm thấy để vượt qua bộ lọc "tốt". Anh ta nói nó hoạt động, mặc dù quá trình này tốn thời gian và phức tạp. Chúng tôi không nghĩ rằng chúng tôi sẽ thấy nhiều điều này xảy ra, ít nhất là không phải trên quy mô lớn, và không phù hợp với đặc điểm email của cá nhân. Những kẻ gửi thư rác có thể (cố gắng) tìm ra một số từ khóa cho các tổ chức (ví dụ như "Almaden" cho một số người tại IBM?).

Thông thường, thư rác sẽ luôn luôn (đáng kể) khác với thư thông thường hoặc sẽ không phải là spam.

Điểm mấu chốt: Sức mạnh lọc Bayesian có thể là điểm yếu của nó

Bộ lọc spam Bayes là bộ lọc dựa trên nội dung :

được đào tạo đặc biệt để nhận ra thư rác của người dùng email và thư tốt , làm cho chúng hiệu quả cao và khó thích nghi với những kẻ gửi thư rác.
có thể liên tục và không cần nhiều nỗ lực hoặc phân tích thủ công phù hợp với các thủ thuật mới nhất của người gửi spam.
đưa thư tốt của người dùng cá nhân vào tài khoản và có tỷ lệ dương tính giả rất thấp .
Thật không may, nếu điều này gây ra sự tin tưởng mù quáng trong các bộ lọc chống thư rác Bayes, nó làm cho các lỗi thường xuyên nghiêm trọng hơn . Hiệu ứng ngược lại của các âm bản sai (spam trông giống như thư thông thường) có khả năng làm phiền và làm người dùng thất vọng.