Tệp robots.txt mẫu cho trang web của bạn

by Jennifer Kyrnin

Tệp robots.txt được lưu trữ trong thư mục gốc của trang web sẽ thông báo cho các rô-bốt web như trình thu thập thông tin của công cụ tìm kiếm những thư mục và tệp nào họ được phép thu thập thông tin. Thật dễ dàng để sử dụng tệp robots.txt, nhưng có một số điều bạn nên nhớ:

Robot web mũ đen sẽ bỏ qua tệp robots.txt của bạn. Các loại phổ biến nhất là chương trình phần mềm độc hại và rô bốt tìm kiếm địa chỉ email để thu hoạch.
Một số lập trình viên mới sẽ viết robot bỏ qua tệp robots.txt. Điều này thường được thực hiện do nhầm lẫn.

Bất kỳ ai cũng có thể xem tệp robots.txt của bạn. Chúng luôn được gọi là robots.txt và luôn được lưu trữ tại thư mục gốc của trang web.
Cuối cùng, nếu ai đó liên kết đến một tệp hoặc thư mục bị loại trừ bởi tệp robots.txt của bạn từ một trang không bị loại trừ bởi tệp robots.txt của họ thì công cụ tìm kiếm vẫn có thể tìm thấy tệp đó.

Không sử dụng tệp robots.txt để ẩn bất kỳ điều gì quan trọng. Thay vào đó, bạn nên đặt thông tin quan trọng đằng sau mật khẩu an toàn hoặc để nó hoàn toàn khỏi web.

Cách sử dụng các tệp mẫu này

Sao chép văn bản từ mẫu gần với những gì bạn muốn làm và dán nó vào tệp robots.txt của bạn. Thay đổi tên robot, thư mục và tệp để khớp với cấu hình ưa thích của bạn.

Hai tệp Robots.txt cơ bản

Đại lý người dùng: *
Không cho phép: /

Tệp này cho biết rằng bất kỳ rô bốt nào (User-agent: *) truy cập vào nó sẽ bỏ qua mọi trang trên trang web (Disallow: /).

Đại lý người dùng: *
Không cho phép:

Tệp này cho biết rằng bất kỳ rô bốt nào (Tác nhân người dùng: *) truy cập được phép xem mọi trang trên trang web (Disallow:).

Bạn cũng có thể thực hiện việc này bằng cách để trống tệp robots.txt hoặc hoàn toàn không có tệp robots.txt trên trang web của mình.

Bảo vệ các thư mục cụ thể từ rô-bốt

Đại lý người dùng: *
Disallow: / cgi-bin /
Disallow: / temp /

Tệp này nói rằng bất kỳ rô bốt nào (Tác nhân người dùng: *) truy cập vào nó sẽ bỏ qua các thư mục / cgi-bin / và / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Bảo vệ các trang cụ thể từ rô-bốt

Đại lý người dùng: *
Disallow: /jenns-stuff.htm
Disallow: /private.php

Tệp này cho biết rằng bất kỳ rô bốt nào (User-agent: *) truy cập nó sẽ bỏ qua các tệp /jenns-stuff.htm và /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Ngăn chặn một Robot cụ thể truy cập trang web của bạn

Tác nhân người dùng: Lycos / xx
Không cho phép: /

Tệp này nói rằng bot Lycos (Tác nhân người dùng: Lycos / xx) không được phép truy cập ở bất kỳ đâu trên trang web (Disallow: /).

Chỉ cho phép một Robot truy cập cụ thể

Đại lý người dùng: *
Không cho phép: /
Tác nhân người dùng: Googlebot
Không cho phép:

Tệp này trước tiên không cho phép tất cả các rô bốt như chúng tôi đã làm ở trên và sau đó cho phép Googlebot (Tác nhân người dùng: Googlebot) có quyền truy cập mọi thứ (Disallow:) một cách rõ ràng.

Kết hợp nhiều dòng để nhận chính xác các loại trừ bạn muốn

Mặc dù tốt hơn nên sử dụng một dòng User-agent rất đa dạng, như User-agent: *, bạn có thể cụ thể như bạn muốn. Hãy nhớ rằng robot đọc tập tin theo thứ tự. Vì vậy, nếu các dòng đầu tiên nói rằng tất cả các robot bị chặn từ tất cả mọi thứ, và sau đó trong tập tin nó nói rằng tất cả các robot được phép truy cập vào tất cả mọi thứ, các robot sẽ có quyền truy cập vào tất cả mọi thứ.

Nếu bạn không chắc mình đã viết đúng tệp robots.txt của mình hay chưa, bạn có thể sử dụng Công cụ quản trị trang web của Google để kiểm tra tệp robots.txt hoặc viết tệp robots.txt mới.