Hiểu hơn về Robots.txt

1. Robots.txt là gì?

Robots.txt là cách gọi đơn giản của Tiêu chuẩn loại trừ rô bốt, còn được gọi là Giao thức loại trừ rô bốt, là tiêu chuẩn được các trang web sử dụng để giao tiếp với trình thu thập dữ liệu web và các rô bốt web khác.

Lưu ý: Không thể chỉnh sửa file Robots.txt vì đây là file do hệ thống tự tạo ra.

Tiêu chuẩn này chỉ định cách thông báo cho rô bốt web về những khu vực nào của trang web không được xử lý hoặc quét.

Robots.txt thực chất là một tệp văn bản đơn giản được đặt ở thư mục root của host. Bạn có thể sử dụng bất kì trình soạn thảo văn bản nào để tạo, ví dụ như Notepad.

Cấu trúc của trang website được công cụ tìm kiềm trỏ từ tệp robots.txt và sitemap.xml và (Xem thêm tại đây).

Sitemap thường được sử dụng cùng với robot.txt nhằm tối ưu cách robot sẽ nhận diện và đọc cấu trúc của website. Từ đó, tăng hiệu quả SEO.

robots.txt được sử dụng để chặn công cụ tìm kiếm và các trình thu thập dữ liệu khác đọc dữ liệu từ một trang web
sitemap.xml là cung cấp cấu trúc nội dung trang của trang web cho các công cụ tìm kiếm và các trình thu thập dữ liệu khác truy cập trang web.

Một ví dụ về sitemap:

User-agent:*
Disallow: /wp-admin/
Disallow: /wp-includes/

2. Cấu trúc lệnh được sử dụng trong Robots.txt

Những điều cần biết

Crawl-Delay thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
Dấu # được sử dụng trước các dòng cần comment.
User-agent: * qui định các loại bot được phép truy cập vì hiện tại có rất nhiều bot như Googlebot (Google), Googlebot Image, Bingbot, Yahoo Slurp, Yandex ( Yandex là công cụ tìm kiếm của Nga). Ở đây sử dụng dấu * nghĩa là cho phép mọi loại bot truy cập.
Allow: / cho phép dò và index toàn bộ các trang và thư mục
Disallow: chặn thư mục này

Các cú pháp thông dụng

– Cho phép dò và index toàn bộ trang và các thư mục, các file

Allow: /

– Chặn không cho phép bot truy cập và index toàn bộ

Disallow: /

– Chặn toàn bộ một thư mục và các file, thư mục con trong nó

Disallow: /abc/

– Chặn một trang cố định

Disallow: /abc.html

– Chặn một loại file cố định từ một bot của công cụ tìm kiếm

User-agent: Googlebot

Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)

– Chặn một hình không cho Googlebot-Image index

User-agent: Googlebot-Image

Disallow: /abc/def.jpg

– Chặn không cho một bot bất kì truy cập:

User-agent: Googlebot

Disallow: /

Trên đây là một số lệnh cơ bản khi bạn cần thêm vào file robots.txt. Tùy theo nhu cầu của các bạn mà thêm vào những lệnh cần thiết.

Một số lưu ý

Để tránh xảy ra sai sót khi bạn sử dụng một file robots.txt của người khác hoặc tự tạo riêng cho website của mình. Bạn cần lưu ý một số điều như sau:

Phân biệt chữ hoa và chữ thường
Không được viết thừa hoặc thiếu khoảng trắng
Mỗi lệnh viết trên một dòng. Muốn viết lệnh mới nên xuống dòng sau đó viết tiếp
Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn
Kiểm tra thường xuyên file robots.txt

3. Tầm quan trọng của Robots.txt

Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web.

Nếu website của bạn có những thông tin không muốn các bọ tìm kiếm index và xuất hiện trong kết quả tìm kiếm thì bạn có thể thiết lập ở đây.

Ngoài ra việc cấu hình file robots.txt còn có ích rất nhiều trong SEO. Sự cố hoặc cấu hình sai trong robots.txt của bạn có thể gây ra các vấn đề SEO quan trọng có thể tác động tiêu cực đến thứ hạng và lượng truy cập của bạn.

> Điều gì sẽ xảy ra nếu bạn không có tệp robots.txt? Nếu tệp robots.txt bị thiếu, trình thu thập thông tin của công cụ tìm kiếm giả sử rằng tất cả các trang có sẵn trên trang web của bạn đều ở chế độ công khai và nó có thể được thu thập dữ liệu -> thêm vào chỉ mục của nó.

> Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt? Nếu các công cụ tìm kiếm không thể hiểu nội dung của tệp tin vì nó bị định cấu hình sai, họ vẫn truy cập vào trang web và bỏ qua bất cứ điều gì trong robots.txt.

> Điều gì sẽ xảy ra nếu bạn vô tình chặn các công cụ tìm kiếm truy cập trang web ? Đó là một vấn đề lớn. Đối với người mới bắt đầu, công cụ tìm kiếm sẽ không thu thập thông tin và lập chỉ mục trang từ trang web của bạn và dần dần họ sẽ xóa bất kỳ trang nào đã có trong chỉ mục của họ.

Tại sao bạn sử dụng Robot.txt?

1. Để chặn các công cụ tìm kiếm truy cập các trang hoặc thư mục cụ thể của trang web của bạn.

2. Sử dụng robots.txt để hạn chế quyền truy cập vào một số phần nhất định của trang web mà không quan trọng đối với SEO hoặc thứ hạng.

Khi bạn có một trang web lớn, thu thập thông tin và lập chỉ mục có thể là một quy trình rất tốn tài nguyên. Trình thu thập thông tin từ các công cụ tìm kiếm khác nhau sẽ cố gắng thu thập dữ liệu và lập chỉ mục toàn bộ trang web của bạn và điều này có thể gây ra các vấn đề về hiệu năng nghiêm trọng.

Bằng việc sử dụng robots.txt, bạn không chỉ làm giảm tải trên máy chủ của bạn mà nó làm cho toàn bộ quá trình lập chỉ mục nhanh hơn.

3. Khi bạn quyết định sử dụng URL rút gọn cho liên kết liên kết của mình.

Không giống như che giấu nội dung hoặc che giấu URLS để lừa người dùng hoặc công cụ tìm kiếm thì đó là quy trình hợp lệ để làm cho các liên kết liên kết của bạn dễ quản lý hơn.

Lưu ý về robots.txt

1. Bất kỳ quy tắc nào bạn thêm vào robots.txt thì đó là chỉ thị. Nghĩa là công cụ tìm kiếm phải tuân theo và tuân theo các quy tắc bạn đã đưa vào.

2. Ngay cả khi bạn chặn trang hoặc thư mục trong robots.txt, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu nó có liên kết từ các trang khác đã được lập chỉ mục.