robots.txt là gì?
một file text chứa vài câu lệnh đơn giản để hướng dẫn các search engine (SE) như Google, Bing ...cách index trang của bạn (tức hướng các SE có nên trả về các kết quả trong đường dẫn /A/B/C hay không).
file robots.txt nằm ở đường dẫn /robots.txt của site.
robots.txt có 3 câu lệnh phổ biến
User-agent: SOMETHING - set đối tượng (SE) áp dụng luậtAllow: PATH - cho phép index một đường dẫn PATH
Disallow: PATH - không cho phép index một đường dẫn PATH
Thử xem vài trang
pyjobs.vn
Tại https://pyjobs.vn/robots.txtĐoạn này cho phép mọi search engine (User-agent: *) được truy cập/index toàn bộ nội dung của trang. (Disallow: để trống).User-agent: * Disallow:
Để không cho phép index toàn bộ website, chỉ cần set dòng thứ 2 thành:
Disallow: /
Google.com
https://www.google.com/robots.txtGoogle là điển hình việc cấu hình file robots.txt phức tạp hơn, nó cho phép index
một số thư mục, và không cho phép truy cập một số thư mục (con) khác.
Đoạn trên hướng dẫn các SE không được truy cập vào /search nhưng lại được truy cập vào các đường dẫn dưới /search/aboutUser-agent: * Disallow: /search Allow: /search/about Disallow: /sdch Disallow: /groups Disallow: /index.html? Disallow: /? Allow: /?hl= Disallow: /?hl=*&...
FAMILUG.org
http://www.familug.org/robots.txtWebsite nào cũng nên có file robots.txt. Nếu file này không tồn tại hoặc để trắng, các SE sẽ mặc định index toàn bộ site.User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://www.familug.org/sitemap.xml
robots.txt chỉ nên dùng để HƯỚNG DẪN các SE, nó không phải biện pháp NGĂN CẢN và không nên dựa vào nó như một biện pháp bảo mật (bởi các SE xấu hay người dùng có thể không tuân theo hướng dẫn này - ngoài ra khi các trang khác đã được index có sử dụng đường link tới phần bị disallow thì SE vẫn index đường link đó).
Làm thế nào để biết site đã được index?
Dùng từ khoá đặc biệt khi search google:site:pyjobs.vn(thay pyjobs.vn bằng trang của bạn) - hoặc truy cập pyjobs.vn/robots.txt để thấy tận mắt.
Chú ý: có chữ s sau robot.
Tham khảo:
- Google webmaster
HVN at FAMILUG dot ORG
Hết.
No comments:
Post a Comment