Thứ Tư, 7 tháng 1, 2015

Robots.txt là gì? Cách cài đặt – cấu hình và sử dụng

Thông thường khi các bạn cài đặt một website trên nền tảng WordPress, Joomla, Drupal, Nukeviet… nếu để ý kĩ thì bạn sẽ thấy một file text với tên Robots.txt xuất hiện trong thư mục root của host. Vậy đã bao giờ bạn hỏi file robots.txt là gì và nó có tác dụng như thế nào chưa?
Trong bài viết này đội ngũ kĩ thuật viên của ONEHOST sẽ giải thích chi tiết về thuật ngữ đặc biệt này và hướng dẫn cách sử dụng cụ thể để các bạn có thể tối ưu cho website một cách dễ dàng.

Robots.txt là gì?

Nếu website của bạn như trụ sở của cơ quan nhà nước thì file Robots.txt chính là nội qui của cơ quan đó. Việc đầu tiên khi khách (chính là các Spider – Bọ tìm kiếm) muốn vào cơ thì phải đọc nội qui của cơ để biết mình được phép làm gì, không được phép làm gì, mình có được phép thăm quan toàn bộ cơ quan đó hay không, những phòng nào được phép tới và phòng nào thì không…
Chính vì vậy việc cài đặt và cấu hình file Robots.txt là cực kỳ quan trọng. Nếu website của bạn có những thông tin không muốn các bọ tìm kiếm index và xuất hiện trong kết quả tìm kiếm thì bạn có thể thiết lập ở đây. Ngoài ra việc cấu hình file robots.txt còn có ích rất nhiều trong SEO.
robots-txt-la-gi-277x300 Robots.txt là gì? Cách cài đặt - cấu hình và sử dụng
Robots.txt là gì?

Cài đặt và cấu hình file Robots.txt

Thực chất Robots.txt là một file văn bản hết sức đơn giản được đặt ở thư mục root của host (VD: http://onehost.vn/robots.txt). Bạn có thể sử dụng bất kì trình soạn thảo văn bản nào để  tạo. Ví dụ Notepad chẳng hạn.
Dưới đây là cấu trúc một file robots.txt đơn giản của WordPress:
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://onehost.vn/sitemap.xml.gz
Trong đó:
User-agen:* qui định các loại bot được phép truy cập vì hiện tại có rất nhiều bot như Googlebot (Google), Googlebot Image, Bingbot, Yahoo Slurp, Yandex ( Yandex là công cụ tìm kiếm của Nga). Ở đây sử dụng dấu * nghĩa là cho phép mọi loại bot truy cập.
Allow:/ cho phép dò và index toàn bộ các trang và thư mục
Disallow: /wp-admin/ và Disallow: /wp-includes/ chặn hai thư mục wp-admin và wp-includes
Sitemap: qui định sơ đồ của website

Những cú pháp thông dụng

- Cho phép dò và index toàn bộ trang và các thư mục, các file
Allow: /
 – Chặn không cho phép bot truy cập và index toàn bộ
Disallow: /
- Chặn toàn bộ một thư mục và các file, thư mục con trong nó
Disallow: /abc/
- Chặn một trang cố định
Disallow: /abc.html
- Chặn một loại file cố định từ một bot của công cụ tìm kiếm
User-agent: Googlebot
Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)
- Chặn một hình không cho Googlebot-Image index
User-agent: Googlebot-Image
Disallow: /abc/def.jpg
- Chặn không cho một bot bất kì truy cập:
User-agent: Googlebot
Disallow: /

Lưu ý khi sử dụng và tạo file Robots.txt

– Phân biệt chữ hoa, chữ thường
– Không được viết thừa hoặc thiếu khoảng trắng
– Mỗi lệnh viết trên một dòng
– Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
– Hết sức thận trọng khi sử dụng
– Kiểm tra thường xuyên file robots.txt
Trên đây là các thông tin về file Robots.txt mà đội ngũ kĩ thuật của Onehost muốn gửi đến khách hàng. Nếu bạn có thêm bất kì thắc mắc nào về loại file này và cách sử dụng hãy gửi mail ngay cho chúng tôi hoặc sử dụng hệ thống hỗ trợ thông qua ticket dành cho khách hàng.
Tags: 

0 nhận xét:

Đăng nhận xét