• This is slide 1 description. Go to Edit HTML of your blogger blog. Find these sentences. You can replace these sentences with your own words.
  • This is slide 2 description. Go to Edit HTML of your blogger blog. Find these sentences. You can replace these sentences with your own words.
  • This is slide 3 description. Go to Edit HTML of your blogger blog. Find these sentences. You can replace these sentences with your own words.
  • This is slide 4 description. Go to Edit HTML of your blogger blog. Find these sentences. You can replace these sentences with your own words.
  • This is slide 5 description. Go to Edit HTML of your blogger blog. Find these sentences. You can replace these sentences with your own words.
Hiển thị các bài đăng có nhãn Robots.txt là gì?. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn Robots.txt là gì?. Hiển thị tất cả bài đăng

Thứ Tư, 7 tháng 1, 2015

Tối ưu file robots.txt cho blogspot

Tối ưu file robots.txt cho blogspot

Tối ưu file robots.txt cho blogspot - Tối ưu file robots.txt cho blogger

Tìm hiểu file robots.txt là gì?

File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad. Để các bộ máy tìm kiếm quản lý index nội dung của website bạn.

Cấu trúc của robots.txt của blogspot.

User-agent: Mediapartners-Google
Disallow: 
User-agent: *
Allow: /
Disallow: /search
User-agent: Cho những robot tìm kiếm từ Google, Yahoo và MSN nên sử dụng hướng dẫn này của bạn để tìm kiếm trang web.
Allow: / Dòng code này cho phép công cụ tìm kiếm index đọc tất cả nội dung
Disallow: /search: Dòng code này báo cho công cụ tìm kiếm biết nó không nên “lục lọi” ở những file này

Hướng dẫn tạo và sử dụng file robots.txt cho blogspot


  1. Bước 1: Đăng nhập blogspot
  2. Bước 2: Kéo chuột xuống dưới bên tay trái vào "Cài đặt" [Hình 1]
  3. Bước 3: Chọn "Tùy chọn tìm kiếm" trong menu cài đặt
  4. Bước 4: Chọn "Trình thu thập thông tin và lập chỉ mục" bên tay phải của Tùy chọn tìm kiếm [Hình 2]
  5. Bước 5: Chọn "Robots.txt tùy chỉnh" >> "Bật nội dung robots.txt tùy chỉnh"
  6. Bước 6: Copy đoạn code chuẩn này vào khung nhập text và sau đó nhấp "lưu lại"


Hinh 1



Hinh 2






Code chuẩn robots.txt cho blogspot


User-agent: Mediapartners-Google
Disallow: 
User-agent: *
Allow: /
Disallow: /search
Disallow: /*?updated-max=*
Disallow: *archive.html 
Sitemap: http://blogcuaban/feeds/posts/default?orderby=UPDATED

Còn tùy vào blog bạn chặn trang hoặc thưc mục các bạn tùy chỉnh nhé.
Gợi ý cho các bạn.
Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /search
Chặn 1 trang lưu trữ
Disallow: *archive.html 
Cũng không khó lắm phải không. Quan trọng là biết dùng đúng cách sao cho phù hợp.
Nếu chưa hiểu hoặc gặp khó khăn khi tạo các bạn cứ comment bên dưới để mình trả lời.

Robots.txt là gì? Cách cài đặt – cấu hình và sử dụng

Thông thường khi các bạn cài đặt một website trên nền tảng WordPress, Joomla, Drupal, Nukeviet… nếu để ý kĩ thì bạn sẽ thấy một file text với tên Robots.txt xuất hiện trong thư mục root của host. Vậy đã bao giờ bạn hỏi file robots.txt là gì và nó có tác dụng như thế nào chưa?
Trong bài viết này đội ngũ kĩ thuật viên của ONEHOST sẽ giải thích chi tiết về thuật ngữ đặc biệt này và hướng dẫn cách sử dụng cụ thể để các bạn có thể tối ưu cho website một cách dễ dàng.

Robots.txt là gì?

Nếu website của bạn như trụ sở của cơ quan nhà nước thì file Robots.txt chính là nội qui của cơ quan đó. Việc đầu tiên khi khách (chính là các Spider – Bọ tìm kiếm) muốn vào cơ thì phải đọc nội qui của cơ để biết mình được phép làm gì, không được phép làm gì, mình có được phép thăm quan toàn bộ cơ quan đó hay không, những phòng nào được phép tới và phòng nào thì không…
Chính vì vậy việc cài đặt và cấu hình file Robots.txt là cực kỳ quan trọng. Nếu website của bạn có những thông tin không muốn các bọ tìm kiếm index và xuất hiện trong kết quả tìm kiếm thì bạn có thể thiết lập ở đây. Ngoài ra việc cấu hình file robots.txt còn có ích rất nhiều trong SEO.
robots-txt-la-gi-277x300 Robots.txt là gì? Cách cài đặt - cấu hình và sử dụng
Robots.txt là gì?

Cài đặt và cấu hình file Robots.txt

Thực chất Robots.txt là một file văn bản hết sức đơn giản được đặt ở thư mục root của host (VD: http://onehost.vn/robots.txt). Bạn có thể sử dụng bất kì trình soạn thảo văn bản nào để  tạo. Ví dụ Notepad chẳng hạn.
Dưới đây là cấu trúc một file robots.txt đơn giản của WordPress:
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://onehost.vn/sitemap.xml.gz
Trong đó:
User-agen:* qui định các loại bot được phép truy cập vì hiện tại có rất nhiều bot như Googlebot (Google), Googlebot Image, Bingbot, Yahoo Slurp, Yandex ( Yandex là công cụ tìm kiếm của Nga). Ở đây sử dụng dấu * nghĩa là cho phép mọi loại bot truy cập.
Allow:/ cho phép dò và index toàn bộ các trang và thư mục
Disallow: /wp-admin/ và Disallow: /wp-includes/ chặn hai thư mục wp-admin và wp-includes
Sitemap: qui định sơ đồ của website

Những cú pháp thông dụng

- Cho phép dò và index toàn bộ trang và các thư mục, các file
Allow: /
 – Chặn không cho phép bot truy cập và index toàn bộ
Disallow: /
- Chặn toàn bộ một thư mục và các file, thư mục con trong nó
Disallow: /abc/
- Chặn một trang cố định
Disallow: /abc.html
- Chặn một loại file cố định từ một bot của công cụ tìm kiếm
User-agent: Googlebot
Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)
- Chặn một hình không cho Googlebot-Image index
User-agent: Googlebot-Image
Disallow: /abc/def.jpg
- Chặn không cho một bot bất kì truy cập:
User-agent: Googlebot
Disallow: /

Lưu ý khi sử dụng và tạo file Robots.txt

– Phân biệt chữ hoa, chữ thường
– Không được viết thừa hoặc thiếu khoảng trắng
– Mỗi lệnh viết trên một dòng
– Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
– Hết sức thận trọng khi sử dụng
– Kiểm tra thường xuyên file robots.txt
Trên đây là các thông tin về file Robots.txt mà đội ngũ kĩ thuật của Onehost muốn gửi đến khách hàng. Nếu bạn có thêm bất kì thắc mắc nào về loại file này và cách sử dụng hãy gửi mail ngay cho chúng tôi hoặc sử dụng hệ thống hỗ trợ thông qua ticket dành cho khách hàng.
Tags: 

Robots.txt là gì ? cách sử dụng robots.txt

Robots.txt là gì ? cách sử dụng robots.txt



1.Robots.txt là gì ?

  • Theo hiểu biết nông cạn của tôi thì file robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác .nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
  • robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?
Ví dụ:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
chú giải :
  • User-agent: * : cho phép tất cả các loại bot
  • Disallow: /wp-admin/  : chặn thư mục wp-admin và tất cả những gì nằm trong thư mục wp-admin
robots txt2 Robots.txt là gì ? cách sử dụng robots.txt

2.Hướng dẫn sử dụng Robots.txt

a.Khóa toàn bộ website không cho bot đánh chỉ mục

User-agent: *
Disallow:
 /
==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE

b.Không cho phép bot truy cập vào thư mục nào mà mình không muốn

Lấy lại ví dụ trên :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes

c.Chặn 1 trang

Disallow: /lien-he.html

d.Loại bỏ 1 hình từ  Google Images

User-agent: Googlebot-Image
Disallow: /images/hinh.png

e.Chặn một bot nào đó

User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác  được truy cập tất cả trừ thư mục “wp-admin ” và "wp-includes"
User-agent: SpamBot
Disallow: /admin/
Disallow: /includes/
Disallow: /config/config.php

User-agent: *
Disallow: /admin/
Disallow: /includes/
==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.

f.sử dụng đồng thời “Allow” và “Disallow” cùng nhau

User-agent: Googlebot
Disallow: /vidu/
Allow: /vidu/demo-thoi-nha.html
== > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục "vidu"  .Nhưng chỉ có thể truy cập được file "demo-thoi-nha.html"
User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /
== > Chặn không cho Googlebot truy cập vào tài nguyên trên website, nhưng lại cho phép Googlebot-Mobile truy cập vào tài nguyên trên website bạn

3.Nên tránh những sai sót sau

khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Đó là tất cả những gì mà kiến thức nông cạn của tôi biết về robots.txt , nếu bạn nào cảm thấy thiếu hay sai sót chổ nào xin để lại vài lời

Robots.txt là gì?

Robots.txt là gì?

Một trong những điều cần chú ý để website của bạn có thể đạt thứ hạng cao trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt theo đúng tiêu chuẩn .
Vậy file Robots.txt là gì? Khi một search engine tìm đến (nguyên văn Crawler) Website nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robots.txt cho search engine đó biết rằng, Website này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).

Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ: http://www.example.com/robots.txt.

Vậy, làm thế nào để tạo ra một file robots.txt? Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong. Các dòng lệnh trong file này có cấu trúc như sau:

User-agent: googlebot
Disallow: /cgi-bin/ 

Trong đó User-agent: là đại diện của một search engine, Googlebot là spider của Google. Trong ví dụ này, chỉ các spider của Google là được phép index web site. Disallow: là không cho phép thực hiện điều gì đó. ở ví dụ trên là không cho phép các spider index thư mục "cgi-bin" trong web site.

Một ví dụ nữa:

User-agent: googlebot
Disallow: /support

Tất cả các trang nằm trong thư mục support, hay support-desk sẽ không được index.

Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục "cgi-bin" thì sử dụng lệnh sau:

User-agent: *
Disallow: /cgi-bin/

Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

"Disallow: support # Don't index the support directory" might be misinterepreted as "Disallow: support#Don't index the support directory".

+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/

+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *

+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:

User-agent: *
Disallow: /support /cgi-bin/ /images/

các search engine không hiểu định dạng trên. bạn nên viết thế này:

User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

+ Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là "cgi-bin" (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là "Cgi-Bin" thì các spider sẽ "bó tay".

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index! 

Robots.txt


Robots.txt :Là một file đặt trong thu mục Root, tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML).
Nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
Robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?
VD :
User-agent: *   : Cho tất các các loại bot truy cập vào website
Disallow: /administrator/  : chặn không cho bot truy cập vào trang quản trị
Disallow: / : Chặn không cho bot truy cập vào toàn bộ website
Disallow: /images/nguoidep.JPG   : Chặn không cho bot truy cập vào file ảnh có tên nguoidep.JPG