Robots.txt
cùng với Title Tag, Meta Description, On-Page Factors, Duplicate Content, HTTP
Status Codes là những khái niệm vô cùng quan trọng mà các SEOer cần tìm hiểu khi
bắt đầu làm SEO.
Robots.txt
là gì?
The robots exclusion protocol (REP) hoặc robots.txt là
một text file mà người quản trị web tạo ra để hướng dẫn robot (robot của công cụ
tìm kiếm) làm thế nào để thu thập dữ liệu và index các pages trên trang web của
họ.
Mẫu codeChặn tất cả robot với tất cả các nội dung
User-agent: *
Disallow: /
Chặn 1 robot với 1 folder
User-agent: Googlebot
Disallow: /no-google/
Chặn 1 robot với 1 trang
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
Cho phép 1 robot vào 1 trang
User-agent: *
Disallow:
/no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow:
/no-bots/block-all-bots-except-rogerbot-page.html
Thông số sitemap
User-agent: *
Disallow:
Sitemap:
http://www.example.com/none-standard-location/sitemap.xml
Format tối ưu
Robots.txt cần được đặt ở thư mục gốc của tên miền để có
thể phát huy tác dụng
Ví dụ: http:/www.example.com/robots.txt
Khái niệm Robots.txt
Robots Exclusion Protocol (REP) là một nhóm các tiêu
chuẩn web để điều chỉnh hành vi Robot Web và lập chỉ mục cho công cụ tìm kiếm.
REP bao gồm những điều sau đây:
REP xuất hiện năm 1994, trở nên phổ biến hơn năm 1997,
dùng để xác định chỉ thị thu thập thông tin cho robots.txt. Một số công cụ tìm
kiếm hỗ trợ phần mở rộng như mô hình URI (thẻ wild).
Từ năm 1996, REP được mở rộng để xác định các chỉ thị chỉ
mục (REP tags) để sử dụng trong các yếu tố meta robot, còn được gọi là "robot
meta tag." Khi đó, công cụ tìm kiếm hỗ trợ thêm thẻ REP với một Tag-X-Robots.
Người quản trị web có thể sử dụng REP tag trong tiêu đề HTTP của các nguồn tài
nguyên không phải HTML như tài liệu PDF hoặc hình ảnh.
Từ năm 2005, phiên bản Microformat rel-nofollow để xác
định xem công cụ tìm kiếm nên xử lý thế nào với các liên kết có thuộc tính REL
của một phần tử chứa giá trị "nofollow."
Robots Exclusion Protocol Tags
Áp dụng cho thẻ URI, REP (noindex, nofollow,
unavailable_after) điều chỉnh việc robot index, và trong một số trường hợp
(nosnippet, noarchive, noodp) thậm chí dùng để truy vấn bộ máy tìm kiếm trong
thời gian chạy một truy vấn tìm kiếm. Khác với chỉ thị cho Google Spider , mỗi
công cụ tìm kiếm hiểu thẻ REP theo một cách khác nhau. Ví dụ: Google thậm chí
còn xóa danh sách URL-only và tài liệu tham khảo ODP trên SERPs của họ khi một
resource được đánh dấu “noindex”. Nhưng Bing đôi khi lại liệt kê các tài liệu
tham khảo khác đối với các URL bị cấm trên SERPs. Khi thẻ REP có thể được sử
dụng trong các yếu tố META của nội dung X / HTML cũng như trong các HTTP header
của bất kỳ đối tượng web nào, cần tránh các chỉ thị xung đột trong các yếu tố
META.
Microformats
Cách hiển thị Index theo hình thức trang đặc biệt
Microformats sẽ bỏ qua các cài đặt cho các phần tử HTML ở trên trang. Phương
pháp này đòi hỏi phải có kỹ năng lập trình và hiểu biết tốt về các máy chủ web
và giao thức HTTP.
Mô hình kết hợpGoogle và Bing đều sử dụng hai biểu thức
thông thường mà có thể được sử dụng để xác định các trang hoặc thư mục con muốn
loại trừ. Hai ký tự là dấu hoa thị (*) và dấu hiệu đồng đô la ($).
* Là một ký tự đại diện đại diện cho chuỗi ký tự bất
kỳ
$ Phù hợp với kết thúc của URL
Công khai thông tinCông khai thư mục robots.txt - Hãy
biết rằng file robots.txt là một tập tin công bố công khai. Người quản trị web
có thể công khai cho tất cả mọi người đều có thể nhìn thấy những thư mục mà họ
không muốn bị thu thập dữ liệu. Điều này có nghĩa là nếu bạn có thông tin người
dùng nhưng không muốn công khai tìm kiếm, bạn nên sử dụng phương pháp an toàn
hơn để giữ khách truy cập xem bất kỳ trang nào bí mật mà không muốn lập chỉ mục
(chẳng hạn như mật khẩu bảo vệ).
Quy định quan trọng
Trong hầu hết các trường hợp, robot meta với các thông số
"noindex, follow" nên được sử dụng như một cách để hạn chế thu thập thông tin
hoặc chỉ số index.
Điều quan trọng cần lưu ý rằng các trình thu thập thông
tin độc hại có khả năng hoàn toàn bỏ qua robots.txt và như vậy, giao thức này
không tạo được một cơ chế bảo mật tốt.
Chỉ dùngmột "Disallow:" cho 1 dòng - cho mỗi
URL.
Mỗi tên miền phụ của một tên miền gốc sẽ sử dụng các tập
tin robots.txt khác nhau.
Google và Bing chấp nhận hai nhân vật biểu hiện cụ thể
thường xuyên để loại trừ mẫu (* và $).
Các tên tập tin robots.txt là trường hợp nhạy cảm. Hãy sử
dụng "robots.txt", chứ không phải Robots.TXT ".
Khoảng trắng không được chấp nhận để thể hiện cách tách
các tham số truy vấn. Ví dụ, "/ category / / trang sản phẩm" sẽ không được chấp
nhận bởi robots.txt.
Áp dụng tốt nhất trong SEO
Chặn trang (Blocking page)Có một số cách để ngăn chặn các
công cụ tìm kiếm truy cập một tên miền nhất định:
Chặn với Robots.txt
Điều này nói cho Google Spider không nên thu thập dữ liệu
URL được nhắc tới, nhưng cũng nói cho Google Spider rằng có thể giữ cho các
trang trong chỉ mục và hiển thị nó trong trong kết quả. (Xem hình ảnh của trang
kết quả của Google bên dưới)
Chặn bằng Meta ngăn lập chỉ mục (Block with Meta
NoIndex)
Điều này cho cho phép có thể truy cập, nhưng không được
phép để hiển thị các URL trong trang kết quả. (Đây là phương pháp được đề
nghị)
Chặn bởi Nofollowing Liên kết (Block by Nofollowing
Links)
Đây gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có
thể cho các công cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua
thanh công cụ trình duyệt, các liên kết từ các trang khác, analytics, ...)
Tại sao sử dụng Robots Meta lại tốt hơn robots.txtDưới
đây là một ví dụ về tập tin robots.txt của trang about.com. Chú ý rằng chúng
đang chặn thư mục /library/nosearch/
Bây giờ nhận thấy điều gì sẽ xảy ra khi URL được tìm kiếm
trong Google.
Google có 2.760 kết quả từ thư mục "disallowed". Google
Spider đã không thu thập thông tin các URL, do đó, nó xuất hiện như một URL chứ
không phải là một danh sách kết quả bình thường..
Điều này sẽ trở thành một lỗi khi các trang này tích lũy
liên kết. Nhiều trang có thể tích lũy liên kết và truy vấn độc lập số liệu khác
xếp hạng (như popularity and trust), nhưng các trang này không thể vượt qua bất
kỳ trang nào khác vì các liên kết đó không bao giờ nhận được thu thập thông
tin.
Điều này có nghĩa là để loại trừ các trang cá nhân từ các
chỉ số công cụ tìm kiếm, meta tag noindexthực sự vượt trội hơn so với
robots.txt.
mozBar
mozBar giúp xem các số liệu có liên quan SEO khi bạn lướt
web được dễ dàng hơn.
Tài liệu tham khảo thêm
Robots Exclusion Protocol
Nguồn thông tin chính thức về Robots Exclusion
Protocol.
W3 và Robots Exclusion Protocol
Tài liệu chính thức về Robots Exclusion của W3
(ST)
Robots.txt
cùng với Title Tag, Meta Description, On-Page Factors, Duplicate Content, HTTP
Status Codes là những khái niệm vô cùng quan trọng mà các SEOer cần tìm hiểu khi
bắt đầu làm SEO.
Robots.txt
là gì?
The robots exclusion protocol (REP) hoặc robots.txt là
một text file mà người quản trị web tạo ra để hướng dẫn robot (robot của công cụ
tìm kiếm) làm thế nào để thu thập dữ liệu và index các pages trên trang web của
họ.
Mẫu codeChặn tất cả robot với tất cả các nội dung
User-agent: *
Disallow: /
Chặn 1 robot với 1 folder
User-agent: Googlebot
Disallow: /no-google/
Chặn 1 robot với 1 trang
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
Cho phép 1 robot vào 1 trang
User-agent: *
Disallow:
/no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow:
/no-bots/block-all-bots-except-rogerbot-page.html
Thông số sitemap
User-agent: *
Disallow:
Sitemap:
http://www.example.com/none-standard-location/sitemap.xml
Format tối ưu
Robots.txt cần được đặt ở thư mục gốc của tên miền để có
thể phát huy tác dụng
Ví dụ: http:/www.example.com/robots.txt
Khái niệm Robots.txt
Robots Exclusion Protocol (REP) là một nhóm các tiêu
chuẩn web để điều chỉnh hành vi Robot Web và lập chỉ mục cho công cụ tìm kiếm.
REP bao gồm những điều sau đây:
REP xuất hiện năm 1994, trở nên phổ biến hơn năm 1997,
dùng để xác định chỉ thị thu thập thông tin cho robots.txt. Một số công cụ tìm
kiếm hỗ trợ phần mở rộng như mô hình URI (thẻ wild).
Từ năm 1996, REP được mở rộng để xác định các chỉ thị chỉ
mục (REP tags) để sử dụng trong các yếu tố meta robot, còn được gọi là "robot
meta tag." Khi đó, công cụ tìm kiếm hỗ trợ thêm thẻ REP với một Tag-X-Robots.
Người quản trị web có thể sử dụng REP tag trong tiêu đề HTTP của các nguồn tài
nguyên không phải HTML như tài liệu PDF hoặc hình ảnh.
Từ năm 2005, phiên bản Microformat rel-nofollow để xác
định xem công cụ tìm kiếm nên xử lý thế nào với các liên kết có thuộc tính REL
của một phần tử chứa giá trị "nofollow."
Robots Exclusion Protocol Tags
Áp dụng cho thẻ URI, REP (noindex, nofollow,
unavailable_after) điều chỉnh việc robot index, và trong một số trường hợp
(nosnippet, noarchive, noodp) thậm chí dùng để truy vấn bộ máy tìm kiếm trong
thời gian chạy một truy vấn tìm kiếm. Khác với chỉ thị cho Google Spider , mỗi
công cụ tìm kiếm hiểu thẻ REP theo một cách khác nhau. Ví dụ: Google thậm chí
còn xóa danh sách URL-only và tài liệu tham khảo ODP trên SERPs của họ khi một
resource được đánh dấu “noindex”. Nhưng Bing đôi khi lại liệt kê các tài liệu
tham khảo khác đối với các URL bị cấm trên SERPs. Khi thẻ REP có thể được sử
dụng trong các yếu tố META của nội dung X / HTML cũng như trong các HTTP header
của bất kỳ đối tượng web nào, cần tránh các chỉ thị xung đột trong các yếu tố
META.
Microformats
Cách hiển thị Index theo hình thức trang đặc biệt
Microformats sẽ bỏ qua các cài đặt cho các phần tử HTML ở trên trang. Phương
pháp này đòi hỏi phải có kỹ năng lập trình và hiểu biết tốt về các máy chủ web
và giao thức HTTP.
Mô hình kết hợpGoogle và Bing đều sử dụng hai biểu thức
thông thường mà có thể được sử dụng để xác định các trang hoặc thư mục con muốn
loại trừ. Hai ký tự là dấu hoa thị (*) và dấu hiệu đồng đô la ($).
* Là một ký tự đại diện đại diện cho chuỗi ký tự bất
kỳ
$ Phù hợp với kết thúc của URL
Công khai thông tinCông khai thư mục robots.txt - Hãy
biết rằng file robots.txt là một tập tin công bố công khai. Người quản trị web
có thể công khai cho tất cả mọi người đều có thể nhìn thấy những thư mục mà họ
không muốn bị thu thập dữ liệu. Điều này có nghĩa là nếu bạn có thông tin người
dùng nhưng không muốn công khai tìm kiếm, bạn nên sử dụng phương pháp an toàn
hơn để giữ khách truy cập xem bất kỳ trang nào bí mật mà không muốn lập chỉ mục
(chẳng hạn như mật khẩu bảo vệ).
Quy định quan trọng
Trong hầu hết các trường hợp, robot meta với các thông số
"noindex, follow" nên được sử dụng như một cách để hạn chế thu thập thông tin
hoặc chỉ số index.
Điều quan trọng cần lưu ý rằng các trình thu thập thông
tin độc hại có khả năng hoàn toàn bỏ qua robots.txt và như vậy, giao thức này
không tạo được một cơ chế bảo mật tốt.
Chỉ dùngmột "Disallow:" cho 1 dòng - cho mỗi
URL.
Mỗi tên miền phụ của một tên miền gốc sẽ sử dụng các tập
tin robots.txt khác nhau.
Google và Bing chấp nhận hai nhân vật biểu hiện cụ thể
thường xuyên để loại trừ mẫu (* và $).
Các tên tập tin robots.txt là trường hợp nhạy cảm. Hãy sử
dụng "robots.txt", chứ không phải Robots.TXT ".
Khoảng trắng không được chấp nhận để thể hiện cách tách
các tham số truy vấn. Ví dụ, "/ category / / trang sản phẩm" sẽ không được chấp
nhận bởi robots.txt.
Áp dụng tốt nhất trong SEO
Chặn trang (Blocking page)Có một số cách để ngăn chặn các
công cụ tìm kiếm truy cập một tên miền nhất định:
Chặn với Robots.txt
Điều này nói cho Google Spider không nên thu thập dữ liệu
URL được nhắc tới, nhưng cũng nói cho Google Spider rằng có thể giữ cho các
trang trong chỉ mục và hiển thị nó trong trong kết quả. (Xem hình ảnh của trang
kết quả của Google bên dưới)
Chặn bằng Meta ngăn lập chỉ mục (Block with Meta
NoIndex)
Điều này cho cho phép có thể truy cập, nhưng không được
phép để hiển thị các URL trong trang kết quả. (Đây là phương pháp được đề
nghị)
Chặn bởi Nofollowing Liên kết (Block by Nofollowing
Links)
Đây gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có
thể cho các công cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua
thanh công cụ trình duyệt, các liên kết từ các trang khác, analytics, ...)
Tại sao sử dụng Robots Meta lại tốt hơn robots.txtDưới
đây là một ví dụ về tập tin robots.txt của trang about.com. Chú ý rằng chúng
đang chặn thư mục /library/nosearch/
Bây giờ nhận thấy điều gì sẽ xảy ra khi URL được tìm kiếm
trong Google.
Google có 2.760 kết quả từ thư mục "disallowed". Google
Spider đã không thu thập thông tin các URL, do đó, nó xuất hiện như một URL chứ
không phải là một danh sách kết quả bình thường..
Điều này sẽ trở thành một lỗi khi các trang này tích lũy
liên kết. Nhiều trang có thể tích lũy liên kết và truy vấn độc lập số liệu khác
xếp hạng (như popularity and trust), nhưng các trang này không thể vượt qua bất
kỳ trang nào khác vì các liên kết đó không bao giờ nhận được thu thập thông
tin.
Điều này có nghĩa là để loại trừ các trang cá nhân từ các
chỉ số công cụ tìm kiếm, meta tag noindexthực sự vượt trội hơn so với
robots.txt.
mozBar
mozBar giúp xem các số liệu có liên quan SEO khi bạn lướt
web được dễ dàng hơn.
Tài liệu tham khảo thêm
Robots Exclusion Protocol
Nguồn thông tin chính thức về Robots Exclusion
Protocol.
W3 và Robots Exclusion Protocol
Tài liệu chính thức về Robots Exclusion của W3
(ST)