1272 lượt xem

Robots.txt là gì ? Hướng dẫn cách tạo file robots chuẩn SEO

Trong SEO Onpage, bạn sẽ bắt gặp một khái niệm về tập tin robots.txt. Một yếu tố quan trọng không thể thiếu trong quá trình tối ưu hóa website của bạn.

Vậy tập tin file Robots.txt là gì? Nó quan trọng như thế nào? Bài viết này sẽ chia sẻ khái niệm và công dụng của file robots.txt. Và hướng dẫn tạo một file robots.txt chuẩn SEO cho những bạn mới.

1. Khái niệm file robots.txt

Robots.txt là tập tin đơn giản dạng text có đuôi .txt được đặt trong thư mục gốc của website ngang cấp với tập tin index.html. Tập tin này chứa các câu lệnh điều hướng giúp cho quản trị website thuận tiện trong việc cho hay không cho các Google Bot của công cụ tìm kiếm Google lập chỉ mục những thành phần trong website của mình. Ví dụ một file robots.txt : http://vienthonga.vn/robots.txt

Như tập tin file này, người quản trị website sẽ không cho tất cả các Google Bot lập chỉ mục những thư mục trong website như addons, flash, js ….

2. Trong SEO Onpage tạo sao bạn phải tại file Robots.txt ?

Khi các Google Bot vào website của bạn để thu thập dữ liệu thì tập tin đầu tiên của nó truy cập đó chính là file robots.txt. Như khái niệm, file robots.txt sẽ giới hạn quyền truy cập và lập chỉ mục của từng Google Bot. Do đó website bạn không thể thiếu file robots.txt.  Như hình ảnh ví dụ trên, công cụ kiểm tra các thành phần khi Google Bot truy cập vào website Viễn Thông A. Google Bot sẽ truy cập file robots đầu tiên, nó sẽ kiểm tra quyền truy cập và chỉ mục những thư mục nào trong website mà người quản trị quy định.

3. Hướng dẫn tạo file robots.txt chuẩn SEO :

Rất đơn giản để tạo file robots.txt bạn chỉ cần mở chương trình Notepad điền các câu lệnh của nó. Lưu file tên robots.txt và đặt nó vào thư mục gốc website ngang với file index.

Câu lệnh cơ bản của file robots.txt là :

User-agent: xác định loại Google Bot có thể truy cập vào website.

Allow: cho phép Google Bot truy cập vào thư mục hay trang.

Disallow: chặn Google Bot truy cập vào thư mục hay trang.

Sitemap:  nêu địa chỉ liên kết sitemap của website.

3.1. Các loại Google Bot khi truy cập vào website :

  •  Google Bot : Bot thu nhập thông tin và đánh số chỉ mục mới hay cũ của Google.
  • Googlebot-Mobile : Bot thu thập thông tin và đánh số chỉ mục thiết bị di động.
  • Googlebot-image : Bot thu thập thông tin và đánh số chỉ mục hình ảnh của Google.
  • Mediapartners-Google: Bot xuất hiện quảng cáo của Google Adsence.
  • Adsbot-Google : Bot thu thập và đánh số chỉ mục sản phẩm hay dịch vụ của Google Adwords.

3.2. Một số ví dụ hướng dẫn tạo file robots.txt

  • Chặn tất cả các Google Bot truy cập vào website : User-agent: * Disallow: / Sử dụng Disallow :/ thì file robots.txt sẽ không cho bất kỳ Google Bot nào truy cập và lập chỉ mục website của bạn. Dĩ nhiên website không thể xuất hiện trên công cụ tìm kiếm. Bạn không nên sử dụng câu lệnh này cho website của mình.
  • Chặn không cho Google Bot nào truy cập vào thư mục hay trang nào đó : User-agent: * Disallow: /admin/ Disallow: /chan.html Với câu lệnh trên bạn sẽ chặn tất cả các Google Bot của Google không thể truy cập và lập chỉ mục thư mục admin và trang chan.html. Các thành phần của thu mục admin và trang chan.html sẽ không được hiển thị trên Google.
  • Chặn một loại Google Bot nào đó : User-agent: Googlebot-Mobile Disallow: / User-agent: * Disallow: /wp-includes/ Bạn có thể quy định loại Google Bot truy cập và lập chỉ mục website của bạn.

4. Một số lưu ý khi tạo file robots.txt

  • Phân biệt chữ hoa hay thường.
  • Sử dụng đúng cấu trúc câu lệnh
  • Không thêm các ký tự đặc biệt
  • Một câu lệnh nên viết một dòng
  • Không được dùng khoảng trắng trước câu lệnh

5. Một số công cụ kiểm tra file robots.txt

  • Công cụ kiểm tra file robots.txt : http://www.frobee.com/robots-txt-check
  • Công cụ tạo file robots cho blogpost : http://ctrlq.org/blogger/
  • Giới thiệu một số mẫu file robots.txt : http://www.link-assistant.com/blog/10-robots-txt-files-worth-to-have-a-look-at/
Đánh giá post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *