Các phương pháp hay nhất để thiết lập thẻ Meta Robots & Robots.txt

Học cách thiết lập các thẻ robots.txt và meta rô bốt là điều tối quan trọng để thành công trong SEO kỹ thuật. Hướng dẫn ngắn này sẽ giúp bạn triển khai chúng một cách chính xác.

Có phải chỉ tôi không hay các từ “thẻ meta rô bốt” và “tệp robots.txt” giống như điều gì đó mà Schwarzenegger đã nói trong “Kẻ hủy diệt 2”?

Đó là một lý do tại sao tôi bắt đầu làm việc trong lĩnh vực SEO – công việc này có vẻ như tương lai nhưng cực kỳ kỹ thuật đối với các kỹ năng của tôi vào thời điểm đó.

Hy vọng rằng, bài viết này giúp việc thiết lập thẻ meta rô bốt và tệp robots.txt của bạn bớt buồn nôn hơn. Bắt đầu nào.

Thẻ Meta Robots so với Robots.txt

Trước khi chúng ta tìm hiểu kiến ​​thức cơ bản về thẻ meta robots và tệp robots.txt là gì, điều quan trọng là phải biết rằng không có mặt nào tốt hơn mặt kia để sử dụng trong SEO.

Tệp Robots.txt hướng dẫn trình thu thập thông tin về toàn bộ trang web.

Trong khi các thẻ meta rô bốt đi vào thực chất của một trang cụ thể.

Tôi thích sử dụng thẻ meta rô bốt cho nhiều thứ mà các chuyên gia SEO khác có thể chỉ sử dụng sự đơn giản của tệp robots.txt.

Không có câu trả lời đúng hay sai. Đó là sở thích cá nhân dựa trên kinh nghiệm của bạn.

Robots.txt là gì?

Tệp robots.txt cho trình thu thập thông tin biết những gì nên được thu thập thông tin.

Đây là một phần của giao thức loại trừ rô bốt (REP).

Googlebot là một ví dụ về trình thu thập thông tin.

Google triển khai Googlebot để thu thập thông tin các trang web và ghi lại thông tin trên trang web đó để hiểu cách xếp hạng trang web trong kết quả tìm kiếm của Google.

Bạn có thể tìm thấy tệp robots.txt của bất kỳ trang web nào bằng cách thêm /robots.txt sau địa chỉ web như sau:

www.mywebsite.com/robots.txt

Đây là tệp robots.txt cơ bản, mới, trông như thế nào:

robots txt file example

Dấu hoa thị * sau tác nhân người dùng cho trình thu thập thông tin biết rằng tệp robots.txt dành cho tất cả các bot truy cập vào trang web.

Dấu gạch chéo / sau “Không cho phép” cho biết rô-bốt không truy cập bất kỳ trang nào trên trang web.

Đây là một ví dụ về tệp robots.txt của Moz.

moz robots file

Bạn có thể thấy họ đang thông báo cho trình thu thập thông tin những trang nào cần thu thập thông tin bằng cách sử dụng các tác nhân và chỉ thị của người dùng. Tôi sẽ đi sâu vào những điều đó sau một chút.

Tại sao Robots.txt lại quan trọng?

Tôi không thể biết có bao nhiêu khách hàng đến với tôi sau khi di chuyển trang web hoặc khởi chạy một trang web mới và hỏi tôi: Tại sao trang web của tôi không được xếp hạng sau nhiều tháng làm việc?

Tôi cho rằng 60% nguyên nhân là do tệp robots.txt không được cập nhật đúng cách.

Có nghĩa là, tệp robots.txt của bạn vẫn trông giống như sau:

Điều này sẽ chặn tất cả các trình thu thập thông tin web đang truy cập trang web của bạn.

Một lý do khác khiến robots.txt quan trọng là Google có thứ gọi là ngân sách thu thập thông tin.

Google tuyên bố:

“Googlebot được thiết kế để trở thành một công dân tốt của web. Thu thập thông tin là ưu tiên chính của nó, đồng thời đảm bảo nó không làm giảm trải nghiệm của người dùng truy cập trang web. Chúng tôi gọi đây là “giới hạn tốc độ thu thập thông tin”, giới hạn tốc độ tìm nạp tối đa cho một trang web nhất định.

Nói một cách đơn giản, điều này đại diện cho số lượng kết nối song song đồng thời mà Googlebot có thể sử dụng để thu thập dữ liệu trang web, cũng như thời gian nó phải đợi giữa các lần tìm nạp ”.

Vì vậy, nếu bạn có một trang web lớn với các trang chất lượng thấp mà bạn không muốn Google thu thập thông tin, bạn có thể yêu cầu Google “Không cho phép” chúng trong tệp robots.txt của bạn.

Điều này sẽ giải phóng ngân sách thu thập thông tin của bạn để chỉ thu thập thông tin các trang chất lượng cao mà bạn muốn Google xếp hạng cho bạn.

Chưa có quy tắc nhanh và cứng nào cho tệp robots.txt….

Google đã công bố một đề xuất vào tháng 7 năm 2019 để bắt đầu triển khai các tiêu chuẩn nhất định, nhưng hiện tại, tôi đang tuân theo các phương pháp hay nhất mà tôi đã thực hiện trong vài năm qua.

Khái niệm cơ bản về Robots.txt

Cách sử dụng Robots.txt

Sử dụng robots.txt là rất quan trọng để thành công trong SEO.

Tuy nhiên, việc không hiểu nó hoạt động như thế nào có thể khiến bạn vò đầu bứt tai vì sao bạn không xếp hạng.

Công cụ tìm kiếm sẽ thu thập dữ liệu và lập chỉ mục trang web của bạn dựa trên những gì bạn yêu cầu họ làm trong tệp robots.txt bằng cách sử dụng các lệnh và biểu thức.

Dưới đây là các lệnh phổ biến trong robots.txt mà bạn nên biết:

Tác nhân người dùng: * – Đây là dòng đầu tiên trong tệp robots.txt của bạn để giải thích cho trình thu thập thông tin các quy tắc về những gì bạn muốn họ thu thập dữ liệu trên trang web của bạn. Dấu hoa thị thông báo cho tất cả các nhện.

Tác nhân người dùng: Googlebot – Điều này chỉ cho biết những gì bạn muốn trình thu thập thông tin của Google thu thập thông tin.

Disallow: / – Điều này cho phép tất cả các trình thu thập thông tin không thu thập dữ liệu toàn bộ trang web của bạn.

Không cho phép: – Điều này yêu cầu tất cả các trình thu thập thông tin thu thập thông tin toàn bộ trang web của bạn.

Disallow: / staging / – Điều này cho phép tất cả các trình thu thập thông tin bỏ qua trang web staging của bạn.

Disallow: / ebooks / * .pdf – Điều này yêu cầu trình thu thập thông tin bỏ qua tất cả các định dạng PDF có thể gây ra sự cố nội dung trùng lặp.

Tác nhân người dùng: Googlebot

Disallow: / images / – Điều này chỉ cho trình thu thập thông tin của Googlebot bỏ qua tất cả các hình ảnh trên trang web của bạn.

* – Đây được xem như một ký tự đại diện đại diện cho bất kỳ chuỗi ký tự nào.

$ – Giá trị này được sử dụng để khớp với phần cuối của URL.

Để tạo tệp robots.txt, tôi sử dụng Yoast cho WordPress. Nó đã tích hợp với các tính năng SEO khác trên các trang web của tôi.

Tuy nhiên, trước khi bạn bắt đầu tạo tệp robots.txt của mình, đây là một số điều cơ bản cần nhớ:

Định dạng tệp robots.txt của bạn một cách chính xác. SEMrush đưa ra một ví dụ tuyệt vời về cách định dạng đúng tệp robots.txt. Bạn thấy cấu trúc tuân theo mô hình này: Tác nhân người dùng → Không cho phép → Cho phép → Máy chủ → Sơ đồ trang web. Điều này cho phép trình thu thập thông tin công cụ tìm kiếm truy cập các danh mục và trang web theo đúng thứ tự.
semrush robots

Đảm bảo rằng mọi URL bạn muốn “Cho phép:” hoặc “Không cho phép:” được đặt trên một dòng riêng như Best Buy làm bên dưới. Và, không phân tách bằng khoảng cách.
webceo robots

Luôn sử dụng chữ thường để đặt tên cho robots.txt của bạn giống như WebCEO.
webceo robots

  • Không sử dụng bất kỳ ký tự đặc biệt nào ngoại trừ * và $. Các ký tự khác không được nhận dạng.
  • Tạo các tệp robots.txt riêng biệt cho các miền phụ khác nhau. Ví dụ: “hubspot.com” và “blog.hubspot.com” có các tệp riêng lẻ và cả hai đều có các tệp robots.txt khác nhau.
  • Sử dụng # để để lại nhận xét trong tệp robots.txt của bạn. Trình thu thập thông tin không tôn trọng các dòng có ký tự # như tôi đã làm ở đây với tệp robots.txt này.
  • Nếu một trang không được phép trong tệp robots.txt, thì giá trị liên kết sẽ không vượt qua.
  • Không bao giờ sử dụng robots.txt để bảo vệ hoặc chặn dữ liệu nhạy cảm.

Những gì cần ẩn với Robots.txt

Tệp Robots.txt thường được sử dụng để loại trừ các thư mục, danh mục hoặc trang cụ thể khỏi SERPs.

Bạn có thể loại trừ bằng cách sử dụng chỉ thị “không cho phép”.

Dưới đây là một số trang phổ biến mà tôi ẩn bằng tệp robots.txt:

  • Các trang có nội dung trùng lặp (thường là nội dung thân thiện với máy in)
  • Các trang phân trang
  • Trang sản phẩm và dịch vụ động
  • Các trang tài khoản
  • Trang quản trị
  • Xe đẩy hàng
  • Trò chuyện
  • Trang cảm ơn

Điều này cực kỳ hữu ích cho các trang web thương mại điện tử sử dụng các tham số như Macy’s.

Các phương pháp hay nhất để thiết lập thẻ meta rô bốt & # 038; Robots.txt

Và, bạn có thể thấy ở đây cách tôi không cho phép một trang cảm ơn.

Best Practices for Setting Up Meta Robots Tags & Robots.txt

Điều quan trọng cần biết là không phải tất cả các trình thu thập thông tin đều sẽ theo dõi tệp robots.txt của bạn.

leadfeeder robots

Các bot xấu hoàn toàn có thể bỏ qua tệp robots.txt của bạn, vì vậy hãy đảm bảo rằng bạn không giữ dữ liệu nhạy cảm trên các trang bị chặn.

Các lỗi thường gặp về Robots.txt

Sau khi quản lý tệp robots.txt hơn 10 năm nay, tôi thấy đây là một số lỗi phổ biến:

Sai lầm # 1: Tên tệp chứa chữ hoa

Tên tệp duy nhất có thể là robots.txt, không phải Robots.txt hoặc ROBOTS.TXT.

Luôn sử dụng chữ thường khi nói đến SEO.

Sai lầm # 2: Không đặt tệp Robots.Txt trong Thư mục chính

Nếu bạn muốn tệp robots.txt của mình được tìm thấy, bạn phải đặt tệp đó vào thư mục chính của trang web của bạn.

Sai

www.mysite.com/tshirts/robots.txt

Chính xác

www.mysite.com/robots.txt

Sai lầm # 3: Tác nhân người dùng được định dạng không chính xác

Sai

Không cho phép: Googlebot

Chính xác

Tác nhân người dùng: Googlebot

Không cho phép: /

Sai lầm # 4: Đề cập đến Nhiều Danh mục trong một dòng ‘Không cho phép’

Sai

Không cho phép: / css / / cgi-bin / / hình ảnh /

Chính xác

Không cho phép: / css /

Không cho phép: / cgi-bin /

Không cho phép: / hình ảnh /

Sai lầm # 5: Dòng trống trong ‘Tác nhân người dùng’

Sai

Đại lý người dùng:

Không cho phép:

Chính xác

Đại lý người dùng: *

Không cho phép:

Sai lầm # 6: Phản chiếu trang web & Url trong Chỉ thị máy chủ lưu trữ

Hãy cẩn thận khi đề cập đến chỉ thị “máy chủ lưu trữ” để các công cụ tìm kiếm hiểu chính xác về bạn:

Sai

Tác nhân người dùng: Googlebot

Không cho phép: / cgi-bin

Chính xác

Tác nhân người dùng: Googlebot

Không cho phép: / cgi-bin

Máy chủ: www.site.com

Nếu trang web của bạn có https, tùy chọn đúng là:

Tác nhân người dùng: Googlebot

Không cho phép: / cgi-bin

Máy chủ: https://www.site.com

Sai lầm # 7: Liệt kê tất cả các tệp trong thư mục

Sai

Đại lý người dùng: *

Không cho phép: /pajamas/flannel.html

Disallow: /pajamas/corduroy.html

Không cho phép: /pajamas/cashmere.html

Chính xác

Đại lý người dùng: *

Disallow: / pyjamas /

Disallow: / sơ mi /

Sai lầm # 8: Không cho phép hướng dẫn

Hướng dẫn không cho phép là bắt buộc để các bot của công cụ tìm kiếm hiểu được ý định của bạn.

Sai

Tác nhân người dùng: Googlebot

Máy chủ: www.mysite.com

Chính xác

Tác nhân người dùng: Googlebot

Không cho phép:

Máy chủ: www.mysite.com

Sai lầm # 9: Chặn toàn bộ trang web của bạn

Sai

Tác nhân người dùng: Googlebot

Không cho phép: /

Chính xác

Tác nhân người dùng: Googlebot

Không cho phép:

Sai lầm # 10: Sử dụng các Chỉ thị khác nhau trong phần *

Sai

Đại lý người dùng: *

Không cho phép: / css /

Máy chủ: www.example.com

Chính xác

Đại lý người dùng: *

Không cho phép: / css /

Sai lầm # 11: Tiêu đề HTTP sai

Sai

Loại nội dung: văn bản / html

Chính xác

Loại nội dung: văn bản / đơn giản

Sai lầm # 12: Không có Sơ đồ trang web

Luôn đặt các sơ đồ trang web của bạn ở cuối tệp robots.txt.

Sai

rô bốt không có sơ đồ trang web

Chính xác

robot sửa sơ đồ trang webMistake # 13: Sử dụng Noindex

Vào năm 2019, Google đã thông báo rằng họ sẽ không thừa nhận lệnh noindex được sử dụng trong các tệp robots.txt nữa.

Vì vậy, hãy sử dụng các thẻ meta rô bốt mà tôi đề cập bên dưới.

Sai

noindex cảm ơn bạn rô bốt

Chính xác

robot cảm ơn bạn

Nếu bạn không cho phép một trang trong tệp robots.txt, Google sẽ vẫn thu thập dữ liệu trang nếu bạn có các liên kết nội bộ trỏ đến trang đó.

Bạn cần xóa các liên kết đó để trình thu thập thông tin ngừng thu thập dữ liệu trang đó hoàn toàn.

Nếu không chắc chắn, bạn có thể kiểm tra những trang nào đang được lập chỉ mục trong báo cáo Mức độ phù hợp của Google Search Console.

Bạn sẽ thấy một cái gì đó như thế này:

Và, bạn có thể sử dụng công cụ kiểm tra robots.txt của Google.

Tuy nhiên, nếu bạn đang sử dụng công cụ kiểm tra tính thân thiện với thiết bị di động của Google, thì công cụ này không tuân theo các quy tắc của bạn trong tệp robots.txt.

bảng điều khiển tìm kiếm rô bốt google

Thẻ Meta Robots là gì?

Thẻ meta rô bốt (còn được gọi là chỉ thị rô bốt meta) là các đoạn mã HTML thông báo cho trình thu thập thông tin của công cụ tìm kiếm cách thu thập thông tin và lập chỉ mục các trang trên trang web của bạn.

Các thẻ meta rô bốt được thêm vào phần <head> của trang web.

Đây là một ví dụ:

<meta name = ”robots” content = ”noindex” />

Thẻ meta rô bốt của chúng được tạo thành từ hai phần.

Phần đầu tiên của thẻ là name = ’’ ’.

Đây là nơi bạn xác định tác nhân người dùng. Ví dụ: “Googlebot.”

Phần thứ hai của thẻ là content = ’’. Đây là nơi bạn nói với bot những gì bạn muốn chúng làm.

Các loại thẻ Meta Robots

Thẻ meta rô bốt có hai loại thẻ:

  • Thẻ meta rô bốt.
  • Thẻ X-rô-bốt.

Loại 1: Thẻ Meta Robots

Thẻ meta rô bốt thường được sử dụng bởi các nhà tiếp thị SEO.

Nó cho phép bạn yêu cầu các tác nhân người dùng (nghĩ là Googlebot) thu thập dữ liệu các khu vực cụ thể.

Đây là một ví dụ:

<meta name = ”googlebot” content = ”noindex, nofollow”>

Thẻ meta rô bốt này yêu cầu trình thu thập thông tin của Google, Googlebot, không lập chỉ mục trang trong công cụ tìm kiếm và không theo dõi bất kỳ liên kết ngược nào.

Vì vậy, trang này sẽ không phải là một phần của SERPs.

Tôi sẽ sử dụng thẻ meta rô bốt này cho trang cảm ơn.

Đây là một ví dụ về trang cảm ơn sau khi bạn tải xuống sách điện tử.

leadfeeder cảm ơn trang của bạn

Bây giờ, nếu bạn nhìn vào mã phụ trợ, bạn sẽ thấy nó cho biết noindex và nofollow.

noindex nofollow

Nếu bạn đang sử dụng các lệnh thẻ meta rô bốt khác nhau cho các tác nhân người dùng tìm kiếm khác nhau, bạn sẽ cần sử dụng các thẻ riêng biệt cho từng bot.

Điều quan trọng là bạn không đặt các thẻ meta rô bốt bên ngoài phần <head>. Glenn Gabe cho bạn thấy lý do tại sao trong nghiên cứu điển hình này.

Loại 2: X-robots-tag

Thẻ x-robots-cho phép bạn làm điều tương tự như thẻ meta rô bốt nhưng trong tiêu đề của phản hồi HTTP.

Về cơ bản, nó cung cấp cho bạn nhiều chức năng hơn các thẻ meta rô bốt.

Tuy nhiên, bạn sẽ cần quyền truy cập vào các tệp .php, .htaccess hoặc máy chủ.

Ví dụ: nếu bạn muốn chặn một hình ảnh hoặc video, nhưng không chặn toàn bộ trang, bạn sẽ sử dụng thẻ x-robots-thay thế.

Tham số thẻ meta rô bốt

Có nhiều cách để sử dụng chỉ thị thẻ meta rô bốt trong mã. Tuy nhiên, trước tiên, bạn cần hiểu những chỉ thị này là gì và chúng làm gì.

Dưới đây là bảng phân tích các chỉ thị thẻ meta rô bốt:

  • tất cả – Không có giới hạn cho lập chỉ mục và nội dung. Chỉ thị này đang được sử dụng theo mặc định. Nó không ảnh hưởng đến công việc của các công cụ tìm kiếm. Tôi đã sử dụng nó như một đường tắt cho chỉ mục, hãy làm theo.
  • index – Cho phép các công cụ tìm kiếm lập chỉ mục trang này trong kết quả tìm kiếm của họ. Đây là một mặc định. Bạn không cần phải thêm điều này vào các trang của mình.
  • noindex – Xóa trang khỏi chỉ mục của công cụ tìm kiếm và kết quả tìm kiếm. Điều này có nghĩa là người tìm kiếm sẽ không tìm thấy trang web của bạn hoặc nhấp qua.
  • follow – Cho phép các công cụ tìm kiếm theo dõi các liên kết ngược bên trong và bên ngoài trên trang đó.
  • nofollow – Không cho phép theo dõi các liên kết ngược bên trong và bên ngoài. Điều này có nghĩa là những liên kết này sẽ không vượt qua liên kết công bằng.
  • none – Giống như thẻ meta noindex và nofollow.
  • noarchive – Không hiển thị liên kết ‘Bản sao đã lưu’ trong SERPs.
  • nosnippet – Không hiển thị phiên bản mô tả mở rộng của trang này trong SERPs.
  • notranslate – Không cung cấp bản dịch của trang này trong SERPs.
  • noimageindex – Không lập chỉ mục các hình ảnh trên trang.
  • không khả dụng_ sau: [RFC-850 ngày / giờ] – Không hiển thị trang này trong SERPs sau ngày / giờ đã chỉ định. Sử dụng định dạng RFC 850.
  • max-snippet – Thiết lập số lượng ký tự tối đa trong mô tả meta.
  • max-video-preview – Thiết lập số giây mà video sẽ xem trước.
  • max-image-preview – Thiết lập kích thước tối đa cho bản xem trước hình ảnh.

Cách sử dụng thẻ Meta Robots

Nếu bạn đang sử dụng trang web WordPress, có nhiều tùy chọn plugin để bạn điều chỉnh các thẻ meta rô bốt của mình.

Tôi thích sử dụng Yoast hơn. Đây là một plugin SEO tất cả trong một dành cho WordPress cung cấp rất nhiều tính năng.

Tuy nhiên, cũng có plugin Trình quản lý thẻ Meta và plugin Thẻ Meta GA.

Người dùng Joomla, tôi khuyên bạn nên dùng EFSEO và Tag Meta.

Bất kể trang web của bạn được xây dựng trên nền tảng gì, dưới đây là ba mẹo để sử dụng thẻ meta rô bốt:

  • Giữ nó phân biệt chữ hoa và chữ thường. Công cụ tìm kiếm nhận ra các thuộc tính, giá trị và thông số bằng cả chữ hoa và chữ thường. Tôi khuyên bạn nên sử dụng chữ thường để cải thiện khả năng đọc mã. Ngoài ra, nếu bạn là một nhà tiếp thị SEO, tốt nhất bạn nên có thói quen sử dụng chữ thường.
  • Tránh nhiều thẻ <meta>. Sử dụng nhiều thẻ meta sẽ gây ra xung đột trong mã. Sử dụng nhiều giá trị trong thẻ <meta> của bạn, như sau: <meta name = “robots” content = “noindex, nofollow”>.
  • Không sử dụng các thẻ meta xung đột để tránh các lỗi lập chỉ mục. Ví dụ: nếu bạn có nhiều dòng mã với các thẻ meta như sau <meta name = “robots” content = “follow”> và <meta name = “robots” content = “nofollow”> này, thì chỉ “nofollow” mới được sử dụng vào xem xét. Điều này là do rô bốt đặt các giá trị hạn chế lên hàng đầu.

Robots.txt & Meta Robots Tags hoạt động cùng nhau

Một trong những sai lầm lớn nhất mà tôi gặp khi làm việc trên các trang web của khách hàng của mình là khi tệp robots.txt không khớp với những gì bạn đã nêu trong thẻ meta rô bốt.

Ví dụ: tệp robots.txt ẩn trang khỏi việc lập chỉ mục, nhưng các thẻ meta rô bốt lại làm ngược lại.

Hãy nhớ ví dụ từ Leadfeeder mà tôi đã trình bày ở trên?

Vì vậy, bạn sẽ nhận thấy rằng trang cảm ơn này không được phép trong tệp robots.txt và sử dụng thẻ meta rô bốt của noindex, nofollow.

Theo kinh nghiệm của tôi, Google đã ưu tiên những gì bị cấm bởi tệp robots.txt.

Tuy nhiên, bạn có thể loại bỏ sự không tuân thủ giữa thẻ meta rô bốt và tệp robots.txt bằng cách thông báo rõ ràng cho các công cụ tìm kiếm biết trang nào nên được lập chỉ mục và trang nào không nên lập chỉ mục.

Lời kết

Nếu bạn vẫn đang hồi tưởng về những ngày mua một bộ phim Bom tấn ở một trung tâm thương mại, thì ý tưởng sử dụng robots.txt hoặc thẻ meta có vẻ vẫn còn quá sức.

Tuy nhiên, nếu bạn đã say sưa xem “Stranger Things”, chào mừng bạn đến với tương lai.

Hy vọng rằng hướng dẫn này đã cung cấp thêm thông tin chi tiết về kiến ​​thức cơ bản của robots.txt và thẻ meta. Nếu bạn đã hy vọng về những con rô-bốt bay trên các gói máy bay phản lực và du hành thời gian sau khi đọc bài đăng này, tôi xin lỗi.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *