Cẩm nang SEO 03: Giúp Google tìm thấy nội dung của bạn

Bước đầu tiên để đưa trang web của bạn lên Google là đảm bảo rằng Google có thể tìm thấy trang đó. Cách tốt nhất để làm điều đó là gửi sơ đồ trang web. Sơ đồ trang web là một tệp trên trang web của bạn, tệp này cung cấp cho các công cụ tìm kiếm thông tin về các trang mới hoặc các trang đã thay đổi trên trang web của bạn. Tìm hiểu thêm về cách tạo và gửi sơ đồ trang web12.

Google cũng tìm các trang thông qua đường liên kết từ các trang khác. Hãy xem phần Quảng bá trang web của bạn ở phần sau của tài liệu này để tìm hiểu cách thúc đẩy mọi người tìm thấy trang web của bạn.

Đối với những thông tin không nhạy cảm, hãy dùng tệp robots.txt để chặn quá trình thu thập dữ liệu không mong muốn

Tệp “robots.txt” cho các công cụ tìm kiếm biết các công cụ này có thể truy cập và thu thập dữ liệu trong các phần trên trang web của bạn hay không. Tệp này phải được đặt tên là “robots.txt” và được đặt trong thư mục gốc của trang web. Có thể công cụ tìm kiếm vẫn thu thập được dữ liệu từ các trang bị robots.txt chặn, vì vậy, đối với những trang nhạy cảm bạn nên sử dụng một phương pháp an toàn hơn.

# brandonsbaseballcards.com/robots.txt
# Tell Google not to crawl any URLs in the shopping cart or images in the icons folder,
# because they won't be useful in Google Search results.
User-agent: googlebot
Disallow: /checkout/
Disallow: /icons/

Bạn có thể không muốn một số trang nhất định của trang web được thu thập dữ liệu bởi vì các trang này có thể không hữu ích cho người dùng nếu nằm trong kết quả tìm kiếm của công cụ tìm kiếm. Nếu bạn muốn ngăn không cho các công cụ tìm kiếm thu thập dữ liệu các trang của mình, Google Search Console có một trình tạo robots.txt thân thiện để giúp bạn tạo tệp này. Hãy lưu ý rằng nếu trang web của bạn sử dụng miền con và bạn muốn một số trang nhất định không được thu thập dữ liệu trên một miền con cụ thể, bạn sẽ phải tạo tệp robots.txt riêng cho miền con đó. Để biết thêm thông tin về tệp robots.txt, bạn nên xem hướng dẫn này về cách dùng tệp robots.txt13.

Tham khảo một số cách khác để ngăn nội dung xuất hiện trong kết quả tìm kiếm.14

Những điều nên tránh:

  • Đừng để Google thu thập dữ liệu các trang kết quả tìm kiếm nội bộ của bạn. Người dùng không thích việc đã nhấp vào một kết quả tìm kiếm nhưng chỉ đến được một trang kết quả tìm kiếm khác trên trang web của bạn.
  • Cho phép thu thập dữ liệu các URL được tạo do dịch vụ proxy.

Đối với thông tin nhạy cảm, hãy sử dụng những phương pháp an toàn hơn

Robots.txt không phải là cách thích hợp hoặc hiệu quả để chặn các tài liệu mật hoặc nhạy cảm. Robots.txt chỉ hướng dẫn cho những trình thu thập dữ liệu đang hoạt động bình thường rằng các trang này không dành cho các trình đó, nhưng tệp không ngăn máy chủ của bạn phân phối các trang đó đến một trình duyệt yêu cầu chúng. Một lý do là các công cụ tìm kiếm vẫn có thể tham chiếu các URL bạn đã chặn (chỉ hiển thị URL không kèm theo tiêu đề hoặc đoạn trích) nếu có liên kết đến những URL đó trên Internet (chẳng hạn như nhật ký liên kết giới thiệu). Ngoài ra, những công cụ tìm kiếm không tuân thủ hoặc lừa đảo mà không thừa nhận Tiêu chuẩn loại trừ robot có thể không tuân theo hướng dẫn trong tệp robots.txt của bạn. Cuối cùng, một người dùng tò mò có thể kiểm tra các thư mục hoặc thư mục con trong tệp robots.txt của bạn và đoán URL của nội dung mà bạn không muốn họ nhìn thấy.

Trong những trường hợp như vậy, hãy dùng thẻ noindex nếu bạn muốn trang đó không xuất hiện trong Google nhưng không ngại việc người dùng bất kỳ có thể truy cập trực tiếp qua một đường liên kết. Tuy nhiên, để thực sự bảo mật, bạn nên sử dụng các phương thức ủy quyền thích hợp, chẳng hạn như yêu cầu mật khẩu người dùng hoặc gỡ bỏ hoàn toàn trang đó khỏi trang web của bạn.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *