Học làm SEOHướng Dẫn SEO

Google thu thập dữ liệu và lập chỉ mục trang web của bạn như thế nào?

163

Nếu bạn không hiểu rõ quy trình thu thập dữ liệu/lập chỉ mục/phân phát, thì sẽ rất khó để khắc phục các vấn đề hoặc dự đoán hành vi của trang web của bạn trong Tìm kiếm.

Hãy đảm bảo bạn hiểu rõ trang chuẩn là gì và có ảnh hưởng như thế nào đến việc thu thập dữ liệu và lập chỉ mục trang web của bạn. Ngoài ra, bạn cũng nên tìm hiểu cách xóa hoặc xử lý nội dung trùng lặp trên trang web của mình khi cần.

Hãy đảm bảo rằng Google có thể truy cập mọi tài nguyên (hình ảnh, tệp CSS, v.v.) hoặc các trang mà bạn cho phép Google thu thập dữ liệu; nghĩa là bạn không chặn các tài nguyên hay trang đó bằng bất kỳ quy tắc robots.txt nào và người dùng ẩn danh cũng có thể truy cập được. Các trang mà Google không thể truy cập sẽ không xuất hiện trong báo cáo Phạm vi lập chỉ mục và sẽ hiển thị kèm theo trạng thái “chưa thu thập dữ liệu” trong Công cụ kiểm tra URL. Các tài nguyên bị chặn chỉ hiển thị ở cấp URL riêng lẻ trong Công cụ kiểm tra URL. Nếu bạn chặn các tài nguyên quan trọng trên một trang, Google sẽ không thể thu thập dữ liệu chính xác trên trang của bạn. Hãy dùng Công cụ kiểm tra URL để hiển thị trang đang hoạt động nhằm xác minh xem cách Google hiển thị trang trong kết quả tìm kiếm có đúng như bạn mong muốn không.

Bạn có thể sử dụng quy tắc robots.txt để chặn việc thu thập dữ liệu và dùng sơ đồ trang web để tạo điều kiện cho Google thu thập dữ liệu. Hãy chặn Google thu thập dữ liệu về nội dung trùng lặp trên trang web của bạn hoặc các tài nguyên không quan trọng (ví dụ: các hình ảnh đồ họa nhỏ thường dùng như biểu tượng hoặc biểu trưng). Nếu bạn cho phép thu thập dữ liệu những nội dung đó, Google có thể gửi quá nhiều yêu cầu khiến máy chủ của bạn quá tải. Không sử dụng robots.txt làm cơ chế ngăn lập chỉ mục, mà thay vào đó hãy dùng lệnh noindex hoặc yêu cầu đăng nhập. Đọc thêm về cách chặn truy cập vào nội dung của bạn.

Sơ đồ trang web

Sơ đồ trang web là một cách rất hữu ích để cho Google biết những trang quan trọng trên trang web của và đồng thời cung cấp thông tin bổ sung (như tần suất cập nhật). Sơ đồ trang web đóng vai trò rất quan trọng trong quy trình thu thập dữ liệu đối với nội dung không phải văn bản (như hình ảnh hoặc video). Tuy rằng không chỉ thu thập dữ liệu các trang có trong sơ đồ trang web, nhưng Google sẽ ưu tiên thu thập dữ liệu các trang này. Điều này đặc biệt quan trọng đối với các trang web có nội dung thay đổi nhanh chóng hoặc với các trang có thể không phát hiện được thông qua các đường dẫn liên kết. Khi bạn sử dụng sơ đồ trang web, Google sẽ có thể khám phá và sắp xếp mức độ ưu tiên khi thu thập dữ liệu các trang trên trang web của bạn. Đọc toàn bộ thông tin về sơ đồ trang web ở đây.

Các trang web quốc tế hoặc nhiều ngôn ngữ

Trong trường hợp trang web của bạn có nhiều ngôn ngữ hoặc nhắm đến người dùng ở các khu vực cụ thể:

Đọc tài liệu về các trang web nhiều khu vực và nhiều ngôn ngữ để biết lời khuyên nâng cao về cách quản lý các trang web có nội dung đã bản địa hóa cho các ngôn ngữ hoặc khu vực khác nhau.
Sử dụng thẻ hreflang để thông báo cho Google về các phiên bản ngôn ngữ khác nhau của các trang trên trang web của bạn.
Nếu trang web của bạn điều chỉnh nội dung các trang dựa trên ngôn ngữ của yêu cầu, hãy đọc ảnh hưởng của hành vi này đến quy trình Google thu thập dữ liệu trang web của bạn.
Nếu trang web của bạn có miền cấp cao nhất chung (.com, .org) thay vì miền cấp cao nhất dành riêng cho từng khu vực (.ch, .in), bạn có thể cho Google biết nên hiển thị kết quả tìm kiếm về trang web của bạn cho người dùng tại khu vực nào.

Di chuyển một trang hoặc trang web

Trong trường hợp bạn cần di chuyển một URL hoặc thậm chí toàn bộ một trang web, hãy làm theo những nguyên tắc sau:

Di chuyển một URL

Nếu bạn di chuyển vĩnh viễn một trang đến một vị trí khác, đừng quên triển khai lệnh chuyển hướng 301 cho trang đó. Nếu bạn chỉ tạm thời di chuyển trang vì một lý do nào đó, hãy trả lại phản hồi 302 để báo cho Google rằng Google nên tiếp tục thu thập dữ liệu trên trang của bạn.

Khi người dùng yêu cầu một trang đã bị xóa, bạn có thể tạo một trang 404 tùy chỉnh để đem lại trải nghiệm tốt hơn. Bạn chỉ cần đảm bảo rằng khi người dùng yêu cầu một trang không còn tồn tại, bạn sẽ trả về một lỗi 404 chuẩn thay vì lỗi 404 mềm.

Di chuyển một trang web

Nếu bạn đang di chuyển toàn bộ một trang web, hãy triển khai lệnh 301 và thực hiện các thay đổi cần thiết đối với sơ đồ trang web, sau đó cho Google biết về việc di chuyển này để chúng tôi có thể bắt đầu thu thập dữ liệu trên trang web mới và chuyển tiếp tín hiệu của bạn đến trang web mới. Tìm hiểu cách di chuyển trang web của bạn.

Các phương pháp hay nhất

Giúp Google thu thập dữ liệu các đường liên kết của bạn. Google chỉ có thể truy cập các đường dẫn liên kết nếu liên kết đó là thẻ <a> có thuộc tính href. Trình thu thập dữ liệu của Google sẽ không truy cập các đường dẫn liên kết thuộc định dạng khác. Google không thể truy cập những đường dẫn liên kết <a> không có thẻ href hay các thẻ khác thực hiện chức năng liên kết là do các sự kiện nhấp chuột theo tập lệnh.

Dùng rel=nofollow cho các đường liên kết được trả phí, các đường liên kết yêu cầu đăng nhập hoặc nội dung không đáng tin cậy (chẳng hạn như nội dung do người dùng gửi) để tránh truyền tín hiệu về chất lượng của bạn đến các trang đó. Phương thức này cũng giúp bạn không bị ảnh hưởng nếu các trang đó có chất lượng kém.

Quản lý ngân sách thu thập dữ liệu của bạn: Nếu trang web của bạn cực kỳ lớn (có hàng trăm triệu trang thay đổi định kỳ hoặc hàng chục triệu trang thay đổi thường xuyên), thì có khả năng Google không thể thu thập dữ liệu toàn bộ trang web ở tần suất bạn muốn. Vì vậy, bạn có thể cần đưa ra chỉ dẫn để Google biết các trang quan trọng nhất trên trang web của mình. Hiện tại, phương thức hiệu quả nhất để làm điều này là liệt kê các trang mới cập nhật gần đây nhất hoặc quan trọng nhất trong sơ đồ trang web của bạn và ẩn các trang ít quan trọng hơn (có thể là trong một khoảng thời gian tạm thời) bằng cách sử dụng quy tắc robots.txt.

Trang web sử dụng AJAX: Nếu bạn dùng AJAX cho trang web của mình, hãy tìm hiểu cách Google thu thập dữ liệu các trang AJAX.

Việc sử dụng JavaScript: Xem đề xuất của Google về JavaScript trên các trang web.

Bài viết nhiều trang: Nếu bạn chia một bài viết thành nhiều trang, hãy nhớ hiển thị đường liên kết đến trang trước và trang tiếp theo để người dùng nhấp vào (và đảm bảo Google có thể thu thập dữ liệu các đường liên kết này). Đó là tất cả những gì bạn cần làm để Google thu thập dữ liệu đối với nhóm trang này.

Tang cuộn vô hạn: Google có thể gặp khó khăn khi cuộn qua các trang cuộn vô hạn; bạn nên cung cấp một phiên bản có phân trang nếu bạn muốn chúng tôi thu thập dữ liệu những trang như vậy. Tìm hiểu thêm về các trang cuộn vô hạn thân thiện với công cụ tìm kiếm.

Chặn truy cập vào các URL thay đổi trạng thái, chẳng hạn như các trang cho phép đăng nhận xét, tạo tài khoản, thêm mặt hàng vào giỏ hàng, v.v. Hãy dùng tệp robots.txt để chặn những URL đó.

Xem danh sách các loại tệp mà Google có thể lập chỉ mục. Nếu về bản chất, loại tệp của bạn là không thể thu thập dữ liệu, hãy nhớ cung cấp đường liên kết đến văn bản mô tả tệp đó hoặc cung cấp siêu dữ liệu trong sơ đồ trang web (nếu tệp đó là video, hình ảnh hoặc nguồn cấp dữ liệu podcast).

Trong một trường hợp hiếm gặp là Google có vẻ đang thu thập dữ liệu trang web của bạn quá mức, bạn có thể giảm tốc độ thu thập dữ liệu cho trang web của mình. Tuy nhiên, trường hợp này hiếm khi xảy ra.

Nếu trang web của bạn vẫn dùng giao thức http, bạn nên chuyển sang https nhằm bảo mật cho người dùng và cho chính bạn.