Indexing là gì? Tất tần tật về Index trong SEO

indexing là gì
Mục lục nội dung

Trở lại những ngày chưa có Internet, bạn cần tham khảo cuốn bách khoa toàn thư để tìm câu trả lời cho một vấn đề, tra cứu quyển danh bạ điện thoại để liên lạc với 1 ai đó.

Sự ra đời của các công cụ tìm kiếm đã làm thay đổi hoàn toàn thói quen tra cứu thông tin của con người, cách mạng hóa việc truy suất thông tin với những kết quả trả về gần như ngay lập tức.

Về cơ bản khi tìm kiếm thông tin, người dùng không tìm kiếm trên nền tảng liveweb thực mà chỉ đang tìm kiếm trong chỉ mục của các Search Engine.

Nói cách khác, người dùng đang tìm kiếm dựa trên những gì mà Search Engine lưu trữ, hiểu về thế giới.

Quá trình lưu trữ, tổng hợp thông tin này được gọi là Indexing.

Trong bài hướng dẫn này cùng tìm hiểu Indexing là gì? Toàn bộ vấn đề xoay quanh việc index trong SEO.

Index hay Indexing là quá trình các công cụ tìm kiếm (search engine) phân loại, lưu trữ nội dung vào cơ sở dữ liệu của mình.

Chỉ những trang được index mới có thể xuất hiện trên kết quả tìm kiếm.

Indexing là gì
Indexing là gì

Để hiểu rõ hơn về Indexing, cùng xem ví dụ về cách phân loại sách trong thư viện của Google:

Chỉ mục của Google tương tự như chỉ mục trong thư viện, nó liệt kê thông tin về tất cả sách mà thư viện có sẵn. Tuy nhiên, thay vì sách, chỉ mục của Google liệt kê tất cả các Web page mà Google biết.

Khi Google truy cập trang web của bạn, nó sẽ phát hiện các trang mới và cập nhật vào chỉ mục của mình.

Support.google.com

Về cơ bản thì sau khi thu thập dữ liệu (quá trình Crawling), Google sẽ lưu trữ thông tin đã thu thập được vào 1 nơi (Google index).

Khi có ai đó tìm kiếm thông tin, Google sẽ tìm các câu trả lời bên trong kho lưu trữ của mình, kết hợp với các thuật toán để đưa ra câu trả lời nhanh nhất và liên quan nhất.

Kho chứa các webpage mà Google thu thập được có tên gọi là Google Index và sau này đổi thành Google Caffeine.

Google index là gì?

Năm 2010, Google giới thiệu hệ thống lập chỉ mục mới – Google Caffeine với khả năng cung cấp kết quả nhanh gấp 2 lần so với hệ thống cũ.

Nội dung trên web đang phát triển một cách nhanh chóng không chỉ về quy mô và số lượng mà với sự ra đời của video, hình ảnh, tin tức và cập nhật theo thời gian thực, các trang web ngày càng phong phú và phức tạp hơn. Ngoài ra, kỳ vọng của mọi người đối với tìm kiếm cũng cao hơn trước đây.
Người tìm kiếm muốn tìm nội dung có liên quan mới nhất và các nhà xuất bản mong đợi được tìm thấy ngay khi họ xuất bản.

Googleblog

Hệ thống google index cũ sẽ lưu trữ các Web page thành từng lớp xếp chồng lên nhau. Khi 1 lớp được cập nhật, Google sẽ phải phân tích lại toàn bộ website, gây nên sự lãng phí, chậm trễ trong quá trình đánh giá xếp hạng.

Với Caffeine, website được phân tích thành từng phần riêng biệt và tiến hành cập nhật thông tin liên tục. Khi tìm thấy các trang mới hay thông tin mới, Google có thể thêm ngay các trang này vào chỉ mục.

Google caffeine
Google caffeine

Người dùng có thể tìm thấy thông tin mới ngay lập tức bất kể nó được xuất bản ở đâu và khi nào.

Chỉ có những web page được các công cụ tìm kiếm lập chỉ mục mới thể xuất hiện trên các trang kết quả tìm kiếm.

Quá trình lập chỉ mục của Google được diễn ra sau khi các Crawler tìm thấy nội dung mới trên internet. Gồm 3 giai đoạn:

Quy trình lập chỉ mục của Google
  1. Discovery (khám phá nội dung): Discovery là quá trình các Crawler tìm kiếm, khám phá nội dung mới trên internet. Chúng làm việc này thông qua các liên kết được trỏ đến website hay thông tin sitemap được chủ trang web gửi thông qua Google search console.
  2. Crawling (thu thập dữ liệu): Khi phát hiện ra nội dung mới, các Crawler sẽ xác định trang nào cần ưu tiên thu thập cũng như tần suất thu thập thông tin qua các thuật toán đặc biệt.
  3. Indexing (lập chỉ mục): Sau khi thu thập dữ liệu, Search Engine sẽ trích xuất, đánh giá chất lượng những gì đã thu thập được. Đó có phải là nội dung mới? nội dung đó đã từng tồn tại hay trùng lặp trong các tài liệu khác hay không?. Đây cũng là bước mà các search engine đánh giá về bố cục, tốc độ tải và nhiều yếu tố khác. Nếu mọi thứ đều ổn, dữ liệu sẽ được lập chỉ mục.

Trong quá trình đánh giá nội dung trên website, các Search Engine hay cụ thể ở đây là Google sẽ xác định xem 1 trang có phải là trang trùng lặp (duplicate) hay trang chính tắc (canonical).

Nếu trang đó được xác định là trùng lặp, Google sẽ ít thu thập dữ liệu trên trang đó hơn.

Các trang tương tự nhau sẽ được nhóm vào 1 tài liệu (document).

Document bao gồm 1 hoặc nhiều trang chính tắc và các trang trùng lặp có nội dung tương tự nhau.

Khái niệm Document là gì? trang chính tắc và trang trùng lặp

Về khái niệm Document là gì? Google giải thích như sau:

Google sẽ sử dụng 1 lượng lớn các Document (tài liệu) làm đại diện cho 1 hoặc nhiều trang trong Website.
Document được chọn làm đại diện cho nhiều trang trong Website khi:

  1. Những trang đó có nội dung giống nhau hoặc gần giống nhau.
  2. Những trang có cùng nội dung nhưng có thể truy cập từ các đường dẫn khác nhau, ví dụ (example.com/dresses/summer/1234 và example.com?product=1234).
  3. Những trang dành cho các phiên bản khác nhau trên laptop hay trên điện thoại di động.
Khái niệm document
Khái niệm document

Google sẽ chọn ra 1 URL trong Document làm URL chính tắc (canonical) của tài liệu. URL này sẽ được Google thu thập dữ liệu và lập chỉ mục thường xuyên hơn.

Các trang còn lại được xem như trang trùng lặp (duplicate) hay trang thay thế (alternates). Các trang này sẽ ít được Google thu thập và cập nhật dữ liệu.

Công cụ kiểm tra URL trong Search console có thể giúp người dùng xác định xem URL đó là trang chính tắc hay trang thay thế.

Google có thể xác định nhầm 1 trang chính tắc (canonical) trên website làm trang thay thế bởi nhiều lý do. Qua đó gây ra nhiều hậu quả như:

  1. Trang chính không được thu thập dữ liệu và cập nhật thường xuyên.
  2. Gây tình trạng ăn thịt từ khóa (seo từ khóa lên lộn URL…)

Kiểm tra xem Google đã xác định chính xác trang nội dung chính trên website làm trang chính tắc hay chưa để hạn chế lỗi trong quá trình SEO.

Các Crawler sẽ ưu tiên thu thập dữ liệu trên thiết bị di động trước, điều đó càng được thể hiện rõ hơn qua bản cập nhật Mobile First-indexing.

Mobile first indexing là gì?

Ngày nay, hầu hết mọi người đang tìm kiếm trên Google bằng thiết bị di động. Tuy nhiên, hệ thống xếp hạng của chúng tôi vẫn thường xem xét phiên bản dành cho máy tính để bàn của nội dung trang để đánh giá mức độ liên quan của nó với người dùng.
Điều này có thể gây ra sự cố khi trang trên thiết bị di động có ít nội dung hơn trang trên máy tính để bàn vì các thuật toán của chúng tôi không đánh giá trang thực tế mà người tìm kiếm trên thiết bị di động nhìn thấy.

developers.google.com
Mobile first index
Mobile first index

Người dùng ngày nay càng có xu hướng sử dụng điện thoại thông minh để lướt web và tìm kiếm thông tin. Chính vì vậy mà Google sẽ ưu tiên thu thập dữ liệu và lập chỉ mục trên các thiết bị di động và xem xét đây là trình thu thập dữ liệu chính cho website.

Để phản hồi thông tin người dùng tra cứu 1 cách nhanh chóng, Google hay các công cụ tìm kiếm sử dụng Inverted Index (chỉ mục nghịch đảo)

Inverted index (chỉ mục nghịch đảo) là gì?

Inverted index là cấu trúc dữ liệu nhằm liên kết giữa term (từ khóa) với các webpage (document) chứa từ khóa đó. Đây là kỹ thuật index theo từng đơn vị từ khóa (term) thay vì index theo từng dòng trước đây.

Inverted index giúp các công cụ tìm kiếm giảm tải lượng tài nguyên cần thiết để lưu trữ và truy xuất dữ liệu. Cách tiếp cận này nhanh hơn nhiều lần so với việc liệt kê các kết quả dựa trên ngữ nghĩa của từ khóa và ký tự có liên quan.

Inverted index
Inverted index

Lấy một ví dụ tương đối: có 3 webpage lần lượt là d1, d2, d3 và một cụm từ tìm kiếm “khá bảnh múa quạt”

  • Trong d1 có chứa từ khoá “múa quạt giỏi”
  • Trong d2 có chứa từ khóa “khá bảnh múa quạt”
  • Trong d3 có chứa từ khóa “ khá bảnh”

Với cách tìm kiếm thông thường, các công cụ tìm kiếm sẽ dùng cụm từ “khá bảnh múa quạt” lần lượt kiểm tra trong d1 không tìm thấy, chuyển sang d2 tìm thấy, rồi lại tiếp tục tìm trong d3.
>>> Kết quả cuối cùng là d2.

Với inverted index, các webpage được lưu dưới dạng:

  • “múa” nằm trong {d1, d2}
  • “quạt” => {d1, d2}
  • “giỏi” => {d1}
  • “khá” => {d2, d3}
  • “bảnh” => {d2, d3}

Công việc trở nên nhanh chóng hơn khi chỉ cần tìm kiếm webpage có chứa 4 từ {“khá”, “bảnh”, “múa”, “quạt”}
Kết quả là phép giao của của {d2,d3} với {d1,d2} kết quả là d2.

Với inverted index, tốc độ truy xuất, lưu trữ dữ liệu của các công cụ tìm kiếm hiệu quả hơn 50% so với phương pháp thông thường.

Đây chỉ là một ví dụ đơn giản mang tính chất tương đối, trong thực tế inverted index diễn ra phức tạp hơn nhiều.

Tham khảo thêm bằng sáng chế về hệ thống chỉ mục nghịch đảo và phương pháp cho các thuộc tính số của Google

Cùng với sự phát triển của thế giới, các website mới liên tục được xuất bản khiến cho việc lưu trữ, lập chỉ mục càng ngày càng trở nên khó khăn với các công cụ tìm kiếm.

Để giải quyết tình trạng này, các Crawler (trình thu thập dữ liệu) được tích hợp thuật toán đặc biệt giúp chúng có thể bỏ qua các URL không quan trọng.

Google có lập chỉ mục tất cả website trên internet không?

Theo số liệu của Worldwidewebsize, tính đến hết tháng 3 năm 2021, Thế giới Internet có khoảng 5,27 tỷ Website, Google có gần 54 tỷ trang trong cơ sở dữ liệu (số liệu từ worldwidewebsize)

Trong đó hầu hết là các trang kém chất lượng, lừa đảo, nội dung trùng lặp, các phần mềm độc hại, không mang lại giá trị cho người dùng. Google hay các công cụ tìm kiếm cần tránh xa các website này thay vì lập chỉ mục chúng.

Google index phần tốt đẹp của thế giới
Google index phần tốt đẹp của thế giới

Các Website ngày càng trở nên đẹp hơn, nhiều hiệu ứng hơn đồng nghĩa với việc chúng ngày càng trở nên “nặng” hơn với nhiều định dạng nội dung siêu văn bản: hình ảnh, video độ phân giải cao. Điều này gây khó khăn cho các công cụ tìm kiếm trong việc truy cập, trích xuất thông tin để hiểu nội dung những website này.

Vì thế giới internet quá rộng lớn nên Google cần phải lựa chọn những trang mà nó muốn lập chỉ mục. Rõ ràng, Google sẽ tập trung vào những trang chất lượng mang lại giá trị cho người dùng.

Về cơ bản, trước khi thu thập thông tin, khi chúng tôi xem xét các URL mà chúng tôi thấy và dựa trên các dữ liệu mà chúng tôi có trong quá khứ, chúng tôi nghĩ:”chà, những URL này có thể giống nhau, sau đó chúng tôi “gấp” chúng lại với nhau.

Google's John Mueller

Google có thể bỏ qua việc thu thập thông tin 1 số trang trên website và đánh giá nó là trang có nội dung kém chất lượng. Để làm điều này, Google gán cho các URL chỉ số về mức độ ưu tiên trước khi thu thập dữ liệu.

Chỉ thị mức độ ưu tiên cho các URL

Do khả năng thu thập thông tin có giới hạn, các lần thu thập thông tin không hoàn chỉnh sẽ được đưa vào hàng chờ xử lý tồn đọng.
Các URL được phân loại là ít quan trọng sẽ bị bỏ qua khi tiến hành thu thập thông tin.

patents.google.com

Google chỉ thị mức độ ưu tiên cho các URL trước khi thu thập thông tin. Các trang được coi là ít quan trọng hơn sẽ không được thu thập thông tin.

Theo bằng sáng chế của Google, mức độ ưu tiên của URL có thể được xác định bởi các yếu tố:

  • Mức độ phổ biến của URL
  • Duy trì thu thập thông tin một URL nhất định để duy trì sự cập nhật, tính mới mẻ của Google index.

Quy trình lập chỉ mục của Google rất phức tạp với nhiều bước liên kết lẫn nhau. Nếu 1 trong những bước này gặp trục trặc sẽ dẫn đến các quy trình khác cũng bị ảnh hưởng.

Vào ngày 10/08/2020, cộng đồng SEO nhận thấy 1 loạt thay đổi trong kết quả tìm kiếm. Nhiều ý kiến cho rằng, Google tung ra 1 bản cập nhật thuật toán quan trọng. Nhưng hôm sau, Google đã thông báo đó là 1 lỗi liên quan đến hệ thống lập chỉ mục khiến cho thứ hạng từ khóa bị thay đổi.

Để làm sáng tỏ sự phức tạp của quá trình Indexing, Google’s Gary illyes đã giải thích quy trình lập chỉ mục của Google Caffeine

Cùng với sự kiện này, Vào tháng 5 năm 2020, Google tung ra bản cập nhật thuật toán cốt lõi ảnh hưởng đến quá trình lập chỉ mục. Kể từ đó, việc lập chỉ mục trở nên khó khăn, nghiêm ngặt hơn rất nhiều so với trước đây.

Trải qua 1 quá trình phức tạp từ discovery, crawling đến indexing, Url mới được lập chỉ mục trong cơ sở dữ liệu của Google. Có bao nhiêu cách để kiểm tra việc này.

Cách kiểm tra index website

Có 3 cách để xác định liệu URL đã được Google lập chỉ mục hay chưa:

Lệnh Site

Bạn có thể sử dụng lệnh site:url để kiểm tra xem đường dẫn đã được index hay chưa. Ví dụ: site:domain
Tuy nhiên cách làm không phải lúc nào cũng chính xác, có những khi trang được index nhưng kiểm tra bằng site:URL không trả về kết quả.

Lệnh kiểm tra index
Lệnh kiểm tra index

Gõ trực tiếp tiêu đề hoặc URL

Một cách đơn giản để kiểm tra index 1 trang đó chính là gõ thẳng tiêu đề bài viết hoặc sử dụng lệnh inurl:tieu-de-url vào ô tìm kiếm của Google. Nếu URL đã được lập chỉ mục, trang web của bạn sẽ hiện ra.

Kiểm tra bộ nhớ Cache của URL

Kiểm tra xem URL của bạn có được lưu trong bộ nhớ đệm của Google hay không với cú pháp cache:URL.

Nếu hiển thị kết quả, chứng tỏ URL đã được index. Thời gian ghi trong URL chính lần gần nhất Google lập chỉ mục trang web. Google có thể thu thập dữ liệu về 1 trang nhưng chưa chắc đã index trang đó. Gary illyes đã giải thích về điều này qua dòng tweet

Theo Gary, thời gian ghi trong cache là khoảng thời gian trang được lập chỉ mục gần nhất, không phải thời gian trang được thu thập thông tin bởi các công cụ tìm kiếm.

Googlebot có thể thu thập thông tin một trang, nhưng nếu trang đó không có nội dung mới hoặc nội dung không khác biệt với phiên bản cũ, nó sẽ cân nhắc sử giữ nguyên chỉ mục của phiên bản cũ.

Sử dụng Google search console

Sử dụng báo cáo về phạm vi chỉ mục trong Google search console để kiểm tra tổng thể index Website.

Kiểm tra index với GSC
Kiểm tra index với GSC

Báo cáo đưa ra 4 loại trạng thái:

  • Lỗi: Google không thể lập chỉ mục trang này vì một số lý do.
  • Hợp lệ có cảnh báo: trang này đã được lập chỉ mục nhưng vẫn có những phần bạn cần kiểm tra thêm.
  • Hợp lệ: Tốt. Những trang này đã được lập chỉ mục thành công.
  • Bị loại trừ: Những trang không được lập chỉ mục, Google nhận được các tín hiệu cho việc không lập chỉ mục những trang này.

Cách kiểm tra tình trang index của URL trên Website trong Google search console:

  1. Đăng nhập vào Google search console.
  2. Nhấp vào “kiểm tra mọi URL trong site”.

Nếu công cụ cho biết URL chưa được lập chỉ mục hãy nhấn vào “yêu cầu lập chỉ mục” để gửi URL vào hàng chờ ưu tiên.

Quá trình indexing là bước lớn thứ 2 tiếp ngay sau quá trình Crawling của Google hay các công cụ tìm kiếm. Google ngày càng khó tính hơn trong việc lựa chọn và lập chỉ mục các website. Vậy có những cách nào để cải thiện kết quả lập chỉ mục trên Website?

Việc Index trên Google ngày càng trở nên khó khăn và mất nhiều thời gian hơn trước. Tham khảo hướng dẫn dưới đây để chắc chắn nội dung của bạn được index trên Google:

  • File Robots.txt, Robots meta tag, X-Robots-tag
  • Thiết lập thẻ chính tắc (Canonical)
  • Submit URL trong Google search console
  • Sử dụng Google my business
  • Sử dụng API của Google để thúc đẩy index
  • Sử dụng internal link hợp lý
  • Xây dựng backlink cùng chủ đề
  • Submit Sitemap trong Google search console
  • Share Social

File Robots.txt, Robots meta tag, X-Robots-tag

Trước khi nghĩ tới index bạn cần chắc chắn rằng các trình thu thập dữ liệu có thể dễ dàng truy cập vào những trang quan trong.

Hãy kiểm tra lại các file robots.txt, robot-meta-tag, x-robots-tag xem bạn đã triển khai chuẩn hay chưa?

Các file robots cần chú ý
Các file robots cần chú ý

File Robots.txt

File Robot.txt nằm trong thư mục root của Website ngang cấp với thư mục index. File này hướng dẫn cho các trình thu thập dữ liệu biết nơi nào nên và không nên thu thập dữ liệu trên site.

Sử dụng file robots.txt để chỉ cho các Crawler biết nơi nào cần ưu tiên thu thập dữ liệu, bảo vệ tải website. Không nên sử dụng File Robots.txt để chặn 1 trang xuất hiện trong chỉ mục của Google.

Các trang bị chặn trong File Robots.txt vẫn có thể xuất hiện trong Google index nếu như có liên kết trỏ đến trang đó.

Robots meta tag

Thẻ Meta Robots giúp chủ website kiểm soát cách Google lập chỉ mục ở cấp độ trang riêng lẻ.

				
					<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

				
			

Theo như ví dụ trên, thẻ này đang chỉ thị các googlebot không lập chỉ mục trang trong kết quả tìm kiếm.

X-Robots-tag

X-Robots-tag giúp kiểm soát quá trình thu thập thông tin, index của các công cụ tìm kiếm ở cấp độ toàn website. Không giống như thẻ meta Robots chỉ áp dụng cho các tài liệu HTML, thẻ X-Robots-tag có thể áp dụng cho các tài liệu non-html như PDF.

				
					location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, follow";
}
				
			

Bạn cần có quyền truy cập vào file htaccess hoặc tệp cấu hình máy chủ của tiêu đề website để điều chỉnh X-robots-tag.

X-Robots-Tag có tác động đến toàn bộ trang web chứ không phải từng trang riêng lẻ.

Thiết lập thẻ chính tắc (Canonical)

Với các site ecommerce, 1 số thuộc tính như size, color sẽ sinh ra các URL khác nhau nhưng nội dung gần như giống nhau hoàn toàn.

Thiết lập thẻ Canonical
Thiết lập thẻ Canonical

Sử dụng thẻ chính tắc (canonical) chính xác sẽ giúp các trình thu thập thông tin xác định nhanh hơn phiên bản chuẩn của nội dung. Google sẽ không lập chỉ mục các phiên bản phụ dẫn đến không sinh ra lỗi về Duplicate content.

Bạn có thể kiểm tra xem Google đã xác định đúng trang canonical của Website chưa thông qua Google search console.

Submit URL trong Google search console

Một việc đơn giản giúp URL của bạn được thêm vào hàng chờ ưu tiên là gửi URL trong Google search console.
Bước 1: Truy cập Google Search Console.
Bước 2: Chọn URL bạn muốn thúc đẩy index.
Bước 3: Nhập URL vào ô kiểm tra URL.
Bước 4: Kích vào nút yêu cầu lập chỉ mục để thêm URL vào hàng chờ ưu tiên

Submit link trong google search console
Submit link trong google search console

Đăng bài lên Google my business

Những năm gần đây Google ưu tiên Google my business, việc đăng bài, share link lên Google my business sẽ thúc đẩy quá trình indexing thêm nhanh hơn.

Sử dụng API của Google để thúc đẩy index

Google đưa ra Hướng dẫn nhanh về API Lập chỉ mục nhanh cho các nội dung về sự kiện, tuyển dụng, video diễn ra trong thời gian ngắn.

Với những trang có thời gian diễn ngắn như sự kiện, tuyển dụng, video thì có thể index thông qua Api của Google. Nó khá giống với cơ chế gửi URL trong Google search console.

developers.google.com

Tác dụng của Api chỉ mục Google:

  • Gửi URL: thông báo cho Google về URL được cập nhật nhật thông tin hoặc URL mới được tạo ra trên Website.
  • Xóa URL: Thông báo xóa 1 URL ra khỏi website
  • Xem trạng thái: Xem lại lần gần nhất mà Google đã thu thập thông tin.
  • Gửi yêu cầu lập chỉ mục hàng loạt: Gửi 100 URL trong 1 lần yêu cầu.

Api chỉ mục của Google chỉ có tác dụng với 3 loại trang sự kiện, tuyển dụng, video tuy nhiên khi áp dụng với các lĩnh vực khác vẫn có tác dung.
Google cũng tán thành việc mở rộng lĩnh vực áp dụng cho Api chỉ mục. Wix và Yoast SEO là 2 công ty giúp Google chạy các thử nghiệm này.

Sử dụng internal link hợp lý

Internal link (liên kết nội bộ) giúp Google hiểu được cấu trúc cũng như độ phân tầng của Website. Internal link biểu thị mối quan hệ của Page với Website cũng như giữa các Page khác nhau.

Sử dụng hợp lý, kết nối các bài viết, phần quan trọng lại với nhau sẽ khiến cho Google bot dễ dàng trong việc đánh giá và phân tích nội dung website.

Đảm bảo mật độ link hợp lý giữa các phần trên Website để dòng chảy sức mạnh được phân bổ đúng những trang bạn mong muốn.

Xây dựng backlink cùng chủ đề

PagerankBacklinks là cốt lõi thuật toán của Google trong xếp hạng từ khóa. Backlink giúp Google tìm kiếm, khám phá các website mới trên internet.

Backlink truyền 1 phần độ uy tín cho website được trỏ tới. Website của bạn sẽ được index nhanh hơn nếu như có các Backlink từ những trang có độ uy tín (authority) cao.

Submit Sitemap Website

Sau khi tạo sơ đồ trang web hãy gửi sitemap này qua công cụ submit sitemap trong Google search console.

Nhớ rằng sitemap bao gồm những URL quan trọng mà bạn muốn các trình thu thập thông tin index trong cơ sở dữ liệu.

Bạn không cần trực tiếp làm điều này, các công cụ như Yoast SEO, Rank Math đều có sẵn công cụ tự động giúp bạn tạo sitemap.

Submit sitemap
Submit sitemap

Share social

Google có thể truy cập firehose của twitter hay các social phổ biến khác nên các nội dung được chia sẻ trên các mạng xã hội sẽ có tỷ lệ lập chỉ mục cao hơn các bài viết không được chia sẻ.

Mặt khác, tín hiệu mạng xã hội sẽ báo hiệu cho Google biết về độ phổ biến của nội dung đó trên internet qua đó thúc đẩy quá trình index.

Thêm #hashtag trên twitter hay các mạng xã hội khác để phân loại rõ chủ đề nội dung.

Ghi chú

  • Indexing là quá trình làm việc thứ 2 của Google hay các công cụ tìm kiếm. Chỉ có những web page được lập chỉ mục mới có cơ hội xuất hiện trong kết quả tìm kiếm.
  • Sau khi thu thập thập tin, Google sẽ lưu trữ các webpage trong cơ sở dữ liệu – Google caffeine.
  • Google sẽ chọn ra các trang chính tắc (trang canonical) đại diện cho website để thường xuyên cập nhật và thu thập dữ liệu.
  • Google ưu tiên thu thập dữ liệu và index trên thiết bị di động (mobile first indexing)
  • Google sử dụng thuật toán chỉ mục nghịch đảo (inverted indexing) để tìm kiếm tài liệu có liên quan.
  • Để cải thiện kết quả index hãy chú ý đến nội dung. Nội dung phải mới và không trùng lặp với nội dung khác trên internet.
  • Hãy sử dụng Google search console để submit sitemap, url để tăng tỷ lệ index.
  • Sử dụng hợp lý các thẻ robots để quản lý lưu lượng thu thập dữ liệu của các crawler.
  • Internal link đến các bài viết quan trọng, đảm bảo các có trang nào không có liên kết trỏ tới.

Nguồn tham khảo trong bài viết:

Moz
Ahrefs
SemRush
Blog.google
Search Engine Land
Search Engine Journal
Developers.google.com