Lập chỉ mục ngữ nghĩa tiềm ẩn (LSI): Có phải là yếu tố xếp hạng của Google không?

Các thuật ngữ “rắc” có liên quan chặt chẽ đến từ khóa mục tiêu của bạn có cải thiện thứ hạng không? Đây là những lập luận ủng hộ & chống lại LSI như một yếu tố xếp hạng.

Lập chỉ mục ngữ nghĩa tiềm ẩn (LSI) là một phương pháp lập chỉ mục và truy xuất thông tin được sử dụng để xác định các mẫu trong mối quan hệ giữa các thuật ngữ và khái niệm.

Với LSI, một kỹ thuật toán học được sử dụng để tìm các thuật ngữ liên quan đến ngữ nghĩa trong một tập hợp văn bản (một chỉ mục) nơi các mối quan hệ đó có thể bị ẩn (hoặc tiềm ẩn).

Và trong bối cảnh đó, điều này nghe có vẻ như nó có thể là cực kỳ quan trọng đối với SEO.

Đúng?

Rốt cuộc, Google là một chỉ mục thông tin khổng lồ và chúng tôi đang nghe tất cả những điều về tìm kiếm theo ngữ nghĩa và tầm quan trọng của mức độ liên quan trong thuật toán xếp hạng tìm kiếm.

Nếu bạn đã nghe những lời đồn thổi về việc lập chỉ mục ngữ nghĩa tiềm ẩn trong SEO hoặc được khuyên sử dụng từ khóa LSI, bạn không đơn độc.

Nhưng liệu LSI có thực sự giúp cải thiện thứ hạng tìm kiếm của bạn không? Chúng ta hãy xem xét.

Tuyên bố: Lập chỉ mục ngữ nghĩa tiềm ẩn như một yếu tố xếp hạng

Tuyên bố rất đơn giản: Tối ưu hóa nội dung web bằng cách sử dụng các từ khóa LSI giúp Google hiểu rõ hơn về nội dung đó và bạn sẽ được thưởng với thứ hạng cao hơn.

Backlinko xác định các từ khóa LSI theo cách này:

“Từ khóa LSI (Lập chỉ mục ngữ nghĩa tiềm ẩn) là các thuật ngữ có liên quan đến khái niệm mà các công cụ tìm kiếm sử dụng để hiểu sâu nội dung trên trang web.”

Bằng cách sử dụng các thuật ngữ liên quan đến ngữ cảnh, bạn có thể giúp Google hiểu sâu hơn về nội dung của bạn. Hay câu chuyện cứ thế trôi đi.

Tài nguyên đó tiếp tục đưa ra một số lập luận khá thuyết phục cho các từ khóa LSI:

“Google dựa vào các từ khóa LSI để hiểu nội dung ở mức độ sâu như vậy.”
“Từ khóa LSI KHÔNG phải là từ đồng nghĩa. Thay vào đó, chúng là những thuật ngữ gắn chặt với từ khóa mục tiêu của bạn. ”
“Google không CHỈ những cụm từ in đậm khớp chính xác với những gì bạn vừa tìm kiếm (trong kết quả tìm kiếm). Họ cũng in đậm các từ và cụm từ tương tự. Không cần phải nói, đây là những từ khóa LSI mà bạn muốn đưa vào nội dung của mình ”.
Việc thực hành các thuật ngữ “rắc rối” liên quan chặt chẽ đến từ khóa mục tiêu của bạn có giúp cải thiện thứ hạng của bạn thông qua LSI không?

Bằng chứng cho LSI như một yếu tố xếp hạng

Mức độ liên quan được xác định là một trong năm yếu tố chính giúp Google xác định kết quả nào là câu trả lời tốt nhất cho bất kỳ truy vấn nhất định nào.

Như Google giải thích trong tài nguyên Cách hoạt động của Tìm kiếm:

“Để trả về kết quả có liên quan cho truy vấn của bạn, trước tiên chúng tôi cần thiết lập thông tin bạn đang tìm kiếm ー mục đích đằng sau truy vấn của bạn.”

Sau khi mục đích đã được thiết lập:

“… Các thuật toán phân tích nội dung của các trang web để đánh giá xem trang đó có chứa thông tin có thể liên quan đến những gì bạn đang tìm kiếm hay không.”

Google tiếp tục giải thích rằng “tín hiệu cơ bản nhất” về mức độ liên quan là các từ khóa được sử dụng trong truy vấn tìm kiếm xuất hiện trên trang. Điều đó có ý nghĩa – nếu bạn không sử dụng các từ khóa mà người tìm kiếm đang tìm kiếm, làm cách nào Google có thể cho bạn biết câu trả lời tốt nhất?

Bây giờ, đây là nơi mà một số người tin rằng LSI sẽ phát huy tác dụng.

Nếu việc sử dụng các từ khóa là một tín hiệu về mức độ liên quan, thì việc chỉ sử dụng các từ khóa phù hợp phải là một tín hiệu mạnh hơn.

Có các công cụ được xây dựng có mục đích dành riêng để giúp bạn tìm các từ khóa LSI này và những người tin tưởng vào chiến thuật này cũng khuyên bạn nên sử dụng tất cả các loại chiến thuật nghiên cứu từ khóa khác để xác định chúng.

Bằng chứng chống lại LSI như một yếu tố xếp hạng

John Mueller của Google đã rất rõ ràng về vấn đề này:

“… Chúng tôi không có khái niệm về các từ khóa LSI. Vì vậy, đó là điều bạn hoàn toàn có thể bỏ qua. “

Có một sự hoài nghi lành mạnh trong SEO rằng Google có thể nói những điều khiến chúng ta đi chệch hướng nhằm bảo vệ tính toàn vẹn của thuật toán. Vì vậy, chúng ta hãy tìm hiểu ở đây.

Trước tiên, điều quan trọng là phải hiểu LSI là gì và nó đến từ đâu.

Cấu trúc ngữ nghĩa tiềm ẩn nổi lên như một phương pháp luận để lấy các đối tượng văn bản từ các tệp được lưu trữ trong hệ thống máy tính vào cuối những năm 1980. Do đó, đây là một ví dụ về một trong những khái niệm truy xuất thông tin (IR) trước đây có sẵn cho các lập trình viên.

Khi dung lượng lưu trữ của máy tính được cải thiện và các bộ dữ liệu điện tử có sẵn ngày càng lớn về quy mô, thì việc xác định chính xác những gì người ta đang tìm kiếm trong bộ sưu tập đó trở nên khó khăn hơn.

Các nhà nghiên cứu đã mô tả vấn đề mà họ đang cố gắng giải quyết trong đơn xin cấp bằng sáng chế được nộp ngày 15 tháng 9 năm 1988:

“Hầu hết các hệ thống vẫn yêu cầu người dùng hoặc nhà cung cấp thông tin chỉ định các mối quan hệ và liên kết rõ ràng giữa các đối tượng dữ liệu hoặc đối tượng văn bản, do đó làm cho hệ thống tẻ nhạt khi sử dụng hoặc áp dụng cho các tệp thông tin máy tính lớn, không đồng nhất mà nội dung có thể không quen thuộc với người dùng. ”

Đối sánh từ khóa đã được sử dụng trong IR vào thời điểm đó, nhưng những hạn chế của nó đã lộ rõ ​​từ rất lâu trước khi Google ra đời.

Thông thường, những từ mà một người sử dụng để tìm kiếm thông tin họ tìm kiếm không khớp chính xác với những từ được sử dụng trong thông tin được lập chỉ mục.

Có hai lý do cho việc này:

  • Từ đồng nghĩa: phạm vi đa dạng của các từ được sử dụng để mô tả một đối tượng hoặc ý tưởng duy nhất dẫn đến kết quả có liên quan bị bỏ sót.
  • Đa nghĩa: các nghĩa khác nhau của một từ dẫn đến kết quả không liên quan được truy xuất.

Đây vẫn là những vấn đề ngày nay và bạn có thể tưởng tượng Google sẽ là một vấn đề đau đầu như thế nào.

Tuy nhiên, các phương pháp luận và công nghệ mà Google sử dụng để giải quyết vấn đề liên quan từ lâu đã chuyển từ LSI.

Những gì LSI đã làm là tự động tạo ra một “không gian ngữ nghĩa” để truy xuất thông tin.

Như bằng sáng chế giải thích, LSI đã coi dữ liệu liên kết không đáng tin cậy này như một vấn đề thống kê.

Không tìm hiểu kỹ về cỏ dại, các nhà nghiên cứu này về cơ bản tin rằng có một cấu trúc ngữ nghĩa tiềm ẩn tiềm ẩn mà họ có thể lấy ra từ dữ liệu sử dụng từ.

Làm như vậy sẽ tiết lộ ý nghĩa tiềm ẩn và cho phép hệ thống trả lại các kết quả có liên quan hơn – và chỉ những kết quả phù hợp nhất – ngay cả khi không có kết quả từ khóa chính xác nào.

Đây là quy trình LSI thực sự trông như thế nào:

Và đây là điều quan trọng nhất bạn cần lưu ý về minh họa ở trên về phương pháp luận này từ đơn xin cấp bằng sáng chế: có hai quá trình riêng biệt xảy ra.

Đầu tiên, tập hợp hoặc chỉ mục trải qua Phân tích ngữ nghĩa tiềm ẩn.

Thứ hai, truy vấn được phân tích và chỉ mục đã được xử lý sau đó được tìm kiếm các điểm tương đồng.

Và đó là vấn đề cơ bản với LSI như một tín hiệu xếp hạng tìm kiếm của Google.

Chỉ mục của Google rất lớn với hàng trăm tỷ trang và đang phát triển không ngừng.

Mỗi khi người dùng nhập một truy vấn, Google sẽ sắp xếp thông qua chỉ mục của nó trong một phần nhỏ của giây để tìm ra câu trả lời tốt nhất.

Sử dụng phương pháp trên trong thuật toán sẽ yêu cầu Google:

  • Tạo lại không gian ngữ nghĩa đó bằng cách sử dụng LSA trên toàn bộ chỉ mục của nó.
  • Phân tích ý nghĩa ngữ nghĩa của truy vấn.
  • Tìm tất cả các điểm tương đồng giữa ý nghĩa ngữ nghĩa của truy vấn và tài liệu trong không gian ngữ nghĩa được tạo ra từ việc phân tích toàn bộ chỉ mục.
  • Sắp xếp và xếp hạng các kết quả đó.

Đó là một sự đơn giản hóa quá mức, nhưng vấn đề là đây không phải là một quá trình có thể mở rộng.

Điều này sẽ rất hữu ích cho các bộ sưu tập thông tin nhỏ. Chẳng hạn, nó rất hữu ích khi hiển thị các báo cáo có liên quan bên trong kho lưu trữ tài liệu kỹ thuật được vi tính hóa của một công ty.

Đơn xin cấp bằng sáng chế minh họa cách LSI hoạt động bằng cách sử dụng một bộ sưu tập gồm chín tài liệu. Đó là những gì nó được thiết kế để làm. LSI là sơ khai về truy xuất thông tin trên máy tính.

Lập chỉ mục ngữ nghĩa tiềm ẩn như một yếu tố xếp hạng: Nhận định của chúng tôi

Mặc dù các nguyên tắc cơ bản của việc loại bỏ tiếng ồn bằng cách xác định mức độ liên quan về ngữ nghĩa chắc chắn đã thông báo cho sự phát triển trong xếp hạng tìm kiếm kể từ khi LSA / LSI được cấp bằng sáng chế, bản thân LSI không có ứng dụng hữu ích nào trong SEO ngày nay.

Nó vẫn chưa được loại trừ hoàn toàn, nhưng không có bằng chứng nào cho thấy Google đã từng sử dụng LSI để xếp hạng kết quả. Và chắc chắn ngày nay Google không sử dụng các từ khóa LSI hoặc LSI để xếp hạng kết quả tìm kiếm.

Những người khuyên bạn nên sử dụng từ khóa LSI đang dựa vào một khái niệm mà họ không hiểu lắm để cố gắng giải thích tại sao các cách mà các từ có liên quan (hoặc không) lại quan trọng trong SEO.

Mức độ liên quan và mục đích là những cân nhắc cơ bản trong thuật toán xếp hạng tìm kiếm của Google.

Đó là hai trong số những câu hỏi lớn mà họ đang cố gắng giải quyết để tìm ra câu trả lời tốt nhất cho bất kỳ truy vấn nào.

Từ đồng nghĩa và đa nghĩa vẫn là những thách thức lớn.

Ngữ nghĩa – nghĩa là, sự hiểu biết của chúng ta về các nghĩa khác nhau của các từ và cách chúng liên quan – là điều cần thiết để tạo ra các kết quả tìm kiếm phù hợp hơn.

Nhưng LSI không liên quan gì đến điều đó.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *