Cách hoạt động của Máy học trong Tìm kiếm: Mọi thứ bạn cần biết

Bạn muốn biết tại sao và cách SERP được đặt ra và tại sao các trang xếp hạng ở vị trí của chúng? Tìm hiểu cách các công cụ tìm kiếm đang sử dụng máy học.

Trong thế giới SEO, điều quan trọng là phải hiểu hệ thống bạn đang tối ưu hóa.

Bạn cần hiểu cách:

  • Các công cụ tìm kiếm thu thập thông tin và lập chỉ mục các trang web.
  • Chức năng thuật toán tìm kiếm.
  • Các công cụ tìm kiếm coi mục đích của người dùng như một tín hiệu xếp hạng (và khả năng họ sẽ đi đến đâu với mục đích đó).

Một lĩnh vực quan trọng khác cần hiểu là học máy.

Ngày nay, thuật ngữ “máy học” được sử dụng rất nhiều.

Nhưng học máy thực sự tác động đến tìm kiếm và SEO như thế nào?

Chương này sẽ khám phá mọi thứ bạn cần biết về cách các công cụ tìm kiếm sử dụng học máy.

Học máy là gì?

Sẽ rất khó để hiểu cách các công cụ tìm kiếm sử dụng học máy nếu không biết học máy thực sự là gì.

Hãy bắt đầu với định nghĩa (do Đại học Stanford cung cấp trong mô tả khóa học của họ cho Coursera) trước khi chúng ta chuyển sang phần giải thích thực tế:

“Học máy là khoa học giúp máy tính hoạt động mà không cần được lập trình rõ ràng”.

Nói nhanh trước khi chúng ta tiếp tục…

Máy học không giống với Trí tuệ nhân tạo (AI), nhưng đường nét đang bắt đầu mờ hơn một chút với các ứng dụng.

Như đã nói ở trên, học máy là khoa học giúp máy tính đưa ra kết luận dựa trên thông tin nhưng không được lập trình cụ thể về cách hoàn thành nhiệm vụ đã nêu.

Mặt khác, AI là khoa học đằng sau việc tạo ra các hệ thống có hoặc dường như sở hữu trí thông minh giống con người và xử lý thông tin theo cách tương tự.

Hãy nghĩ về sự khác biệt theo cách này:

Máy học là một hệ thống được thiết kế để giải quyết một vấn đề. Nó hoạt động theo toán học để tạo ra giải pháp.

Giải pháp có thể được lập trình cụ thể hoặc do con người thực hiện theo cách thủ công, nhưng không cần đến điều này, giải pháp đến nhanh hơn nhiều.

Một ví dụ điển hình là việc tắt một cỗ máy để truyền qua vô số dữ liệu phác thảo kích thước và vị trí khối u mà không cần lập trình những gì nó đang tìm kiếm. Máy sẽ được cung cấp một danh sách các kết luận lành tính và ác tính đã biết.

Với điều này, sau đó chúng tôi sẽ yêu cầu hệ thống tạo ra một mô hình dự đoán cho các cuộc gặp gỡ trong tương lai với các khối u để tạo ra tỷ lệ cược trước dựa trên dữ liệu được phân tích.

Đây hoàn toàn là toán học.

Vài trăm nhà toán học có thể làm được điều này – nhưng họ sẽ mất nhiều năm (giả sử là một cơ sở dữ liệu rất lớn) và hy vọng rằng không ai trong số họ mắc phải bất kỳ lỗi nào.

Hoặc, nhiệm vụ tương tự này có thể được hoàn thành với học máy – trong thời gian ngắn hơn rất nhiều.

Mặt khác, khi tôi nghĩ đến Trí tuệ nhân tạo, đó là khi tôi bắt đầu nghĩ về một hệ thống có thể liên quan đến quảng cáo và do đó trở nên ít dự đoán hơn.

Một bộ trí tuệ nhân tạo thực hiện cùng một nhiệm vụ có thể chỉ đơn giản là tham chiếu các tài liệu về chủ đề này và đưa ra kết luận từ các nghiên cứu trước đó.

Hoặc nó có thể thêm dữ liệu mới vào hỗn hợp.

Hoặc có thể bắt đầu làm việc trên một hệ thống động cơ điện mới, đã thực hiện nhiệm vụ ban đầu.

Nó có thể sẽ không bị phân tâm trên Facebook, nhưng bạn sẽ đạt được nơi tôi sẽ đến.

Từ khóa là thông minh.

Trong khi nhân tạo, để đáp ứng các tiêu chí, nó sẽ phải là thực, do đó tạo ra các biến số và ẩn số tương tự như những gì chúng ta gặp phải khi tương tác với những người xung quanh.

Quay lại Máy học & Công cụ Tìm kiếm

Ngay bây giờ những gì mà các công cụ tìm kiếm (và hầu hết các nhà khoa học) đang thúc đẩy để phát triển là học máy.

Google có một khóa học miễn phí về nó, đã tạo ra khung học máy của mình là mã nguồn mở TensorFlow và đang đầu tư lớn vào phần cứng để chạy nó.

Về cơ bản, đây là tương lai nên tốt nhất bạn nên hiểu rõ về nó.

Mặc dù chúng tôi không thể liệt kê (hoặc thậm chí biết) mọi ứng dụng của máy học đang diễn ra tại Googleplex, nhưng hãy xem một vài ví dụ đã biết:

RankBrain

Bài viết nào về học máy tại Google sẽ hoàn chỉnh nếu không đề cập đến việc triển khai thuật toán học máy đầu tiên và vẫn có mức độ liên quan cao của họ vào tìm kiếm?

Đúng vậy… chúng ta đang nói về RankBrain.

Về cơ bản, hệ thống chỉ được trang bị với sự hiểu biết về các thực thể (một sự vật hoặc khái niệm là số ít, duy nhất, được xác định rõ và có thể phân biệt được) và có nhiệm vụ tạo ra sự hiểu biết về cách các thực thể đó kết nối trong một truy vấn để giúp hiểu rõ hơn về truy vấn và một tập hợp các câu trả lời hay đã biết.

Đây là những giải thích được đơn giản hóa một cách thô bạo về cả thực thể và RankBrain nhưng nó phục vụ mục đích của chúng tôi ở đây.

Vì vậy, Google đã cung cấp cho hệ thống một số dữ liệu (truy vấn) và có thể là một tập hợp các thực thể đã biết.

Tôi sẽ đoán về quy trình tiếp theo nhưng về mặt logic, hệ thống sau đó sẽ được giao nhiệm vụ tự đào tạo dựa trên tập hợp mầm mống của các thực thể về cách nhận ra các thực thể không xác định mà nó gặp phải.

Hệ thống sẽ khá vô dụng nếu nó không thể hiểu tên phim mới, ngày tháng, v.v.

Một khi hệ thống ngừng hoạt động và tạo ra kết quả khả quan, chúng sẽ giao nhiệm vụ dạy chính nó cách hiểu mối quan hệ giữa các thực thể và dữ liệu nào đang được ngụ ý hoặc yêu cầu trực tiếp và tìm kiếm kết quả thích hợp trong chỉ mục.

Hệ thống này giải quyết nhiều vấn đề gây khó khăn cho Google.

Yêu cầu bao gồm các từ khóa như “Làm cách nào để thay thế màn hình S7” trên một trang về việc thay thế một màn hình sẽ không cần thiết.

Bạn cũng không cần phải bao gồm “sửa chữa” nếu bạn đã bao gồm “thay thế” vì trong ngữ cảnh này, chúng thường ngụ ý cùng một điều.

RankBrain sử dụng học máy để:

  • Liên tục tìm hiểu về tính kết nối của các thực thể và mối quan hệ của chúng.
  • Hiểu khi nào các từ là từ đồng nghĩa và khi nào thì không (thay thế và sửa chữa có thể là từ đồng nghĩa trong trường hợp này nhưng chúng sẽ không xảy ra nếu tôi đang truy vấn “cách sửa xe của tôi”).
  • Hướng dẫn các phần khác của thuật toán để tạo ra SERP chính xác.

Trong lần lặp đầu tiên, RankBrain đã được thử nghiệm trên các truy vấn mà Google chưa từng gặp phải trước đây. Điều này có ý nghĩa hoàn hảo và là một bài kiểm tra tuyệt vời.

Nếu RankBrain có thể cải thiện kết quả cho các truy vấn có khả năng không được tối ưu hóa và sẽ liên quan đến sự kết hợp của các thực thể và dịch vụ cũ và mới, thì một nhóm người dùng có khả năng nhận được kết quả mờ nhạt ngay từ đầu thì nó nên được triển khai trên toàn cầu.

Và đó là vào năm 2016.

Hãy xem hai kết quả mà tôi đã tham khảo ở trên (và đáng chú ý, tôi đã viết đoạn văn và ví dụ, sau đó nghĩ đến việc chụp ảnh màn hình – đây chỉ đơn giản là cách nó hoạt động và hãy tự mình thử… nó hoạt động trong hầu hết các trường hợp trong đó các từ ngữ khác nhau ngụ ý cùng một điều):

Cách hoạt động của Máy học trong Tìm kiếm: Mọi thứ bạn cần biết

Một số khác biệt rất nhỏ về thứ hạng với các trang web số 1 và số 2 chuyển đổi vị trí nhưng về cốt lõi thì kết quả là giống nhau.

Bây giờ, hãy xem ví dụ về ô tô của tôi:

Máy học giúp Google không chỉ hiểu được những điểm tương đồng trong các truy vấn mà chúng ta còn có thể thấy nó xác định rằng nếu tôi cần sửa chiếc xe của mình, tôi có thể cần một thợ cơ khí (hãy gọi cho Google), trong khi để thay thế nó, tôi có thể tham khảo các bộ phận hoặc cần tài liệu của chính phủ để thay thế toàn bộ.

Chúng ta cũng có thể thấy ở đây nơi mà máy học chưa tìm ra hết.

Khi tôi hỏi nó làm thế nào để thay thế chiếc xe của tôi, tôi có thể nói toàn bộ vấn đề hoặc tôi đã liệt kê bộ phận tôi muốn.

Nhưng nó sẽ học… nó vẫn còn sơ khai.

Ngoài ra, tôi là người Canada, vì vậy DMV không thực sự áp dụng.

Vì vậy, ở đây chúng tôi đã thấy một ví dụ về học máy trong việc xác định ý nghĩa truy vấn, bố cục SERP và các khóa hành động cần thiết có thể có để thực hiện ý định của tôi.

Không phải tất cả những thứ đó đều là RankBrain, mà tất cả đều là công nghệ máy học.

Thư rác

Nếu bạn sử dụng Gmail hoặc hầu hết các hệ thống email khác, bạn cũng đang thấy máy học đang hoạt động.

Theo Google, họ hiện đang chặn 99,9% tất cả các email spam và lừa đảo với tỷ lệ dương tính giả chỉ 0,05%.

Họ đang làm điều này bằng cách sử dụng cùng một kỹ thuật cốt lõi – cung cấp cho hệ thống học máy một số dữ liệu và để nó hoạt động.

Nếu một người phải lập trình thủ công tất cả các hoán vị sẽ mang lại tỷ lệ thành công 99,9% trong việc lọc thư rác và điều chỉnh nhanh các kỹ thuật mới thì đó sẽ là một nhiệm vụ khó khăn nếu có thể.

Khi họ làm theo cách này, tỷ lệ thành công là 97% với 1% dương tính giả (có nghĩa là 1% tin nhắn thực của bạn bị gửi vào thư mục spam – không thể chấp nhận được nếu điều đó là quan trọng).

Nhập học máy – thiết lập nó với tất cả các tin nhắn rác mà bạn có thể xác nhận một cách tích cực, để nó xây dựng một mô hình xung quanh những điểm tương đồng giữa chúng, nhập một số tin nhắn mới và trao phần thưởng cho nó vì đã chọn thành công các tin nhắn rác theo thời gian ( và không nhiều) nó sẽ học được nhiều tín hiệu hơn và phản ứng nhanh hơn rất nhiều so với con người.

Đặt nó để theo dõi các tương tác của người dùng với các cấu trúc email mới và khi biết rằng có một kỹ thuật spam mới đang được sử dụng, hãy thêm nó vào hỗn hợp và lọc không chỉ những email đó mà còn những email sử dụng các kỹ thuật tương tự vào thư mục spam.

Vậy Học máy hoạt động như thế nào?

Bài viết này hứa hẹn sẽ là một lời giải thích về học máy, không chỉ là một danh sách các ví dụ.

Tuy nhiên, các ví dụ là cần thiết để minh họa một mô hình khá dễ giải thích.

Đừng nhầm lẫn điều này với dễ xây dựng, chỉ đơn giản ở những gì chúng ta cần biết.

Một mô hình học máy phổ biến tuân theo trình tự sau:

  • Cung cấp cho hệ thống một tập hợp các dữ liệu đã biết. Nghĩa là, một tập hợp dữ liệu với một mảng lớn các biến có thể được kết nối với một kết quả dương hoặc âm đã biết. Điều này được sử dụng để đào tạo hệ thống và cung cấp cho nó một điểm khởi đầu. Về cơ bản, nó hiện hiểu cách nhận biết và cân nhắc các yếu tố dựa trên dữ liệu trong quá khứ để tạo ra một kết quả tích cực.
  • Thiết lập phần thưởng cho thành công. Sau khi hệ thống được điều chỉnh với dữ liệu bắt đầu, nó sẽ được cung cấp dữ liệu mới nhưng không có kết quả dương tính hoặc tiêu cực đã biết. Hệ thống không biết các mối quan hệ của một thực thể mới hoặc liệu một email có phải là thư rác hay không. Khi nó chọn đúng, nó sẽ được trao phần thưởng mặc dù rõ ràng không phải là một thanh sô cô la. Một ví dụ là cung cấp cho hệ thống một giá trị phần thưởng với mục tiêu đạt được con số cao nhất có thể. Mỗi khi nó chọn câu trả lời đúng, điểm này sẽ được cộng thêm.
  • Đặt nó lỏng lẻo. Một khi các chỉ số thành công đủ cao để vượt qua các hệ thống hiện có hoặc đáp ứng một ngưỡng khác, hệ thống học máy có thể được tích hợp với thuật toán nói chung.

Mô hình này được gọi là học có giám sát và nếu suy đoán của tôi là đúng, thì đó là mô hình được sử dụng trong phần lớn các triển khai thuật toán của Google.

Một mô hình học máy khác là Mô hình không giám sát.

Để rút ra từ ví dụ được sử dụng trong một khóa học tuyệt vời trên Coursera về học máy, đây là mô hình được sử dụng để nhóm các câu chuyện tương tự trong Google Tin tức và người ta có thể suy ra rằng nó được sử dụng ở những nơi khác như nhận dạng và nhóm các hình ảnh có cùng hoặc những người tương tự trong Google Hình ảnh.

Trong mô hình này, hệ thống không được cho biết nó đang tìm kiếm gì mà chỉ được hướng dẫn đơn giản là nhóm các thực thể (hình ảnh, bài viết, v.v.) thành các nhóm theo các đặc điểm tương tự (các thực thể mà chúng chứa, từ khóa, mối quan hệ, tác giả, v.v.)

Vì sao vấn đề này?

Việc hiểu máy học là gì sẽ rất quan trọng nếu bạn muốn hiểu lý do tại sao và cách SERP được bố trí và tại sao các trang xếp hạng ở vị trí chúng hoạt động.

Một điều cần hiểu là yếu tố thuật toán – đây là điều quan trọng cần chắc chắn – nhưng hiểu hệ thống trong đó các yếu tố đó có trọng số là tầm quan trọng ngang nhau, nếu không muốn nói là lớn hơn.

Ví dụ: nếu tôi đang làm việc cho một công ty bán ô tô, tôi sẽ đặc biệt chú ý đến việc thiếu thông tin có thể sử dụng, có liên quan trong kết quả SERP cho truy vấn được minh họa ở trên.

Kết quả rõ ràng không phải là một thành công. Khám phá nội dung nào sẽ thành công và tạo ra nó.

Chú ý đến các loại nội dung mà Google cho rằng có thể đáp ứng ý định của người dùng (bài đăng, hình ảnh, tin tức, video, mua sắm, đoạn trích nổi bật, v.v.) và cố gắng cung cấp nội dung đó.

Tôi thích nghĩ về học máy và sự phát triển của nó tương đương với việc một kỹ sư của Google ngồi sau mỗi người tìm kiếm, điều chỉnh những gì họ thấy và cách họ nhìn thấy nó trước khi nó được gửi đến thiết bị của họ.

Nhưng tốt hơn – kỹ sư đó được kết nối giống như Borg với mọi kỹ sư khác học hỏi từ các quy tắc toàn cầu.

Nhưng chúng tôi sẽ tìm hiểu sâu hơn về vấn đề đó trong phần tiếp theo về mục đích của người dùng.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *