BERT Algorithm Là Gì? Khám phá ý nghĩa, hoạt động của BERT

BERT Algorithm là công cụ xử lý ngôn ngữ hữu ích do Google sáng lập

BERT Algorithm là gì? Nó có ý nghĩa gì đối với kết quả tìm kiếm của Google? Đây là chủ đề không thể bỏ qua khi ai đó muốn khám phá về những thuật toán của Google. Chính vì vậy, trong bài viết dưới đây, mình sẽ giải đáp chi tiết những thắc mắc này cho bạn đọc. Cũng như mang tới góc nhìn sâu hơn về thuật toán quan trọng này của công cụ tìm kiếm!

Lịch sử của thuật toán BERT 

BERT Algorithm bắt đầu được triển khai trong hệ thống tìm kiếm của Google vào năm 2019 cho những truy vấn bằng tiếng Anh, bao gồm cả những đoạn trích nổi bật. [caption id="attachment_11502" align="aligncenter" width="600"]BERT Algorithm là công cụ xử lý ngôn ngữ hữu ích do Google sáng lập BERT Algorithm là công cụ xử lý ngôn ngữ hữu ích do Google sáng lập[/caption] Google đang nỗ lực để mở rộng thuật toán này cho tất cả những ngôn ngữ mà họ cung cấp tìm kiếm trong tương lai gần. Theo mình biết, một mô hình BERT cũng đang được sử dụng để cải thiện những đoạn trích đặc trưng ở hơn hai mươi quốc gia.

BERT Algorithm là gì?

BERT chính là viết tắt của cụm từ được dùng để biểu diễn chi tiết về mã hóa hai chiều. Đây là một kỹ thuật dựa trên mạng Nơron để đào tạo trước xử lý ngôn ngữ tự nhiên Bằng cách sử dụng tiếng Anh đơn giản, nó có thể được sử dụng để giúp Google phân biệt tốt hơn những ngữ cảnh của các từ trong những truy vấn tìm kiếm. Ví dụ: Trong những cụm từ “nice to five(chín đến năm)” và “a quarter to five(một phần từ đến năm)”, từ “to(đến)” có hai ý nghĩa hoàn toàn khác nhau:  Nếu như con người có thể dễ dàng nhìn thấy sự khác biệt này thì điều đó lại có phần khó khăn hơn đối với công cụ tìm kiếm. BERT được thiết kế để phân biệt giữa những sắc thái như vậy nhằm tạo nên những kết quả tìm kiếm phù hợp hơn cho người xem. BERT bắt đầu trở thành nguồn mở của Google vào năm 2018. Điều này cũng đồng nghĩa với việc bất kỳ ai cũng có thể dùng BERT để đào tạo hệ thống xử lý ngôn ngữ của riêng họ cho những câu trả lời hay nhiệm vụ khác.

Mạng Nơron là gì?

Mạng Nơron của những thuật toán được thiết kế để nhận dạng mẫu, phân loại nội dung hình ảnh, nhận dạng chữ viết tay. [caption id="attachment_11503" align="aligncenter" width="660"]Mạng Nơron là thuật toán được Google sử dụng để nhận dạng ngôn ngữ dễ dàng hơn Mạng Nơron là thuật toán được Google sử dụng để nhận dạng ngôn ngữ dễ dàng hơn[/caption] Thậm chí nó còn được sử dụng làm dự đoán xu hướng trên thị trường tài chính. Đây là một số ứng dụng phổ biến trong thế giới thực của mạng Nơron, chưa kể tới những ứng dụng tìm kiếm liên quan tới mô hình nhấp chuột.  Cụ thể, mạng lưới này được tạo dựng dựa trên những dữ liệu nhất định để nhận ra những mẫu. Và trong đó, BERT chính là công cụ đã được đào tạo trước bằng cách sử dụng kho dữ liệu văn bản thuần túy từ Wikipedia.

Xử lý ngôn ngữ tự nhiên là gì?

Xử lý ngôn ngữ tự nhiên(NLP) đề cập tới một nhánh của trí tuệ nhân tạo liên quan tới ngôn ngữ học, với mục đích cho phép máy tính thấu hiểu cách mà con người giao tiếp tự nhiên. Ví dụ về những giá trị hữu ích mà NLP mang lại bao gồm những công cụ lắng nghe xã hội, Chatbot và gợi ý từ điện thoại thông minh của bạn. Về bản chất, NLP không phải là một tính năng mới đối với những công cụ tìm kiếm. Tuy nhiên, BERT thể hiện sự tiến bộ trong NLP thông qua việc đào tạo hai chiều.

BERT Algorithm hoạt động như thế nào?

Theo mình, điểm đột phá của BERT nằm ở khả năng đào tạo những mô hình ngôn ngữ dựa trên toàn bộ tập hợp những từ trong một truy vấn(đào tạo hai chiều) thay vì cách đào tạo truyền thống trên những chuỗi những từ có thứ tự(từ trái sang phải).  [caption id="attachment_11504" align="aligncenter" width="600"]Thuật ngữ BERT hỗ trợ công cụ tìm kiếm lý giải chính xác nội dung của những truy vấn tìm kiếm Thuật ngữ BERT hỗ trợ công cụ tìm kiếm lý giải chính xác nội dung của những truy vấn tìm kiếm[/caption] BERT cho phép mô hình ngôn ngữ học ngữ cảnh của từ dựa theo những từ xung quanh thay vì chỉ phân giải những từ trước và sau nó. Google gọi BERT là “ công cụ hai chiều sâu sắc” bởi vì nó biểu diễn theo ngữ cảnh của từ, bắt đầu “từ tận cùng của một mạng Nơron sâu”.

Ví dụ về cách hoạt động của BERT

Ví dụ 1: Từ “Bank(ngân hàng)” có thể được diễn đạt không có ngữ cảnh trong những cụm từ “Bank Account(tài khoản ngân hàng)” và “Bank Of The River(bờ sông)”. Thay vào đó, những mô hình ngữ cảnh sẽ tạo ra một đại diện cụ thể của mỗi từ dựa theo những từ khác trong câu.  Ví dụ 2: Trong câu “I accessed the bank account(tôi đã truy cập vào tài khoản ngân hàng)” thì mô hình ngữ cảnh đơn hướng sẽ đại diện cho “Bank(ngân hàng)” dựa trên cụm từ “I accessed(tôi đã truy cập)” thay vì “account(tài khoản).  Như vậy, chúng ta có thể dễ dàng nhận ra rằng BERT đã đại diện cho từ “Bank” thông qua việc sử dụng tất cả ngữ cảnh trước đó và tiếp theo của cụm từ để tìm ra ý nghĩa cuối cùng. Ngoài ra, Google đã đưa ra một số ví dụ về cách ứng dụng của BERT trong tìm kiếm có thể ảnh hưởng tới kết quả:

Ví dụ về cách ứng dụng của BERT

  • Trong một ví dụ điển hình, truy vấn “math practice books for adults(sách luyện tập toán cho người lớn)” trước đây sẽ hiển thị danh sách những quyển sách cho học sinh lớp 6 - 8 ở đầu kết quả tìm kiếm không phải trả tiền.
  • Tuy nhiên, khi BERT được áp dụng, Google sẽ hiển thị danh sách cho một cuốn sách sở hữu tiêu đề là “ Math for Grownups(toán học cho người lớn” ở đầu kết quả.
Một kết quả tìm kiếm thay đổi như mình vừa liệt kê chính là ví dụ phản ánh chân thực nhất về cách hiểu mới cho những truy vấn sử dụng BERT Ở đây, nội dung dành cho giới trẻ sẽ không bị phạt, thay vào đó, danh sách dành riêng cho người lớn sẽ được tìm thấy dễ dàng hơn và phù hợp với từng mục đích của những người tìm kiếm.

Google có thể sử dụng BERT để “hiểu” tất cả các tìm kiếm không?

Không, điều này hoàn toàn không chính xác. BERT Algorithm sẽ nâng cao hiểu biết của Google về 1/10 tìm kiếm bằng tiếng Anh ở Mỹ. Nhận định này càng trở nên ý nghĩa đối với những truy vấn dài, mang tính chất hội thoại nhiều hơn hay những tìm kiếm trong đó những giới từ như “for” hay “to” có thể quyết định trực tiếp tới kết quả tìm kiếm.  Dựa vào chúng, các công cụ tìm kiếm có thể thấu hiểu ngữ cảnh của những từ tồn tại trong truy vấn của bạn. Tuy nhiên, không phải tất cả những truy vấn đều mang tính chất hội thoại hoặc có sự xuất hiện của giới từ.  Những tìm kiếm có thương hiệu và những cụm từ ngắn hơn chỉ là hai ví dụ về những loại truy vấn có thể không yêu cầu xử lý ngôn ngữ tự nhiên của BERT.

Tác động của BERT Algorithm đến đoạn trích nổi bật

Như chúng ta đã thấy trong những ví dụ mình vừa chia sẻ, BERT có thể ảnh hưởng trực tiếp tới kết quả xuất hiện trong những đoạn trích nổi bật khi mà nó được áp dụng. [caption id="attachment_11505" align="aligncenter" width="600"]BERT quyết định nội dung của kết quả tìm kiếm cho những truy vấn nổi bật BERT quyết định nội dung của kết quả tìm kiếm cho những truy vấn nổi bật[/caption] Tiếp theo, trong một ví dụ khác bên dưới, Google sẽ so sánh những đoạn trích nổi bật cho truy vấn “parking on a hill with no curb(đỗ xe trên đồi không có lề đường)”: [caption id="attachment_11506" align="aligncenter" width="800"]Ví dụ cụ thể về truy vấn “parking on a hill with no curb” Ví dụ cụ thể về truy vấn “parking on a hill with no curb”[/caption] Trước đây, một truy vấn như vậy có thể khiến công cụ tìm kiếm của Google nhầm lẫn, chúng sẽ đặt trọng tâm của vấn đề vào từ “Curb(lề đường)” mà bỏ qua từ “No(không)”.  Chính vì các công cụ không hiểu được mức độ quan trọng của từ đó nên sẽ đưa ra một truy vấn không thích hợp với nhu cầu của khán giả. Khi ấy, Google sẽ trả lại kết quả cho việc đậu xe trên đồi có lề đường.

So sánh BERT và RankBrain

Chắc hẳn có không ít SEOer cảm thấy một số khả năng của BERT nghe có vẻ tương tự như phương pháp trí tuệ nhân tạo đầu tiên của Google để thấu hiểu những truy vấn - RankBrain Tuy nhiên, thực tế thì đây là hai thuật toán hoàn toàn khác nhau nhưng có mục đích sử dụng chung là để thông báo kết quả tìm kiếm tốt nhất: [caption id="attachment_11507" align="aligncenter" width="300"]BERT Algorithm và RankBrain đều là những thuật toán quan trọng của Google BERT Algorithm và RankBrain đều là những thuật toán quan trọng của Google[/caption]

RankBrain

BERT Algorithm

Điều đầu tiên cần phải hiểu về RankBrain chính là nó chạy song song với những thuật toán xếp hạng tìm kiếm không phải trả tiền. Và nó được dùng để điều chỉnh lại kết quả được xét bằng những thuật toán đó. Cụ thể, RankBrain điều chỉnh kết quả bằng cách xem xét những truy vấn tìm kiếm hiện tại và tìm ra những truy vấn tương tự trong quá khứ. Sau đó, nó sẽ thực hiện đánh giá những kết quả tìm kiếm cho các truy vấn lịch sử đó.  Một chuyên gia của Google đã cho biết, dựa vào những gì RankBrain nhìn thấy, nó có thể điều chỉnh được kết quả đầu ra của những thuật toán xếp hạng tìm kiếm không phải trả tiền. Ngoài ra, RankBrain cũng giúp Google diễn giải những truy vấn tìm kiếm để có thể hiển thị những kết quả không chứa chính xác các từ xuất hiện trong truy vấn. Trái ngược với RankBrain, BERT Algorithm làm việc theo cách thức hoàn toàn khác.  Nếu như những thuật toán truyền thống cố gắng xem xét nội dung của một trang Web để thấu hiểu nội dung của nó. Thì những thuật toán NLP thường chỉ có thể xem nội dung trước hoặc sau một từ để tìm hiểu ngữ cảnh của nó nhằm thấu hiểu ý nghĩa của từ khóa.  Và thành phần hai chiều của BERT chính là yếu tố góp phần tạo nên sự khác biệt của thuật toán này. Như mình đã đề cập, việc BERT xem xét những nội dung trước và sau của một từ là một cách để nó thông báo cho công cụ tìm kiếm sự hiểu biết về ý nghĩa cũng như mức độ liên quan của từ đó.  Đây chính là một cải tiến vô cùng quan trọng trong việc xử lý ngôn ngữ tự nhiên vì giao tiếp của con người tự nhiên có nhiều lớp và phức tạp.
  Hiện nay, cả BERT Algorithm RankBrain đều đang được Google tận dụng để xử lý những truy vấn và nội dung trang Web nhằm hiểu rõ ý nghĩa của những từ. Nhưng bạn cần biết rằng, BERT không được sinh ra để thay thế RankBrain. Bởi vì Google có thể sử dụng nhiều phương pháp để thấu hiểu một truy vấn.  Chính vì vậy, BERT Algorithm có thể được sử dụng riêng hoặc kết hợp với những thuật toán khác của Google, ví dụ như RankBrain hay bất kỳ sự kết hợp nào khác, tùy thuộc vào những cụm từ tìm kiếm.

BERT ảnh hưởng đến sản phẩm nào khác của Google

Những báo cáo của Google về BERT đã cho thấy nó chỉ liên quan tới tìm kiếm. Tuy nhiên, thực tế là nó cũng có nhiều tác động đến trợ lý.  Khi những truy vấn được thực hiện trên trợ lý, Google sẽ kích hoạt BERT để cung cấp những đoạn trích nổi bật hoặc kết quả Web từ tìm kiếm, những kết quả này có thể bị ảnh hưởng bởi BERT. Google cũng cho biết BERT không được sử dụng cho mục đích quảng cáo. Tuy nhiên, nếu như nó được tích hợp trong tương lai thì thuật toán này có thể giúp giảm bớt một số biến thể gần giống không phù hợp với những nhà quảng cáo.

Có nhất thiết phải tìm cách tối ưu BERT Algorithm không?

Một số chuyên gia cho rằng “Không có gì để tối ưu hóa với BERT Algorithm” hay “Những nguyên tắc cơ bản của chúng tôi khi tìm cách thưởng cho nội dung tuyệt vời vẫn không có thay đổi”. Vậy Google nói gì về việc làm thế nào để xếp hạng tốt hơn? Các chuyên gia nghiên cứu thuật toán của Google chia sẻ:  Hãy đặt người dùng làm trọng tâm và tạo nên những nội dung đáp ứng được mục tiêu tìm kiếm của họ. Và BERT Algorithm đã được thiết kế dựa trên chính nhận định đó. Chính vì vậy, việc cố gắng cung cấp cho người dùng những gì họ muốn là lời khuyên của Google cho mọi nhà phát triển trang Web. Để “tối ưu hóa” trang Web của mình, bạn cần phải tập trung nhiều hơn vào việc xây dựng những nội dung chất lượng, rành mạch. Thay vì thỏa hiệp giữa quá trình tạo nội dung cho khán giả của mình và xây dựng những cụm từ tuyến tính cho các công cụ, máy móc.

Kết luận

Như vậy, bài viết trên đã giúp bạn đọc phần nào lý giải được BERT là gì, cũng như ý nghĩa của nó đối với những kết quả tìm kiếm trên Google. Mình hy vọng rằng những thông tin bổ ích này có thể giúp các SEOer biết thêm nhiều kiến thức bổ ích về BERT Algorithm để xây dựng thành công những chiến lược cải thiện thứ hạng và kiến tạo nội dung tốt nhất cho trang Web của bạn. Chúc bạn thành công!