Từ phiên bản 2.4 của MongoDB, một tính năng cho phép chúng ta có thể tìm kiếm nội dung trong một chuỗi đã được release đó là Text Index. Text Search sử dụng kỹ thuật Stemming để tìm kiếm các từ xác định trong các trường chuỗi bằng việc xóa các Stemming Word như a, an, the… Hiện tại, MongoDB hỗ trợ khoảng 15 ngôn ngữ.

1. Full text search là gì?

Trong truy xuất văn bản, tìm kiếm toàn văn đề cập đến các kỹ thuật tìm kiếm một tài liệu được lưu trữ trên máy tính hoặc một bộ sưu tập trong cơ sở dữ liệu toàn văn. Tìm kiếm toàn văn được phân biệt với tìm kiếm dựa trên siêu dữ liệu hoặc trên các phần của văn bản gốc được trình bày trong cơ sở dữ liệu.

Nói một cách đơn giản, “Full text search” là kỹ thuật tìm kiếm trên “Full text database”, ở đây “Full text database” là cơ sở dữ liệu chứa “toàn bộ” các kí tự (text) của một hoặc một số các tài liệu, bài báo (document) hoặc là của websites.

2. Text search trong MongoDB

MongoDB cho phép chúng ta có thể sử dụng tính năng Full Text Search (FTS) ngay trên chính nó bằng cách sử dụng tính năng Text Search. Lúc đầu, Text Search là một tính năng mang tính thử nghiệm, nhưng bắt đầu từ phiên bản 2.6, cấu hình được kích hoạt theo mặc định. Nhưng nếu bạn đang sử dụng phiên bản trước của MongoDB, bạn cần kích hoạt Text Search với code sau:

>db.adminCommand({setParameter:true,textSearchEnabled:true})

>>> Xem thêm bài viết về MongoDB:

Tìm hiểu về cơ sở dữ liệu phi quan hệ MongoDB

Sử dụng map reduce trong MongoDB

Giới thiệu về GridFS trong MongoDB

3. Tạo Text Index trong MongoDB

Bạn theo dõi Document sau dưới posts collection chứa post_text và tags của nó.

{
   "post_text": "enjoy the mongodb articles on tutorialspoint",
   "tags": [
      "mongodb",
      "tutorialspoint"
   ]
}

Chúng ta sẽ tạo một Text Index trên trường post_text để mà chúng ta có thể tìm kiếm bên trong phần text của posts:

>db.posts.ensureIndex({post_text:"text"})

4. Sử dụng Text Index để tìm kiếm dữ liệu

Lúc này, bạn đã tạo Text Index trên trường post_text, chúng ta sẽ tìm kiếm tất cả posts mà có từ tutorialspoint trong phần text của chúng:

>db.posts.find({$text:{$search:"tutorialspoint"}})

Lệnh trên trả về các Document có từ tutorialspoint trong post_text:

{ 
   "_id" : ObjectId("53493d14d852429c10000002"), 
   "post_text" : "enjoy the mongodb articles on tutorialspoint", 
   "tags" : [ "mongodb", "tutorialspoint" ]
}
{
   "_id" : ObjectId("53493d1fd852429c10000003"), 
   "post_text" : "writing tutorials on mongodb",
   "tags" : [ "mongodb", "tutorial" ] 
}

Nếu bạn đang sử dụng phiên bản MongoDB cũ, bạn phải sử dụng lệnh sau:

>db.posts.runCommand("text",{search:" tutorialspoint "})

Việc sử dụng Text Search cải thiện đáng kể hiệu quả tìm kiếm khi so sánh với tìm kiếm thông thường.

5. Xóa Text Index

Để xóa một Text Index đang tồn tại, đầu tiên tìm tên của chỉ mục bởi sử dụng truy vấn:

>db.posts.getIndexes()

Sau khi lấy tên của chỉ mục từ truy vấn trên, chạy lệnh sau. Ở đây, post_text_text là tên của chỉ mục.

>db.posts.dropIndex("post_text_text")

Kết bài

Qua bài viết này chúng ta đã hiểu được phần nào việc thực hiện text search làm sao cho hiệu quả với MongoDB, mong rằng các kiến thức Stringee mang đến có thể giúp ích cho bạn.


Stringee Communication APIs là giải pháp cung cấp các tính năng giao tiếp như gọi thoại, gọi video, tin nhắn chat, SMS hay tổng đài CSKH cho phép tích hợp trực tiếp vào ứng dụng/website của doanh nghiệp nhanh chóng. Nhờ đó giúp tiết kiệm đến 80% thời gian và chi phí cho doanh nghiệp bởi thông thường nếu tự phát triển các tính năng này có thể mất từ 1 - 3 năm.

Bộ API giao tiếp của Stringee hiện đang được tin dùng bởi các doanh nghiệp ở mọi quy mô, lĩnh vực ngành nghề như TPBank, VOVBacsi24, VNDirect, Shinhan Finance, Ahamove, Logivan, Homedy,  Adavigo, bTaskee…

Quý bạn đọc quan tâm xin mời đăng ký NHẬN TƯ VẤN TẠI ĐÂY: