Trong các bài viết trước, Stringee đã cùng các bạn tìm hiểu về microservices. Nhắc đến microservices chúng ta không thể không nhắc đến các message broker đóng vai trò cực kỳ quan trọng trong mô hình này. Tuần này, chúng ta sẽ cùng tìm hiểu về Kafka, một hệ thống pub/sub phân tán rất thông dụng hiện nay.

1. Kafka là gì?

Kafka là một hệ thống message pub/sub phân tán. Các bên thực hiện public dữ liệu được gọi là producer, bên subscribe và nhận dữ liệu theo các topic được gọi là consumer. Kafka có khả năng truyền một lượng lớn các message trong thời gian thực. Ngoài ra, Kafka cung cấp cơ chế offset cho phép các consumer có thể đọc lại các tin nhắn theo một hàng đợi được lưu trên ổ đĩa đảm bảo an toàn.

Kafka cung cấp một cơ chế cluster sử dụng zookeeper để tạo dựng và duy trì kết nối giữa các node. Các message sẽ được replicate trong cluster giúp phòng tránh mất dữ liệu.

2. Các khái niệm cơ bản

Cấu trúc Kafka bao gồm các thành phần sau:

  • PRODUCER: Kafka lưu, phân loại message theo topic, sử dụng producer để publish message vào các topic. Dữ liệu được gửi đến partition của topic lưu trữ trên Broker.
  • CONSUMER: Kafka sử dụng consumer để subscribe vào topic, các consumer được định danh bằng các group name. Nhiều consumer có thể cùng đọc một topic.
  • TOPIC: Dữ liệu truyền trong Kafka theo topic, khi cần truyền dữ liệu cho các ứng dụng khác nhau thì sẽ tạo ra các topic khác nhau.
  • PARTITION: Đây là nơi dữ liệu cho một topic được lưu trữ. Một topic có thể có một hay nhiều partition. Trên mỗi partition thì dữ liệu lưu trữ cố định và được gán cho một ID gọi là offset. Trong một Kafka cluster thì một partition có thể replicate (sao chép) ra nhiều bản. Trong đó có một bản leader chịu trách nhiệm đọc ghi dữ liệu và các bản còn lại gọi là follower. Khi bản leader bị lỗi thì sẽ có một bản follower lên làm leader thay thế. Nếu muốn dùng nhiều consumer đọc song song dữ liệu của một topic thì topic đó cần phải có nhiều partition.
  • BROKER: Kafka cluster là một set các server, mỗi một set này được gọi là 1 broker
  • ZOOKEEPER: được dùng để quản lý và bố trí các broker.

3. Tại sao nên sử dụng Kafka?

Có rất nhiều ưu điểm chúng ta có thể nhắc đến khi được hỏi lý do tại sao lại chọn sử dụng Kafka. Dưới đây là một vài nguyên nhân chúng ta có thể nhắc đến:

  • Kafka là một dự án open source, được đóng gói hoàn chỉnh
  • Có khả năng chịu lỗi cao
  • Hiệu năng tốt, dễ dàng mở rộng

4. Kafka có thể được sử dụng như thế nào?

  • Sử dụng như một hệ thống message queue thay thế cho ActiveMQ hay RabbitMQ
  • Website Activity Monitoring: theo dõi hoạt động của website.
  • Stream Processing: Kafka là một hệ thống rất thích hợp cho việc xử lý dòng dữ liệu trong thời gian thực. Khi dữ liệu của một topic được thêm mới ngay lập tức được ghi vào hệ thống và truyền đến cho bên nhận. Ngoài ra Kafka còn là một hệ thống có đặc tính durability dữ liệu, có thể được lưu trữ an toàn cho đến khi bên nhận sẵn sàng nhận nó.
  • Log Aggregation: tổng hợp log.
  • Metrics Collection: thu thập dữ liệu, tracking hành động người dùng như các thông số như page view, search action của user sẽ được publish vào một topic và sẽ được xử lý sau.
  • Event-Sourcing: Lưu lại trạng thái của hệ thống để có thể tái hiện trong trường hợp system bị down.

>>> Xem thêm bài viết:

5. Use case Kafka cho thương mại điện tử

Một hệ thống thương mại điện tử có nhiều server thực hiện các tác vụ khác nhau. Tất cả các server này đều sẽ giao tiếp với database server để đọc ghi dữ liệu.

Vì vậy sẽ có rất nhiều data pipeline kết nối từ rất nhiều server khác đến database server này. Cơ cấu như sau:

lập trình web

Nhìn đơn giản vậy thôi chứ đây là hệ thống nhỏ, đối với hệ thống lớn hơn thì nó sẽ như này:

kafka là gì

Lúc này data pipeline sẽ phức tạp khủng khiếp do gia tăng lượng hệ thống server. Nếu ta sử dụng Kafka tách rời các data pipeline giữa các hệ thống thì việc giao tiếp giữa các hệ thống trở nên đơn giản hơn và dễ quản lý hơn.

kafka là gì

 

Kết bài

Qua bài viết này, chúng ta đã cùng nhau tìm hiểu về Kafka, một hệ thống phân tán có thể đóng vai trò một message broker trong một hệ thống lớn. Cùng follow chúng tôi để tìm hiểu thêm nhiều kiến thức mới lạ khác nhé.


Stringee Communication APIs là giải pháp cung cấp các tính năng giao tiếp như gọi thoại, gọi video, tin nhắn chat, SMS hay tổng đài CSKH cho phép tích hợp trực tiếp vào ứng dụng/website của doanh nghiệp nhanh chóng. Nhờ đó giúp tiết kiệm đến 80% thời gian và chi phí cho doanh nghiệp bởi thông thường nếu tự phát triển các tính năng này có thể mất từ 1 - 3 năm.

Bộ API giao tiếp của Stringee hiện đang được tin dùng bởi các doanh nghiệp ở mọi quy mô, lĩnh vực ngành nghề như TPBank, VOVBacsi24, VNDirect, Shinhan Finance, Ahamove, Logivan, Homedy,  Adavigo, bTaskee…

Quý bạn đọc quan tâm xin mời đăng ký NHẬN TƯ VẤN TẠI ĐÂY: