AI Basic Concept

Những khái niệm cơ bản về AI như LLM, Token.

Prompt: Là toàn bộ đoạn văn bản, câu hỏi hoặc yêu cầu mà bạn nhập vào để AI xử lý.
Prompt Engineering:
Là nghệ thuật và kỹ thuật thiết kế, tối ưu hóa câu lệnh để cấu trúc dữ liệu đầu vào sao cho mô hình AI đưa ra câu trả lời chính xác, tối ưu và đúng ngữ cảnh nhất.
Hallucination: Bịa đặt, bịa chuyện.
Fine-Tuning (Tinh Chỉnh):
Sau khi có nền tảng từ Pre-training, mô hình được huấn luyện tiếp với một tập dữ liệu nhỏ hơn, có chọn lọc và chuyên sâu để phục vụ một mục đích cụ thể (ví dụ: tinh chỉnh để chuyên viết code, chuyên tư vấn y tế, hoặc chuyên chat trò chuyện).
RLHF (Reinforcement Learning from Human Feedback)
Học tăng cường từ phản hồi của con người
Đây là bước quan trọng để "uốn nắn" AI. Con người sẽ đánh giá các câu trả lời của AI (câu nào tốt, câu nào độc hại, câu nào sai), từ đó thuật toán sẽ điều chỉnh để AI ngày càng thân thiện, an toàn và hữu ích hơn với con người.
RAG (Retrieval-Augmented Generation - Tạo lập tăng cường tra cứu)
Một kỹ thuật cực kỳ phổ biến hiện nay. Thay vì chỉ dựa vào kiến thức có sẵn trong "não", AI sẽ được kết nối với một nguồn dữ liệu bên ngoài (file PDF, database của công ty, internet). Khi bạn hỏi, AI sẽ đi tra cứu trước, tìm tài liệu liên quan, rồi mới dùng năng lực ngôn ngữ của nó để tóm tắt và trả lời. Điều này giảm thiểu tối đa hiện tượng Hallucination (ảo tưởng).
Agent / AI Agent (Tác nhân AI)
Không chỉ dừng lại ở việc trò chuyện, Agent là một hệ thống AI được cấp quyền tự chủ để thực hiện các chuỗi hành động phức tạp. Nó có thể tự lên kế hoạch, tự sử dụng các công cụ (duyệt web, chạy code, gọi API) để hoàn thành một mục tiêu lớn mà người dùng giao cho.

1. LLM (Large Language Model):

Mô hình ngôn ngữ lớn. Đây là các mô hình AI (như GPT, Claude, Grok, Llama...) được huấn luyện trên hàng tỷ hoặc hàng nghìn tỷ từ, có khả năng hiểu và sinh ra văn bản giống con người. LLM là một cỗ máy dự đoán token tiếp theo cực kỳ mạnh.
Một số LLM nổi tiếng hiện nay: GPT, Claude, Gemini, Llama, Qwen, DeepSeek, ...
Large (lớn):
Parameter giống như "trọng số kiến thức".

Model	Parameters
7B	7 tỷ
13B	13 tỷ
70B	70 tỷ
405B	405 tỷ

Ví dụ:

Hà Nội là thủ đô của

thì LLM sẽ dự đoán là

Việt Nam

vì trong dữ liệu huấn luyện nó đã thấy mẫu này rất nhiều lần.

1.1 LLM thực sự hoạt động như thế nào?

Khi bạn nhập:

Giải thích Java Spring Boot

LLM thực hiện:

Bước 1: Tokenization

Chuyển câu thành token.

["Giải", " thích", " Java", " Spring", " Boot"]

Bước 2: Embedding

Mỗi token được biến thành vector số.

Ví dụ:

Java
→ [0.12, -0.54, 0.89, ...]

Máy tính không hiểu chữ "Java".

Máy tính chỉ hiểu số.

Bước 3: Transformer xử lý

Đây là phần "bộ não".

Transformer dùng cơ chế:

Self-Attention

Để hiểu mối liên hệ giữa các từ.

Ví dụ:

Nam mua một chiếc xe mới.
Anh ấy rất thích nó.

LLM hiểu:

Anh ấy = Nam
Nó = chiếc xe

nhờ Attention.

Bước 4: Dự đoán token tiếp theo

Ví dụ:

Spring Boot là framework ...

LLM tính xác suất:

Java      70%
phổ biến  15%
web       10%
...

rồi chọn token phù hợp.

Bước 5: Lặp lại

Spring Boot là framework

↓

Spring Boot là framework Java

↓

Spring Boot là framework Java phổ biến

↓

...

cho đến khi hoàn thành câu trả lời.

2. Tại sao LLM đôi khi bịa?

Vì nhiệm vụ của nó là:

Predict next token

KHÔNG PHẢI:

Find truth

Ví dụ: Bạn hỏi:

Ai là CEO của công ty XYZ?

Nếu không biết:

Con người:

Tôi không biết.

LLM có thể:

CEO là Nguyễn Văn A.

vì đó là chuỗi token có vẻ hợp lý nhất. Đây gọi là Hallucination.

3. Context Window ảnh hưởng thế nào?

LLM không nhớ toàn bộ cuộc trò chuyện mãi mãi. Nó chỉ nhìn thấy một cửa sổ ngữ cảnh. Ví dụ: 100k tokens. Khi vượt quá, thông tin đầu cuộc trò chuyện có thể bị loại bỏ. Giống như RAM hơn là ổ cứng.

Để tiết kiệm token và câu hỏi sau không cần thông tin dữ liệu từ câu hỏi trước thì nên Clear context.
Giữ context dài sẽ tốn nhiều token KHI làm project, task liên tục.

4. RAG (Retrieval-Augmented Generation)

Retrieval = tìm kiếm dữ liệu liên quan
Generation = để LLM tạo câu trả lời

Thay vì chỉ dựa vào kiến thức đã học khi training, LLM sẽ được cung cấp thêm tài liệu thực tế trước khi trả lời.

Tại sao cần RAG?

Giả sử công ty bạn có tài liệu nội bộ:

Nghỉ phép năm: 15 ngày
Làm việc Hybrid: 3 ngày/tuần

Bạn hỏi AI:

Chính sách nghỉ phép của công ty tôi là gì?

LLM bình thường sẽ không biết vì tài liệu đó không có trong dữ liệu huấn luyện.

RAG sẽ:

Câu hỏi
    ↓
Tìm tài liệu liên quan
    ↓
Đưa tài liệu vào Context
    ↓
LLM trả lời

Kết quả:

Theo tài liệu nội bộ, nhân viên được nghỉ phép 15 ngày/năm.

Tài liệu RAG

PDF, Work file (upload)
Confluence, Wiki, Source Code (link)
Database, ....

RAG khác Fine-tuning thế nào?

RAG	Fine-tuning
Không huấn luyện lại model	Huấn luyện lại model
Dữ liệu cập nhật ngay	Phải train lại
Rẻ	Đắt
Phù hợp tài liệu nội bộ	Phù hợp thay đổi hành vi model

4.1 Tại sao RAG lại là "Cứu cánh" cho doanh nghiệp?

So với việc phải bỏ ra hàng triệu USD để Fine-tuning (huấn luyện lại) một mô hình LLM bằng dữ liệu nội bộ, RAG chiến thắng áp đảo nhờ những ưu điểm:

Giải quyết triệt để Hallucination: AI buộc phải trả lời dựa trên "bằng chứng" được cung cấp, giảm thiểu tối đa việc nói nhảm.
Cập nhật dữ liệu theo thời gian thực (Real-time): Nếu quy định hay giá sản phẩm của công ty thay đổi, bạn chỉ cần cập nhật file PDF trong database. AI sẽ lập tức trả lời theo giá mới mà không cần huấn luyện lại từ đầu.
Bảo mật và phân quyền dữ liệu: Bạn có thể thiết lập cấu trúc: Nhân viên phòng nhân sự thì chỉ tra cứu được tài liệu nhân sự, nhân viên kỹ thuật chỉ tra được tài liệu kỹ thuật. Điều mà Fine-tuning không thể làm được.
Tiết kiệm chi phí: Chi phí lưu trữ và tra cứu trên Vector DB rẻ hơn hàng nghìn lần so với chi phí GPU để huấn luyện lại LLM.

4.2 Những thách thức nâng cao trong RAG

RAG cơ bản (Naive RAG) rất dễ làm, nhưng để làm RAG chạy mượt mà và thông minh trong thực tế (Advanced RAG) thì phải giải quyết được các bài toán sau:

Garbage in, Garbage out (Rác vào thì Rác ra): Nếu thuật toán cắt nhỏ văn bản (Chunking) cắt đôi một câu quan trọng, hoặc Embedding Model tìm sai đoạn văn bản, LLM sẽ nhận được thông tin rác và trả lời sai.
Mất mát ở giữa (Lost in the Middle): Các LLM có xu hướng chú ý đến thông tin ở đầu và cuối Prompt hơn là ở giữa. Nếu đoạn văn bản chứa câu trả lời nằm ở giữa đống tài liệu tra cứu, AI có thể bỏ sót.
Kỹ thuật Reranking (Tái xếp hạng): Để giải quyết vấn đề trên, các hệ thống RAG nâng cao sẽ dùng thêm một mô hình phụ (Reranker) để thẩm định lại một lần nữa: Trong 10 đoạn văn vừa tìm được, đoạn nào thực sự chứa câu trả lời thì đẩy lên trên cùng trước khi đưa vào LLM.