AI Agent – RAG & Vector database Embeddings


🎯1. 什麼是 RAG?

RAG 代表 檢索增強生成 (Retrieval-Augmented Generation)

它是一種框架或架構,透過在 LLM 生成回應之前,讓它能存取最新、外部且特定領域的知識,從而增強其能力。你可以將其視為賦予 LLM 一種針對可信任資料庫的即時「查詢」能力。

📜 AquaStream 內部知識庫範例

讓我們想像一個情境:「AquaStream 水處理系統」公司有一個龐大且複雜的內部手冊。這本手冊包含原始 LLM 從未訓練過的細節。

以下是儲存在 RAG 系統知識庫中的兩段簡短、相關的摘錄:

文件編號內容摘錄(「檢索」資料)
Doc-A14「所有在 2024 年 1 月 1 日之後購買的 AquaStream Model 500 過濾裝置 的保固期為 24 個月。這僅涵蓋材料和工廠工藝的缺陷。」
Doc-B21「要啟動 Model 500 的保固索賠,客戶必須將序號和購買證明通過電子郵件發送至 claims@aquastream.com。初次提交索賠不提供電話支援。」

❓ 使用者查詢

一位新員工向 LLM 提問:

「Model 500 的保固期是多久?客戶如何開始索賠?」

🧠 RAG 流程運作(實際案例)

1. 檢索 (R):

  • RAG 系統接收到查詢。
  • 它搜尋 AquaStream 知識庫(內部手冊)。
  • 它識別出 Doc-A14Doc-B21 是最相關的摘錄。

2. 增強 (A):

  • RAG 系統將原始查詢與檢索到的摘錄結合起來,創建一個新的、增強的提示發送給 LLM。

發送給 LLM 的增強提示:

「請根據以下內容回答問題:『Model 500 的保固期是多久?客戶如何開始索賠?』

內容:

  1. 『所有在 2024 年 1 月 1 日之後購買的 AquaStream Model 500 過濾裝置的保固期為 24 個月。這僅涵蓋材料和工廠工藝的缺陷。』
  2. 『要啟動 Model 500 的保固索賠,客戶必須將序號和購買證明通過電子郵件發送至 claims@aquastream.com。初次提交索賠不提供電話支援。』」

3. 生成 (G):

  • LLM 閱讀這個增強的提示。由於答案已明確在上下文中提供,LLM 只需生成一個清晰、準確且有依據的回應。

✅ LLM 的最終 RAG 回應

「AquaStream Model 500 過濾裝置的保固期為 24 個月(適用於 2024 年 1 月 1 日之後購買的裝置),涵蓋材料和工廠工藝的缺陷。

要啟動保固索賠,客戶必須將裝置的序號和購買證明通過電子郵件發送至 claims@aquastream.com。請注意,初次索賠不能通過電話支援提交。」

(來源: AquaStream 內部手冊, Doc-A14 & Doc-B21)


關鍵要點: LLM 以前並不知道「24 個月」這個細節。RAG 系統即時為它提供了這個關鍵的、專有資訊,從而確保了高度準確的回應。


📐2. 向量資料庫與嵌入 (Vector Databases and Embeddings)

理解向量資料庫是掌握 RAG 系統檢索步驟背後技術的關鍵。

🧠 核心問題:電腦如何「理解」意義?

傳統資料庫搜尋的是完全的關鍵字匹配。如果你搜尋「狗 (dog)」,它不會找到包含「犬科動物 (canine)」這個詞的文件。這對於理解人類查詢(通常有許多不同的措辭)來說是沒有用的。

向量資料庫透過將所有資訊——包括使用者的查詢和文件——以其意義而非其詞語來表示,從而解決了這個問題。

1. 什麼是嵌入?(將文字轉換為意義)

嵌入 (embedding) 是一個文字片段(一個詞、句子或文件區塊)的數字表示,它捕捉了該片段的意義上下文

  • 它是一個長串數字,或是一個高維空間中的「向量」。
  • 關鍵的特性是,意義相似的文字,它們的向量在這個空間中的數字距離會很接近

2. 向量資料庫的作用(搜尋)

當 RAG 系統執行檢索步驟時,會發生以下情況:

  1. 查詢編碼: 你的查詢(例如:「保固期是多久?」)首先會通過一個專業的模型(稱為嵌入模型),將其轉換為單一的數字查詢向量
  2. 相似度搜尋: RAG 系統將此查詢向量發送到向量資料庫。資料庫的工作是快速找到那些最接近(最相似)查詢向量的預存文件向量。這些向量之間的距離是通過 餘弦相似度 (cosine similarity) 等技術進行數學測量的——距離越小,摘錄的相關性越高。
  3. 檢索: 資料庫返回與最接近向量相關聯的實際文字摘錄(例如:我們前面例子中的 Doc-A14 和 Doc-B21)。

整個過程確保了 RAG 系統是基於概念相關性(而不僅僅是關鍵字匹配)來檢索資訊的,這是其準確性的基石。