白皮書 · v0.1
TQI — Token Quality Index
一個 0–100 的 AI API Key 綜合品質分數。所有測量方法、權重、數學定義公開透明。
Layer 1
TL;DR 摘要
TQI 是一個 0–100 的 AI API Key 綜合品質分數, 由六大維度加權計算:
TQI = Availability × 25% + Response Quality × 20% + Speed × 15% + Consistency × 15% + Capacity × 15% + Integrity × 10%
Grade
A+
90–100
Grade
A
80–89
Grade
B
70–79
Grade
C
55–69
Grade
D
40–54
Grade
F
0–39
Layer 2
六維度詳解
Availability · 可用性
25%代表什麼
Key 真的能用嗎?
測量方法
對原廠端點 (Anthropic /v1/messages、OpenAI /v1/chat/completions) 發送最小請求。只有 2xx + 成功解出回應 token 才算通過。401/403 得 0 分;能驗證但產不出輸出得 40。
score = 98 × 1_{auth ∧ quality} + 40 × 1_{auth ∧ ¬quality}
Response Quality · 回應品質
20%代表什麼
Key 指向的是真的模型嗎?
測量方法
要求模型輸出一段確定字串 (例如 PONG),檢查是否出現。這能偵測到指向假模型、被中間人攔截、或輸出被裁切的異常 Key。
score = 92 × 1_{quality_ok} + 30 × 1_{¬quality_ok}
Speed · 速度
15%代表什麼
會不會很慢?
測量方法
使用串流模式測量首 token 延遲 (TTFT)。300ms 內滿分、3000ms 接近 30 分,中間線性。
score = clamp(100 − (ttft − 300) / 2700 × 70, 0, 100)
Consistency · 穩定性
15%代表什麼
會不會忽好忽壞?
測量方法
多次請求結果的變異度。MVP 階段以單次樣本為主,預設 80 分;V2 將引入 n=5 採樣並以 CV (變異係數) 計分。
score = clamp(100 − variance × 100, 0, 100)
Capacity · 容量
15%代表什麼
能跑多大的量?
測量方法
從原廠的 Rate Limit 回應標頭讀出 TPM 與 RPM 上限,再以各供應商的 Tier 3 天花板正規化。
score = round(60 × (tpm / tpm_ceiling) + 40 × (rpm / rpm_ceiling))
Integrity · 完整性
10%代表什麼
會不會突然被封?
測量方法
結合驗證是否通過、是否出現帳務異常訊號 (429 被限、403 被撤、payment required 等)、Tier 是否與可用模型一致。
score = 90 × 1_{integrity_ok ∧ auth_ok} + 55 × 1_{¬integrity_ok ∧ auth_ok}
Layer 3
完整白皮書
1. 為什麼需要 TQI
AI API Key 的二手市場缺少標準化的品質評估。買方看到「Tier 3 Anthropic Key」 無法判斷它是真的能跑 400K TPM,還是會在首次請求時就被 429 擋下。 TQI 的目標是:把 Key 的真實品質,濃縮成一個可比較的 0–100 數字。
2. 設計原則
- 可複核:所有測量都是對原廠公開端點的請求,任何人可重製。
- 低干擾:單次檢測成本 < 20 tokens,不會觸發原廠風控。
- 零信任:TQI 服務本身不儲存、不轉售 Key,檢測邏輯將逐步開源。
- 可演進:權重每季度會根據市場數據重新校準,歷史版本永久保留。
3. 測量協定
對 Anthropic:GET
/v1/models 取得目錄 → POST /v1/messages 串流 ≤ 20 tokens 的 ping,同時要求 thinking 以觀察 SSE 事件形狀、usage 一致性、身份與知識庫截止。 對 OpenAI:GET /v1/models → POST /v1/chat/completions stream 128 tokens。 Rate Limit 從原廠回應標頭直讀(anthropic-ratelimit-* / x-ratelimit-*), Tier 由 TPM 閾值反推。4. 與現有標準對比
Anthropic Console 與 OpenAI Dashboard 僅提供帳戶維度的額度數字;市面上的 Key 代理平台通常只做 401/200 二元判斷。TQI 是目前唯一公開的、涵蓋真實性、品質、速度、容量同時量化成單一分數的評估方式。
5. 路線圖
- v0.1(目前):單次採樣、Anthropic + OpenAI + Gemini AI Studio + Azure OpenAI。
- v0.2:多樣本 Consistency、Bedrock + Vertex + Azure AI Foundry、邊際採樣成本分析。
- v0.3:長窗口回歸(7/30 天歷史趨勢線),賣家信用分數。
- v1.0:與交易平台整合,作為撮合價格的基準分數。
6. 回饋與貢獻
白皮書、測量腳本、權重校準依據都會開放在 GitHub 上。有建議或發現測量偏差? 歡迎 Issue 或 Pull Request。透明不是口號,是產品的一部分。