5 Comments

我自己最近因爲工作和興趣關係,在學習 RAG 相關技術。你這篇文章很有意思,謝謝分享;尤其是位置偏見和集成 LLM 的做法,我之前沒聽說過。

有一個問題:我沒有太看懂「自動基準測試」和「模型自評估」的區別?難道自動基準測試,可以避免使用 LLM 嗎?主要是好奇,如果不用 LLM,還可以怎樣比較系統的回覆和預期輸出...

Expand full comment
author
Sep 3·edited Sep 3Author

感謝你的閱讀。

我這邊提到的「自動基準測試」比較偏統計上的 metrics,一些特定 case 像是測試模型的多國語言能力,會有一些公開的測試資料集和所謂的標準答案,而量測模型的表現,就是去看這個模型的輸出「距離」標準答案有多遠,這類型的統計 metrics 就可以不用到另一個 judge LLM 來作裁判,單純看這個統計方法的分數高低,來判斷模型表現的好壞。

希望以上有解答到您的疑惑唷 :)

Expand full comment

謝謝回覆。偏統計上的 metrics,你指的是 perplexity 和 cross entropy 這一些嗎?

Expand full comment
author

嗯嗯,可以參考 [1] 當中的 "Statistical Scorers"

[1] https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation

Expand full comment

謝謝,哇,原來有這麼多不一樣的 metrics 可以用!

Expand full comment