LLM evaluation: 從提示手工藝到提示工程

Browny

Sep 1, 2024

探討AI專案中評估的重要性，從提示手工藝到提示工程的轉變。介紹自動化評估系統、feedback機制和大語言模型評估方法，助您優化AI應用。

Read →

5 Comments

議事之峰 The Gentleman Tech Bro

Sep 3

我自己最近因爲工作和興趣關係，在學習 RAG 相關技術。你這篇文章很有意思，謝謝分享；尤其是位置偏見和集成 LLM 的做法，我之前沒聽說過。

有一個問題：我沒有太看懂「自動基準測試」和「模型自評估」的區別？難道自動基準測試，可以避免使用 LLM 嗎？主要是好奇，如果不用 LLM，還可以怎樣比較系統的回覆和預期輸出...

Expand full comment

Reply (1)

Browny

Sep 3Edited

感謝你的閱讀。

我這邊提到的「自動基準測試」比較偏統計上的 metrics，一些特定 case 像是測試模型的多國語言能力，會有一些公開的測試資料集和所謂的標準答案，而量測模型的表現，就是去看這個模型的輸出「距離」標準答案有多遠，這類型的統計 metrics 就可以不用到另一個 judge LLM 來作裁判，單純看這個統計方法的分數高低，來判斷模型表現的好壞。

希望以上有解答到您的疑惑唷 :)

Expand full comment

Reply (1)

議事之峰 The Gentleman Tech Bro

Sep 4Edited

謝謝回覆。偏統計上的 metrics，你指的是 perplexity 和 cross entropy 這一些嗎？

Expand full comment

Reply (1)