探討AI專案中評估的重要性,從提示手工藝到提示工程的轉變。介紹自動化評估系統、feedback機制和大語言模型評估方法,助您優化AI應用。
我自己最近因爲工作和興趣關係,在學習 RAG 相關技術。你這篇文章很有意思,謝謝分享;尤其是位置偏見和集成 LLM 的做法,我之前沒聽說過。
有一個問題:我沒有太看懂「自動基準測試」和「模型自評估」的區別?難道自動基準測試,可以避免使用 LLM 嗎?主要是好奇,如果不用 LLM,還可以怎樣比較系統的回覆和預期輸出...
感謝你的閱讀。
我這邊提到的「自動基準測試」比較偏統計上的 metrics,一些特定 case 像是測試模型的多國語言能力,會有一些公開的測試資料集和所謂的標準答案,而量測模型的表現,就是去看這個模型的輸出「距離」標準答案有多遠,這類型的統計 metrics 就可以不用到另一個 judge LLM 來作裁判,單純看這個統計方法的分數高低,來判斷模型表現的好壞。
希望以上有解答到您的疑惑唷 :)
謝謝回覆。偏統計上的 metrics,你指的是 perplexity 和 cross entropy 這一些嗎?
嗯嗯,可以參考 [1] 當中的 "Statistical Scorers"
[1] https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation
謝謝,哇,原來有這麼多不一樣的 metrics 可以用!
我自己最近因爲工作和興趣關係,在學習 RAG 相關技術。你這篇文章很有意思,謝謝分享;尤其是位置偏見和集成 LLM 的做法,我之前沒聽說過。
有一個問題:我沒有太看懂「自動基準測試」和「模型自評估」的區別?難道自動基準測試,可以避免使用 LLM 嗎?主要是好奇,如果不用 LLM,還可以怎樣比較系統的回覆和預期輸出...
感謝你的閱讀。
我這邊提到的「自動基準測試」比較偏統計上的 metrics,一些特定 case 像是測試模型的多國語言能力,會有一些公開的測試資料集和所謂的標準答案,而量測模型的表現,就是去看這個模型的輸出「距離」標準答案有多遠,這類型的統計 metrics 就可以不用到另一個 judge LLM 來作裁判,單純看這個統計方法的分數高低,來判斷模型表現的好壞。
希望以上有解答到您的疑惑唷 :)
謝謝回覆。偏統計上的 metrics,你指的是 perplexity 和 cross entropy 這一些嗎?
嗯嗯,可以參考 [1] 當中的 "Statistical Scorers"
[1] https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation
謝謝,哇,原來有這麼多不一樣的 metrics 可以用!