LLM 提示詞重複的奇效：Google 研究證實重複輸入能讓 AI 準確度突飛猛進

Google Research 研究發現，將 LLM 提示詞重複輸入兩遍，可大幅提升 Gemini、GPT-4o 及 Claude 的準確度。實測顯示在非推理任務中取得 47 勝 0 敗的佳績，甚至能讓輕量模型準確率從 21% 提升至 97%。這是一項低延遲、高回報的 AI 最佳化新發現。

在追求大型語言模型（LLM）最佳化的過程中，有時最簡單的手段反而最有效。根據 Google Research 最近發布的論文《Prompt Repetition Improves Non-Reasoning LLMs》，只要將提示詞簡單地「重複兩遍」輸入，就能顯著提升包括 Gemini、GPT-4o 及 Claude 在內的所有主流模型的表現。這項發現不僅令人驚訝，更揭示了現有 AI 架構中一個長期被忽視的「因果盲點」。

彌補架構缺陷：利用 LLM 提示詞重複達成雙向注意力

為什麼重複提示詞會讓超大型電腦變得更聰明？答案在於 Transformer 模型的單向處理特性。目前的 LLM 主要是以「因果」邏輯進行訓練，嚴格遵循從左至右的處理順序。這意味著當模型處理到句子中間時，它無法預知後文。然而，當提示詞被重複兩遍時，模型在處理第二遍內容時已經「讀過」了第一遍，這讓第二遍的標記（token）能夠回頭參照完整的前文，從而產生類似「雙向注意力」的效果，有效提升了對複雜指令的理解力。

實測 47 勝 0 敗：小模型的華麗逆襲

廣告合作

[email protected]

研究員在 ARC、MMLU-Pro 等多個基準測試中發現，在非推理型任務上，重複提示詞的手法取得了 47 勝 0 敗的壓倒性戰績。最驚人的數據來自數據提取測試：使用 Gemini 2.0 Flash Lite 時，單次提示詞的準確率僅為 21.33%，但重複一遍後竟然飆升至 97.33%。這顯示出對於預算有限、需要使用輕量化模型的企業來說，這是一個幾乎「免費」的性能增長點。

延遲與實務應用：隱形的高效最佳化

企業領導者最擔心的通常是輸入加倍會導致延遲倍增。令人意外的是，由於 GPU 在處理提示詞預填（Prefill）階段具備高度並行化能力，使用者幾乎感受不到延遲的增加。未來，這項技術極可能被整合進 API 閘道器的編排層中。對於實體提取、分類或簡單問答等任務，系統可以自動將提示詞加倍，從而在不增加使用者操作負擔的前提下，獲得更精準的結果。

彌補架構缺陷：利用 LLM 提示詞重複達成雙向注意力

實測 47 勝 0 敗：小模型的華麗逆襲

延遲與實務應用：隱形的高效最佳化

观点

相关文章

彌補架構缺陷：利用 LLM 提示詞重複 達成雙向注意力

實測 47 勝 0 敗：小模型的華麗逆襲

延遲與實務應用：隱形的高效最佳化

观点

相关文章

彌補架構缺陷：利用 LLM 提示詞重複達成雙向注意力