トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
私たちのエソランベンチについていくつか質問にお答えします。
a) なぜそうするのか?何か有用な指標はあるのでしょうか?
好奇心から生まれたプロジェクトでした。私たちは、人間が学習やOODの一般化においてどのようにサンプル効率を示すかに関心があります。そこで私たちは単純に尋ねました。Pythonで単純なプログラミング問題に対してモデルがゼロショットまたは少数確率で正解できるなら、難解な言語でも同じことができるのか?
基準はあくまでです。人によってその有用性の解釈は異なりますし、私たちはそれを奨励しています。
b) しかし人間は難解な言語もうまく書けません。それは不公平な比較です。
主に、私たちはLLMの能力を測定することに関心があります。ASIの話によれば、彼らの能力はまもなく超人的なものになると言われています。ですから、私たちの主な動機は人間と比較することではなく、この構築的に難しいベンチマークを彼らが何ができるかを検証することでした。
しかし、人間は古いスキルを応用することで新しい領域を自分で学べると信じています。このベンチマークは、AIシステムも同じことができる方法を探るための出発点を設定するものでした(今まさにそれを模索しています)。
c) しかしクロード・コードが圧倒的にそれを圧倒します。モデルを人工的に制限したのです。
はい、ゼロショットと少数ショットのモデルをテストしました。論文で説明したエージェントループでは、反復回数を制限しています。前述の通り、比較的な観点(例えばPythonのような代表性の高い言語での)から彼らの性能を理解したかったのですが、ベンチマークは設計上このようなものです。
論文が完成した後、私たちはエージェント系システムを実験し、bashのようなツールをモデルに与え、無制限の反復を許可しました(ただし投稿の試みは制限しました)。確かに、はるかに優れたパフォーマンスを発揮しています。
重要なのは、これらのモデルがツールや反復を与えたときにうまく機能し、与えないときになぜこれほどうまく機能するのか、ということです。彼らは人間のように推論や学習をしているのか、それとも別の何かなのか?
d) では、LLMは話題になっているのでしょうか?それとも私たちの研究はクリックベイトなのでしょうか?
論文、コード、ベンチマークはすべてオープンソース👇です
興味のある方にはぜひ読んでいただき、ご自身の判断をしてください。
(同じ結果がコミュニティ内で大きく異なる解釈されていることに気づかずにはいられませんでした。対立するLLMの陣営間で議論が起こりました。もしかしたら、それは良いことかもしれませんね?)
トップ
ランキング
お気に入り
