メインコンテンツへスキップ
ポートフォリオ
マーケット
トレンド
市場のトレンドを追跡し、ホットなトークンを取引しましょう
Meme Pump
ミームを見て周り、初動を掴みましょう
戦略
トラッカー
ウォッチリストを作成して、リアルタイムで確認
リーダーボード
トップトレーダーをフォローし、動きをそのまま反映する
シグナル
シグナルを見つけて、買いのチャンスをつかむ
アルファレーダー
トークンフィルターを設定して、上位アドレスを見つける
スワップ
Onchain OS
OnchainOS について
開発者
ドキュメント
API キーを管理する
X Layer
X Layer について
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ブロックチェーンエクスプローラー
さらに見る
紹介
DeFi
マケプレ
セキュリティ
Boost
X Launch
参加してトークンを獲得しよう
X キャンペーン
参加して報酬を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
DEX の機能
色の好み
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
Türkçe
戻る
戻る
詳しく知る
サポートセンター
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
-0.73%
USELESS
+2.2%
IKUN
+0.22%
gib
+0.99%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
-0.7%
ALON
+5.78%
LAUNCHCOIN
+4.58%
GOONC
+4.53%
KLED
-1.48%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+0.5%
Boopa
-1.14%
PORK
0.00%
Profile
Paras Chopra
人生はゲーム 🕹️ • @lossfunkの構築
オリジナルを表示
Paras Chopra
3月20日 11:01
こうしてEsolang-Benchは一夜にしてバイラルになりました! 多くの議論が交わされました。共通のポイントに触れます。 a) なぜそうするのか?何か有用な指標はあるのでしょうか? b) しかし人間は難解な言語もうまく書けません。それは不公平な比較です。 c) しかしクロード・コードが圧倒的にそれを圧倒します。モデルを人工的に制限したのです。 d) では、LLMは話題になっているのでしょうか?それとも私たちの研究はクリックベイトなのでしょうか?
Lossfunk
3月20日 10:57
私たちのエソランベンチについていくつか質問にお答えします。 a) なぜそうするのか?何か有用な指標はあるのでしょうか? 好奇心から生まれたプロジェクトでした。私たちは、人間が学習やOODの一般化においてどのようにサンプル効率を示すかに関心があります。そこで私たちは単純に尋ねました。Pythonで単純なプログラミング問題に対してモデルがゼロショットまたは少数確率で正解できるなら、難解な言語でも同じことができるのか? 基準はあくまでです。人によってその有用性の解釈は異なりますし、私たちはそれを奨励しています。 b) しかし人間は難解な言語もうまく書けません。それは不公平な比較です。 主に、私たちはLLMの能力を測定することに関心があります。ASIの話によれば、彼らの能力はまもなく超人的なものになると言われています。ですから、私たちの主な動機は人間と比較することではなく、この構築的に難しいベンチマークを彼らが何ができるかを検証することでした。 しかし、人間は古いスキルを応用することで新しい領域を自分で学べると信じています。このベンチマークは、AIシステムも同じことができる方法を探るための出発点を設定するものでした(今まさにそれを模索しています)。 c) しかしクロード・コードが圧倒的にそれを圧倒します。モデルを人工的に制限したのです。 はい、ゼロショットと少数ショットのモデルをテストしました。論文で説明したエージェントループでは、反復回数を制限しています。前述の通り、比較的な観点(例えばPythonのような代表性の高い言語での)から彼らの性能を理解したかったのですが、ベンチマークは設計上このようなものです。 論文が完成した後、私たちはエージェント系システムを実験し、bashのようなツールをモデルに与え、無制限の反復を許可しました(ただし投稿の試みは制限しました)。確かに、はるかに優れたパフォーマンスを発揮しています。 重要なのは、これらのモデルがツールや反復を与えたときにうまく機能し、与えないときになぜこれほどうまく機能するのか、ということです。彼らは人間のように推論や学習をしているのか、それとも別の何かなのか? d) では、LLMは話題になっているのでしょうか?それとも私たちの研究はクリックベイトなのでしょうか? 論文、コード、ベンチマークはすべてオープンソース👇です 興味のある方にはぜひ読んでいただき、ご自身の判断をしてください。 (同じ結果がコミュニティ内で大きく異なる解釈されていることに気づかずにはいられませんでした。対立するLLMの陣営間で議論が起こりました。もしかしたら、それは良いことかもしれませんね?)
729
Paras Chopra
3月19日 22:35
LLMが非常に苦戦する課題を見つけました! Pythonでコーディングの問題を出せば、とてもうまくいくでしょう。同じ問題を脳みそで使えばゼロショットで、彼らのパフォーマンスは~0%です。 +[--------->+<]>+.++[--->++<]>+.
Lossfunk
3月19日 22:14
🚨 驚くべきことに、FrontierのLLMは標準的なコーディングベンチマークで85〜95%のスコアを記録しています。私たちは、彼らが暗記できない言語で同等の問題を出しました。彼らは0〜11%まで崩落しました。 エソラングベンチの紹介。 ICLR 2026 🧵の論理推論およびICBINBワークショップへの受講
135
トップ
ランキング
お気に入り