1 ソースはゲイリーマーカスによる驚き屋批判記事 ・codexや4.6は長時間のタスクにも優れる←実際は信頼性・脆弱性にかなり問題がある ・METRベンチマークでも高い成果←コーディングに限っても最新モデルのスコアは低い。使い物にならない ・推論向上・ハルシネーション減少の壁は大きく、人間の仕事を奪うのは到底厳しい ・むしろ最近はセキュリティ上の欠陥が増えている。 2 今だけなんじゃないの?異常な速度で進化してるだろ 6 >>2 単に金と時間かければ推論が上がる時期はとっくに過ぎてるから根本的に開発方針変えないと無理…