ニュース

業務で使っている大規模言語モデル(LLM)が生成する内容に違和感がある――。そのような場面で有用なのが、LLMの性能を客観的に評価する「ベンチマーク」だ。本稿は、主要なLLMのベンチマークを7つ紹介する。オープンアクセスリポジトリ「arXiv.org ...
法務業務向けAIサービスを手がけるLegalOn Technologiesは2025年8月15日、大規模言語モデル(LLM)「GPT-5」の契約業務における性能を検証したと発表した。英語と日本語ともに、前世代の「GPT-4.1」を上回る結果を確認したという。
~当社が開発したベンチマークデータセットを用いて、契約書業務における問題点の抽出や修正文案作成、質問応答などの対話型タスクなどを評価~ 株式会社LegalOn Technologies(本社:東京都渋谷区、代表者:代表取締役 執行役員・CEO:角田望 ...
異なる大規模言語モデル(LLM)の性能について、ゲームを通じて測定するためのプラットフォーム「Game Arena」が公開されました。ゲームの解き方を推論させることで、AIの思考プロセスの一端がうかがえると期待されています。
では、実際のゲームをベースとするベンチマークテストはどうだろうか。「ファイナルファンタジーXIV: 黄金のレガシー(FF14)」「FINAL FANTASY XV WINDOWS EDITION(FF15)」のベンチマークアプリを試してみよう。
プライバシーやセキュリティを重視する環境では、ChatGPTなどのオンラインAIサービスではなく自分のデバイス上で処理できるローカルAIの方が適している場合があります。しかし、AIをローカルで実行するにはある程度の性能を備えたPCが必要です。新たに、 ...
コインベース(Coinbase)の第2四半期決算が予想を下回ったことで、同取引所の株価は1日金曜日に急落したが、ウォール街のブローカーであるベンチマークは、この下落は危険信号ではなく、買いの好機だと述べている。
Wacomが2025年7月30日にリリースした「Wacom MovinkPad 11」は、「PCを持たない人にも、デジタルのイラスト制作を始めてほしい」というコンセプトで誕生したAndroid搭載・PC不要の液晶タブレットです。MovinkPad ...
新たにビットコイン戦略ディレクターに就任したジョー・バーネット(Joe ...
2026年度から始まる排出量取引制度。対象事業者に対する「排出枠」の割当方法の検討に向けて、政府は「製造業ベンチマークワーキンググループ(WG)」を新設。製造業におけるベンチマークの適用対象の特定と、割当量の算定式の具体化に向けた検討を開始した。
日本と米国が関税交渉で合意した。日本から米国に輸出する自動車への関税は計15%、相互関税は15%となる方針だ。現在公表されている国々の相互関税の新税率のなかでは最も低い水準となった。合意についての分析と今後の影響を米国の有識者に尋ねた。ハドソン研究所 ...