benchmark - 検索 News

ニュース

TechTargetジャパン on MSN3 日

LLMの“実力”はどう測る？知っておくべき主要ベンチマーク7選

業務で使っている大規模言語モデル（LLM）が生成する内容に違和感がある――。そのような場面で有用なのが、LLMの性能を客観的に評価する「ベンチマーク」だ。本稿は、主要なLLMのベンチマークを7つ紹介する。オープンアクセスリポジトリ「arXiv.org ...

IT Leaders23 分

契約業務の主要タスクでGPT-5がGPT-4.1の性能を上回る─LegalOn ...

法務業務向けAIサービスを手がけるLegalOn Technologiesは2025年8月15日、大規模言語モデル（LLM）「GPT-5」の契約業務における性能を検証したと発表した。英語と日本語ともに、前世代の「GPT-4.1」を上回る結果を確認したという。

4 時間

契約業務の主なタスクにおける「GPT-5」と「GPT-4.1」の性能を検証 ...

～当社が開発したベンチマークデータセットを用いて、契約書業務における問題点の抽出や修正文案作成、質問応答などの対話型タスクなどを評価～株式会社LegalOn Technologies（本社：東京都渋谷区、代表者：代表取締役執行役員・CEO：角田望 ...

10 日

AIのゲーム性能を測定するベンチマークプラットフォーム「Game Arena ...

異なる大規模言語モデル(LLM)の性能について、ゲームを通じて測定するためのプラットフォーム「Game Arena」が公開されました。ゲームの解き方を推論させることで、AIの思考プロセスの一端がうかがえると期待されています。

22 時間

“まるでビジネスPC”な「ASUS TUF Gaming A14」の2025年モデルを試す ...

では、実際のゲームをベースとするベンチマークテストはどうだろうか。「ファイナルファンタジーXIV: 黄金のレガシー（FF14）」「FINAL FANTASY XV WINDOWS EDITION（FF15）」のベンチマークアプリを試してみよう。

15 日on MSN

PCのAI性能を測定できるベンチマークアプリ「MLPerf Client」を世界的 ...

プライバシーやセキュリティを重視する環境では、ChatGPTなどのオンラインAIサービスではなく自分のデバイス上で処理できるローカルAIの方が適している場合があります。しかし、AIをローカルで実行するにはある程度の性能を備えたPCが必要です。新たに、 ...

CoinDesk JAPAN10 日

コインベースの第2四半期の不振は一時的なもので、崩壊ではない ...

コインベース（Coinbase）の第2四半期決算が予想を下回ったことで、同取引所の株価は1日金曜日に急落したが、ウォール街のブローカーであるベンチマークは、この下落は危険信号ではなく、買いの好機だと述べている。

11 日on MSN

「描くこと」に特化したWacomの6万円台Androidタブレットの基本性能は ...

Wacomが2025年7月30日にリリースした「Wacom MovinkPad 11」は、「PCを持たない人にも、デジタルのイラスト制作を始めてほしい」というコンセプトで誕生したAndroid搭載・PC不要の液晶タブレットです。MovinkPad ...

CoinDesk JAPAN9 日

BTCトレジャリー企業セムラー・サイエンティフィック、まだ3倍の ...

新たにビットコイン戦略ディレクターに就任したジョー・バーネット（Joe ...

15 日

2026年度開始の排出量取引制度「排出枠」算定に業種別ベンチ ...

2026年度から始まる排出量取引制度。対象事業者に対する「排出枠」の割当方法の検討に向けて、政府は「製造業ベンチマークワーキンググループ（WG）」を新設。製造業におけるベンチマークの適用対象の特定と、割当量の算定式の具体化に向けた検討を開始した。

21 日

トランプ関税15% 「日本の合意がベンチマーク」、米識者に聞く

日本と米国が関税交渉で合意した。日本から米国に輸出する自動車への関税は計15%、相互関税は15%となる方針だ。現在公表されている国々の相互関税の新税率のなかでは最も低い水準となった。合意についての分析と今後の影響を米国の有識者に尋ねた。ハドソン研究所 ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する