Mercury 2 のご紹介 – Inception

Inceptionlabs Ai
Mercury 2 は、拡散ベースの並列洗練を利用して、即時の本番 AI を実現する世界最速の推論 LLM として導入されました。

概要

Inception は、世界最速の推論言語モデルである Mercury 2 を発表しました。これは、従来の自己回帰的デコーディングのボトルネックを克服し、即時の本番 AI を実現するように設計されています。Mercury 2 は拡散ベースのアプローチを採用しており、少数のステップで並列洗練を通じて応答を生成するため、逐次処理よりも 5 倍以上の高速化を実現しています。このアーキテクチャにより、リアルタイムのレイテンシ予算内で推論グレードの品質を達成でき、本番展開における品質と速度の曲線を変えています。主な仕様は、NVIDIA Blackwell GPU 上で 1,009 トークン/秒の速度、競争力のある価格設定、調整可能な推論、128K コンテキスト、ネイティブツール使用、スキーマアライメントされた JSON 出力などの機能です。Mercury 2 は、コーディング/編集、エージェントループ、リアルタイム音声インタラクション、検索/RAG パイプラインなど、レイテンシに敏感なアプリケーションで優れており、早期導入者はその応答性と効率への影響を高く評価しています。このモデルは現在利用可能であり、OpenAI API と互換性があるため、既存のスタックへの統合が容易です。

(出典:Inceptionlabs Ai)