Contents

Microsoftは、Azure AI Foundry でGPT-Realtime Speech-toeechモデルを起動します

Contents

/images/GPT-4o-Azure-AI.jpg

開示ページを読んで、Windows Insightが編集チームを維持するのをどのように支援できるかを確認してください。続きを読む

読者はWindowsの洞察をサポートするのに役立ちます。あなたが当社のリンクを通して購入する場合、私たちは手数料を取得するかもしれません。

Microsoftは、Azure AI Foundryでの最新の音声(S2S)モデルであるGPT-RealTimeの一般的な利用可能性を正式に発表しました。この新しいモデルは、Microsoftのスピーチからスピーチの改善を1つの統一された製品にまとめ、自然言語、オーディオの品質、より良い指示に焦点を当てています。

開発者は、自然で表現力豊かな声と高品質のオーディオをサポートするリアルタイムAPIを介してGPT-Realtimeにアクセスできるようになりました。このリリースには、2つの新しい声、マリンとシーダーが含まれており、リリースで明確な音声出力を提供するように設計されています。

Microsoftは、機能呼び出しの強化、命令の精度の向上、画像入力サポートなど、いくつかの改善を強調し、ユーザーがビデオを必要とせずに会話に画像を追加し、音声で話し合うことができます。

技術的なアップグレードに加えて、価格設定も調整されています。 GPT-Realtimeは、以前のGPT-4o-Realtimeプレビューと比較して20%安く、1百万のトークンの使用に基づいてコストがかかります。

発売は、開発者と企業の両方のリアルタイムAI機能を拡大するためのMicrosoftの推進力を示しています。表現力のある音声合成、高品質のオーディオ、およびマルチモーダル入力を組み合わせることにより、GPT-RealTimeは、カスタマーサポートシステムからアクセシビリティツールまで、幅広いユースケースをサポートするように配置されています。

このモデルは本日、Azure AI Foundryから入手でき、Microsoft Learnで完全なドキュメントが公開されています。

*÷ソースリンク:

正式に発表