OpenAI’den ileri seviye ses modeli: gpt-realtime özellikleri ve fiyatı

OpenAI, Ekim 2024’te geliştiricilerin uygulamalarında düşük gecikmeli ve çok modlu deneyimler oluşturmasına imkan tanıyan Realtime API’yi duyurmuştu. O tarihten bu yana binlerce geliştirici, uygulamalarında doğal konuşma tabanlı etkileşimler sunmak için bu API’yi kullanmaya başladı.

gpt-realtime: En gelişmiş konuşma modeli

Bugün OpenAI, gpt-realtime adlı en gelişmiş speech-to-speech modelini tanıttı. Yeni model; karmaşık talimatları daha doğru şekilde yerine getirebiliyor, araçları daha düşük hata oranıyla çağırabiliyor ve çok daha doğal, anlamlı diyaloglar üretebiliyor. Ayrıca sistem mesajlarını ve geliştirici istemlerini yorumlama konusunda da önemli geliştirmeler içeriyor.

Yeni sesler: Marin ve Cedar

Realtime API ilk çıktığında 6 farklı ses seçeneği sunuyordu. Daha sonra iki ses eklenmişti. Şimdi ise OpenAI, Marin ve Cedar adlı iki yeni sesi duyurdu. Bunun yanı sıra mevcut 6 ses de daha doğal bir tonla güncellendi.

Kıyaslamalarda öne çıkan performans

Yeni gpt-realtime modeli, önceki sürümlere göre dikkat çekici bir performans artışı gösteriyor:

  • Big Bench Audio: %82,8 doğruluk (Aralık 2024 modelinde %65,6)

  • MultiChallenge: %30,5 puan (önceki model %20,6)

  • ComplexFuncBench: %66,5 puan (önceki model %49,7)

API’ye gelen yenilikler

Modelin yanı sıra API tarafında da önemli güncellemeler bulunuyor:

  • Uzak MCP sunucuları desteği

  • Görüntü girişleri işleme özelliği

  • SIP protokolü ile telefon görüşmesi entegrasyonu

  • İstemleri kaydetme ve yeniden kullanma imkanı

Daha güçlü, daha uygun fiyatlı

Tüm bu iyileştirmelere rağmen OpenAI, fiyatları düşürdü. Yeni gpt-realtime API, 1M ses giriş belirteci için 32$ (önbelleğe alınmış girişler için 0.40$) ve 1M ses çıkış belirteci için 64$ fiyatla sunuluyor. Bu rakamlar, gpt-4o-realtime-önizleme sürümüne göre %20 daha uygun.

Performans artışı, yeni özellikler ve fiyat avantajı ile OpenAI, gpt-realtime’ı ses öncelikli deneyimler geliştirmek isteyenler için güçlü bir seçenek haline getiriyor.

Author: can tok