OpenAI 推出 GPT-4o:打造更自然的人機對話體驗

【INDEX News 劉俊彥】

OpenAI 最新推出的 GPT-4o 模型,整合語音、視覺與文字處理能力,提供更自然、即時的對話體驗,並支援即時翻譯與情緒辨識。

2024 年 5 月 14 日,OpenAI 正式推出其最新的人工智慧模型 GPT-4o,旨在提升人機互動的自然度與即時性。該模型整合語音、視覺與文字處理能力,提供更流暢的對話體驗。

GPT-4o:全能型 AI 模型

GPT-4o 的「o」代表「omni」,意指全能。與前代模型相比,GPT-4o 在處理速度上有顯著提升,平均回應時間縮短至 320 毫秒,最短可達 232 毫秒,接近人類的反應速度。此外,該模型支援 50 多種語言,並可即時進行語音、文字與視覺的多模態處理。


即時語音與情緒辨識

GPT-4o 的語音功能為一大亮點。用戶可與模型進行即時語音對話,並透過語音辨識情緒,提供更貼近人類的回應。例如,在面對緊張情境時,GPT-4o 能適時給予安慰與鼓勵。


多模態互動體驗

該模型支援視覺輸入,用戶可透過手機鏡頭讓 GPT-4o 辨識眼前物體,並提供相關資訊。此外,GPT-4o 還能進行即時翻譯,並根據語境調整語氣,使對話更自然流暢。


開放政策與未來展望

OpenAI 表示,GPT-4o 將免費開放給所有用戶,但初期僅限部分地區使用。語音對話功能預計在未來數週內提供給訂閱用戶測試版。此外,OpenAI 亦推出更新版的 ChatGPT 桌面應用程式,提供更直覺的使用介面。

spot_img