Jim Fan 針對 OpenAI 最新發表的 GPT-4o 模型,提出了他的看法與分析。
Jim 表示,從技術角度來看,OpenAI 已經找到了一種將音訊直接映射到音訊的方法,並且能夠即時將影片串流到 transformer 模型中。
這需要在 tokenization 和架構上進行一些新的研究,但總體而言,這是一個資料和系統優化的問題。 高品質的資料可以來自兩個來源:1)YouTube、podcast、電視劇、電影等自然對話;2)合成資料,使用最強大的模型運行慢速的三階段流程:語音轉文字 (ASR)、文字轉文字 (LLM)、文字轉語音 (TTS)。
在系統方面,如果每一幀影片都被解壓縮成 RGB 圖像,延遲將無法滿足即時性的要求。OpenAI 可能開發了自己的神經優先、串流影片編解碼器,將動作變化作為 token 傳輸。
Jim 認為,GPT-4o 可能更接近於傳聞中的 GPT-5「Arrakis」模型,該模型可以接受多模態輸入和輸出。OpenAI 的品牌策略透露出一種不安全感,他們寧願擊敗大家對 GPT-4.5 的期望,也不願在 GPT-5 上令人失望。 值得注意的是,GPT-4o 的助理更加生動,甚至有點調情。
OpenAI 正在蠶食 Character AI 的市場,幾乎完全重疊的形式和巨大的分銷管道。這是朝著更加情感化、個性鮮明的 AI 方向的轉變。
Jim 認為,誰先贏得蘋果,誰就能贏得大局。他看到了與 iOS 整合的三個層次:1)拋棄 Siri,為 iOS 提供純粹的設備內 GPT-4o 模型;2)提供將相機或螢幕串流到模型的原生功能;3)與 iOS 系統級操作 API 和智慧家庭 API 整合。