Pembaruan ke GPT 5.4

Menurut OpenAI, GPT-5.4 adalah model frontier yang secara khusus dioptimalkan untuk kerja pengetahuan profesional dan workflow agentik, tersedia di ChatGPT, API, dan Codex. Intinya, model ini menggabungkan kemampuan perencanaan dan riset yang lebih kuat, kemampuan coding yang sangat baik, pengoperasian komputer secara native, serta efisiensi token yang jauh lebih baik, sehingga tugas kompleks bisa diselesaikan dengan lebih sedikit bolak-balik dan biaya yang lebih rendah. Selain itu, tersedia GPT-5.4 Pro untuk performa maksimal pada tugas yang sangat menantang.

Apa yang GPT-5.4 hasilkan dalam praktik

Varian mana yang cocok untuk mode kerja mana

GPT-5.4 hadir di ChatGPT sebagai GPT-5.4 Thinking, dan juga di API serta Codex. Untuk tugas dengan kompleksitas maksimal, perusahaan juga menawarkan GPT-5.4 Pro di ChatGPT dan API.

Di ChatGPT, GPT-5.4 Thinking dapat terlebih dulu membuat sketsa rencana kerja, sehingga koreksi bisa dilakukan sejak awal sebelum model masuk ke detail. Tujuannya adalah mengurangi jumlah iterasi, terutama untuk deliverable seperti dokumen, slide, dan spreadsheet yang biasanya butuh beberapa putaran revisi.

Untuk agen, penting juga bahwa GPT-5.4 di API dan Codex membawa fungsi komputer native dan mendukung hingga 1M token konteks, sehingga perencanaan, eksekusi, dan pengecekan tetap stabil sepanjang rangkaian kerja yang panjang.

Posisi pasar sebagai mini-model Task Tool Token

Untuk 2026, lompatan GPT-5.4 bisa diposisikan lewat tiga kata kunci sederhana: Task, Tool, Token. Task mewakili kualitas pada output kerja nyata, Tool untuk kemampuan menggunakan software dan API secara andal, Token untuk biaya dan kecepatan pada konteks panjang.

GPT-5.4 menyasar ketiga sumbu sekaligus: kerja pengetahuan yang lebih baik, agen yang lebih andal lewat Tool dan komputer, serta konsumsi token yang lebih rendah saat “berpikir” dibanding GPT-5.2. Di pasar, ini membedakan antara “chat yang bagus” dan “eksekutor yang bisa diandalkan” untuk proses yang benar-benar menyita waktu tim.

Aturan keputusan yang jelas untuk tim dan developer

Aturan pemilihan yang cukup kokoh: gunakan Thinking untuk kerja pengetahuan yang sangat bergantung pada perencanaan dan riset web, gunakan Pro bila tugasnya berisiko tinggi atau sangat bercabang, misalnya analisis hukum, model keuangan kompleks, atau rantai Tool panjang dengan banyak dependensi. GPT-5.4 di API sangat layak dipakai bila satu agen harus beroperasi di banyak Tool dan aplikasi, dan panjang konteks atau biaya token sebelumnya menjadi bottleneck.

Jika latensi lebih penting daripada kedalaman maksimal, Codex juga menyediakan mode /fast yang menurut OpenAI meningkatkan kecepatan output token tanpa mengganti model. Ini berguna untuk loop debugging, di mana kecepatan menentukan kelancaran alur kerja.

Gambaran performa dalam angka

Angka mana yang membuktikan lompatan performa

OpenAI melaporkan beberapa benchmark yang mencakup berbagai mode kerja: kerja pengetahuan, coding, penggunaan Tool, dan riset web agentik. Ringkasan berikut menunjukkan angka yang disebutkan dalam artikel untuk GPT-5.4, GPT-5.3-Codex, dan GPT-5.2.

Benchmark GPT-5.4 GPT-5.3-Codex GPT-5.2
GDPval (wins atau ties) 83,0% 70,9% 70,9%
SWE-Bench Pro (Public) 57,7% 56,8% 55,6%
OSWorld-Verified 75,0% 74,0% 47,3%
Toolathlon 54,6% 51,9% 46,3%
BrowseComp 82,7% 77,3% 65,8%

Catatan dari sumber: Nilai OSWorld untuk GPT-5.3-Codex menurut OpenAI terkait dengan parameter API baru yang mempertahankan resolusi gambar asli. Selain itu, nilai OSWorld yang sebelumnya dikomunikasikan telah dikoreksi.

Bagaimana artefak Office dan ketepatan fakta diuntungkan

Pada benchmark GDPval, yang menguji kerja pengetahuan terdefinisi dengan baik di 44 profesi, GPT-5.4 menurut OpenAI mencapai setidaknya hasil setara dengan profesional industri dalam 83,0% perbandingan. GPT-5.2 sebelumnya berada di 70,9% dalam tampilan yang sama.

Untuk pekerjaan kantor tipikal, OpenAI menyebut dua rangkaian pengukuran internal: pada tugas pemodelan spreadsheet seperti yang biasa muncul di peran junior investment banking, nilai rata-rata naik dari 68,4% menjadi 87,3%. Pada tugas presentasi, penilai manusia lebih menyukai hasil GPT-5.4 dalam 68,0% kasus, dengan alasan desain yang lebih baik, variasi visual yang lebih kaya, dan kemampuan generasi gambar yang lebih efektif.

Selain itu, GPT-5.4 ditujukan untuk mengurangi pernyataan yang keliru; menurut OpenAI, klaim individual 33% lebih jarang salah dan jawaban lengkap 18% lebih jarang mengandung kesalahan, masing-masing relatif terhadap GPT-5.2, diukur pada prompt yang dianonimkan dengan penandaan kesalahan oleh pengguna.

Untuk penggunaan enterprise, OpenAI merekomendasikan add-in ChatGPT baru untuk Excel, agar pekerjaan seputar artefak ini lebih dekat dengan workflow yang sudah ada.

Agen di komputer dan di gambar

Apa yang berubah bagi agen lewat pengoperasian komputer native

Menurut OpenAI, GPT-5.4 adalah model generalis pertama perusahaan dengan pengoperasian komputer native di level state-of-the-art. Yang dimaksud adalah agen yang mengendalikan software lewat screenshot, aksi mouse dan keyboard, atau bekerja lewat library otomasi seperti Playwright.

Bagi developer, kemampuan mengendalikan perilaku sangat penting: perilaku bisa dipertegas lewat Developer Messages, dan aturan konfirmasi dapat didefinisikan agar aksi berisiko tinggi hanya dijalankan setelah disetujui. OpenAI memposisikannya sebagai pengatur keseimbangan antara otonomi dan compliance.

Pada OSWorld-Verified, sebuah tes lingkungan desktop dengan navigasi dan input berbasis screenshot, OpenAI melaporkan tingkat keberhasilan 75,0%, dibanding 47,3% pada GPT-5.2. Di sumber yang sama, performa manusia disebut berada di 72,4%.

Detail gambar mana yang sekarang benar-benar penting

Kemampuan komputer bergantung pada persepsi visual yang stabil. Untuk MMMU-Pro tanpa penggunaan Tool, OpenAI menyebut angka 81,2% untuk GPT-5.4, dibanding 79,5% pada GPT-5.2.

Dalam pemahaman dokumen, error di OmniDocBench menurut OpenAI turun dari 0,140 menjadi 0,109, diukur sebagai normalized edit distance. Mode biaya di sini penting: OmniDocBench diukur tanpa tambahan beban Reasoning, untuk mencerminkan operasi low-cost dan low-latency.

Baru juga hadir level detail gambar bertingkat untuk API: mode “original” diklaim mendukung hingga 10,24 juta piksel total atau maksimal 6000 piksel panjang sisi, tergantung mana yang tercapai lebih dulu. Mode “high” sebelumnya digambarkan dengan hingga 2,56 juta piksel atau 2048 piksel dimensi maksimum.

Workflow developer dan ekosistem Tool

Mengapa developer butuh lebih sedikit perpindahan konteks

GPT-5.4 dirancang menggabungkan kekuatan coding GPT-5.3-Codex dengan kemampuan agen dan Office, yang terutama terasa pada tugas panjang di mana perlu iterasi, pengujian, dan verifikasi lewat Tool. Pada SWE-Bench Pro, GPT-5.4 dalam angka yang disebutkan sedikit unggul atas GPT-5.3-Codex, dan OpenAI sekaligus menekankan latensi yang lebih rendah di berbagai tahap Reasoning.

Di Codex, mode /fast dapat meningkatkan kecepatan output, menurut OpenAI hingga 1,5 kali kecepatan token tanpa mengubah “kecerdasan” model. Di API, tujuan serupa disebut sebagai Priority Processing.

OpenAI juga menyoroti kemajuan pada tugas frontend kompleks, dengan fungsionalitas yang lebih kuat dan desain yang terlihat lebih baik. Sebagai contoh, mereka menyebut skill Codex eksperimental “Playwright (Interactive)” yang memungkinkan debugging visual dan playtesting selama proses build.

Tool Search menyasar masalah skalabilitas yang sangat nyata: ketika satu agen mengenal sangat banyak Tool, pendekatan klasik “semua dimasukkan ke prompt” akan menggembungkan input menjadi ribuan hingga puluhan ribu token. Tool Search membalik pendekatan ini: model awalnya hanya menerima daftar Tool yang ramping dan dapat memuat definisi secara on-demand bila diperlukan.

OpenAI mendemonstrasikan ini dengan 250 tugas dari Scale’s MCP Atlas Benchmark dengan 36 MCP server aktif: dengan Tool Search, konsumsi token rata-rata turun 47% pada tingkat akurasi yang sama. Selain biaya, ini berdampak pada kecepatan dan stabilitas konteks, karena lebih sedikit “teks mati” yang memenuhi cache dan jendela konteks.

Apa yang berubah pada riset web agentik

Untuk informasi yang sulit ditemukan, OpenAI menggunakan BrowseComp sebagai metrik. GPT-5.4 naik 17 poin persentase absolut dibanding GPT-5.2, sementara GPT-5.4 Pro menurut sumber mencapai 89,3% dan menetapkan rekor baru.

Secara operasional, ini berarti model seharusnya bisa menjalankan rangkaian pencarian lebih tekun dalam beberapa langkah, menimbang sumber dengan lebih baik, dan menggabungkan hasil dengan lebih rapi, terutama untuk pertanyaan “jarum di tumpukan jerami” yang sangat spesifik. OpenAI juga menyebut penggunaan blocklist untuk mengurangi kontaminasi benchmark.

Implementasi yang dekat dengan praktik

Contoh end-to-end dari keseharian kerja

Contoh: Sebuah tim keuangan harus setiap minggu memeriksa invoice pemasok, mengklarifikasi selisih, dan memperbarui satu slide manajemen. Dengan GPT-5.4, sebuah agen dapat terlebih dulu menetapkan rencana: field mana di tabel yang harus dicek, bukti apa yang kurang, pertanyaan lanjutan apa yang perlu dikirim ke tim procurement, dan metrik mana yang masuk ke presentasi.

Setelah itu, eksekusi berjalan di tiga jalur: logika tabel dibangun atau diedit dalam spreadsheet, dokumen diekstrak dari kontrak panjang dan PDF, dan bila perlu agen mengoperasikan antarmuka web untuk rekonsiliasi, misalnya portal atau Tool internal. Keputusan apakah detail gambar “original” diperlukan mengikuti aturan sederhana: hanya diaktifkan bila akurasi klik atau elemen UI kecil benar-benar penting, selebihnya tetap di mode detail yang lebih hemat biaya.

Penghematan waktu terbesar biasanya bukan datang dari satu jawaban yang lebih baik, melainkan dari lebih sedikit putaran koreksi: lebih sedikit halusinasi, konteks yang lebih stabil sepanjang banyak langkah, dan Tool Search sehingga definisi Tool tidak perlu “dibayar ulang” di setiap permintaan.


Diterbitkan

dalam

oleh

Tags: