Berikut adalah rangkuman komprehensif berdasarkan transkrip yang Anda berikan:

Review Tulu 3: Model AI Terbaru dari Allen Institute untuk Saingan GPT dan DeepSeek

Inti Sari (Executive Summary)

Video ini membahas pengujian terhadap model AI terbaru bernama Tulu 3, yang dikembangkan oleh Allen Institute for Artificial Intelligence (AS). Meskipun sebuah tabel mengklaim model ini unggul dibandingkan DeepSeek atau GPT, pengujian langsung menunjukkan bahwa Tulu 3 memiliki keunggulan dalam penulisan ilmiah dengan sitasi yang akurat, namun tertinggal dalam fitur multimodal (analisis dan pembuatan gambar) serta pembaruan data.

Poin-Poin Kunci (Key Takeaways)

Pengembang: Tulu 3 berasal dari Allen Institute for Artificial Intelligence, Amerika Serikat.
Akses: Model ini dapat diuji secara langsung melalui fitur "playground" di situs resmi mereka (opsi login tersedia).
Keunggulan: Sangat kuat dalam penulisan ilmiah; mampu memberikan sitasi dari jurnal internasional ternama yang valid dan bukan hasil halusinasi.
Kekurangan: Tidak memiliki kemampuan analisis gambar (tidak bisa upload file), tidak bisa membuat gambar langsung, dan memiliki knowledge cutoff (batas pengetahuan) pada awal tahun 2023.
Verdict: Berdasarkan parameter pengujian yang dilakukan, Tulu 3 belum mampu mengalahkan ChatGPT atau Qwen.

Rincian Materi (Detailed Breakdown)

1. Pengenalan dan Akses Model
* Video ini merupakan kelanjutan dari ulasan model-model AI China sebelumnya (DeepSeek, Qwen, Kimi), kini beralih ke model baru dari AS.
* Tulu 3 diklaim dalam sebuah tabel memiliki performa yang menyaingi bahkan melampaui DeepSeek atau GPT pada aspek tertentu.
* Cara akses: Pengguna dapat mengunjungi link yang tersedia di deskripsi video, masuk ke menu "playground" di pojok kanan atas. Login bersifat opsional, namun pengguna bisa masuk menggunakan akun Google.
* Versi model yang diuji dalam video ini adalah 405b.

2. Uji Coba Penulisan Ilmiah dan Sitasi
* Tugas: Model diminta mendiskusikan senyawa alami melawan sel kanker dengan menyertakan sitasi dari jurnal internasional bereputasi.
* Kecepatan Respon: Tulu 3 menjawab secara langsung (streaming) tanpa proses "drafting" seperti DeepSeek, namun tidak seinstan blok teks penuh seperti Gemini.
* Kualitas Konten: Hasil tulisan sangat detail, mencakup abstrak, pendahuluan, dan senyawa spesifik seperti terpenoid dan flavonoid.
* Verifikasi Sitasi:
* Referensi yang diberikan (Newman & Craig 2020, KH 2006, Jang 97, Murakami) dicek melalui Google, NCBI, dan ACS.
* Hasilnya: Referensi tersebut nyata dan berasal dari jurnal terpercaya seperti British Journal of Cancer dan Biochemical Pharmacology. Tidak ditemukan halusinasi pada referensi.
* Catatan: Sebagian besar referensi cenderung lama. Disarankan untuk menambahkan instruksi prompt agar AI menggunakan referensi dari "10 tahun terakhir" agar data lebih mutakhir.

3. Uji Coba Analisis Gambar
* Hasil: Fitur ini tidak dapat diuji karena menu playground tidak menyediakan opsi untuk mengunggah file atau gambar.
* Perbandingan: Pada video sebelumnya, model Kimi terbukti lebih unggul dalam kemampuan analisis gambar dibandingkan DeepSeek atau GPT.

4. Uji Coba Pembuatan Gambar (Image Generation)
* Tugas: Membuat gambar "Burung Cendrawasih di hutan hujan tropis".
* Hasil: Tulu 3 tidak dapat membuat gambar secara langsung. Ia hanya memberikan deskripsi teks (prompt) yang kemudian bisa digunakan pada image generator lain.

5. Batas Pengetahuan (Knowledge Cutoff)
* Pertanyaan: Kapan batas tanggal pengetahuan model?
* Jawaban: Awal tahun 2023.
* Analisis: Tanggal ini cukup tertinggal dibandingkan model kompetitor lain yang sudah mencapai akhir 2023 atau bahkan 2024.

Kesimpulan & Pesan Penutup

Berdasarkan serangkaian pengujian yang dilakukan, Tulu 3 dinilai belum mampu melampaui ChatGPT atau Qwen. Meskipun memiliki kemampuan penulisan ilmiah yang sangat baik dengan validasi referensi yang akurat, keterbatasan pada fitur visual dan kurangnya pembaruan data menjadi faktor penghambat. Video ditutup dengan teaser untuk konten selanjutnya yang akan membahas fitur baru dari sebuah produk yang pernah menjadi nomor satu di H (direncanakan rilis hari Selasa atau Rabu).