Awal Agustus lalu, salah satu co-founder OpenAI, John Schulman menyatakan mundur dari OpenAI untuk pindah ke Anthropicโperusahaan AI yang didirikan oleh Dario Amodei yang juga sempat jadi Vice President of Research di OpenAI, which is bikin dua perusahaan ini jadi rival ๐ค๐ฝ๐ค๐ฝ! OMG, ada drama apa nih? ๐
Nggak ada ribut-ribut kok ๐ Schulman bilang, alasannya mundur dari OpenAI karena dia mau cari perspektif โจ๏ธ baru dan bisa kerja sama dengan orang-orang yang terlibat penuh dengan minatnya di area RL atau โ๏ธ๐ป reinforcement learning (pembelajaran penguatan mesin). Keputusan dia untuk keluar tetap diterima dengan baik sama tim OpenAI, malah mereka ngucapin terima kasih atas kontribusinya selama kerja bareng.
Keluarnya Schulman dari OpenAI ini cukup menarik perhatian, karena sebelum ini kita pernah dengar juga berita Sam Altman yang sempat mundur jadiย CEO OpenAI, ๐คทโโ๏ธ tapi nggak lama dia balik lagi. Well, namanya juga dinamika organisasi di perusahaan, selalu berubah-ubah ๐ซก Tapi itu nggak berarti hasil kerja keras mereka berhenti.
Schulman selalu dapat ๐ฉท apresiasi penuh dan jadi inspirasi sama rekan-rekan kerjanya. Gimana enggak, Schulman dikenal sebagai peneliti AI terkemuka dengan prestasi akademis yang cemerlang. ๐ฏ
Dia berhasil menyelesaikan gelar Sarjana, Master, sampai PhD ๐งโ๐ di jurusan Ilmu Komputer Universitas California. Selama kuliah, dia dibimbing sama Pieter Abbeel, ๐งโ๐ฌ seorang peneliti terkenal dalam bidang robotika dan pembelajaran mesin. Penelitian doktoralnya berfokus pada pengembangan algoritma reinforcement learning dan model jaringan saraf tiruan.
Setelah menyelesaikan studinya, Schulman langsung gabung di OpenAI sebagai salah satu Co-Founder dan juga ๐จโ๐ป๐งโ๐ฌ Research Scientist. Schulman melakukan pengembangan algoritma reinforcement learning yang efisien dan dapat diskalakan dan digunakan dalam berbagai aplikasi AI, termasuk ๐ค pengendalian robot, ๐ฎ video game, dan pengoptimalan sistem.
Bayangin aja kamu punya ๐ถ๐ฆด anjing peliharaan yang harus dilatih berbagai macam trik. Kalau triknya berhasil, kamu pasti ngasih dia imbalan, kan? Sama halnya dengan ngelatih mesin. Selama Schulman ngembangin algoritma reinforcement learning, imbalan yang diberikan kepada mesin itu bisa berupa skor tertinggi dalam ๐ฎ video game. Ini juga dipakai untuk menguji seberapa cepat mesin itu belajar tentang situasi baru dan memindahkan pengetahuannya itu ke berbagai skenario.
Walaupun sekarang udah kerja di Anthropic, fokus Schulman tentang pengembangan reinforcement learning masih berlanjut ๐ค, karena masih banyak hal-hal baru yang bisa diulik terutama saat menguji AI dalam video game.