Tahun 2012, tim SuperVision dari Universitas Toronto di Canada mengejutkan komunitas orang-orang yang berkecimpung pada penelitian tentang AI (Artificial Intelligence) di seluruh dunia. Mereka berhasil membuat sistem dimana komputer bisa mengenali input foto, dan mengidentifikasi apakah itu foto Kucing, bunga atau perahu layar. Sebagai manusia, kita tentu berpikir “apa susahnya sih membedakan foto Kucing, bunga, perahu layar dsb. ” Namun bagi komputer, hal itu adalah sangat susah. Karena perbedaan bahasa antara komputer dengan manusia.
Kemampuan tim mereka untuk membuat sistem yang bisa mengenali foto dengan kesalahan “hanya” 15% tentunya merupakan suatu terobosan besar, semenjak perkembangan AI yang dimulai pada era tahun 1960-an. Kita sekarang sedang berada pada masa booming AI. Jika anda sering “Browsing” di Internet, atau membaca koran cetak, mendengarkan siaran radio maupun menonton televisi dan sebagainya, pasti anda sering bertemu dengan “dua huruf” (AI) tersebut. Kita juga tahu bahwa teknologi AI sudah merambah berbagai sendi kehidupan. Dalam dunia kedokteran misalnya, AI digunakan untuk deteksi dini kanker. AI juga digunakan pada dunia investasi, misalnya untuk membantu investor memilih startup prospektif. Atau kalau orang jenuh untuk menentukan apa menu makanan besok atau lusa, maka AI pun sudah mampu untuk menyediakan resep masakan yang pas. Bahkan, AI sudah digunakan juga untuk hal-hal yang bersifat pribadi misalnya mencari pasangan.
Namun sebenarnya, booming AI yang terjadi sekarang bukanlah yang pertama. Kalau kita kilas balik sejenak, tahun 1960-an adalah masa booming petama AI. Dimulai dengan diadakannya konferensi tentang “Mesin yang Berpikir” di Dartmouth College, Amerika Serikat. Pada konferensi ini, John McCarthy lah yang pertama kali menggunakan istilah “Artificial Intelligence”. Beberapa ilmuwan lain yang turut serta pada konferensi itu, kemudian menjadi pionir dalam perkembangan AI selanjutnya adalah Marvin Minsky, Allen Newell dan Herbert Simon. AI pada masa ini kemampuannya hanya untuk memecahkan masalah yang disebut sebagai Toy Problem. Secara ringkas Toy Problem adalah pemecahan masalah dengan cara memprediksi kemungkinan-kemungkinan yang ada dan membuat daftarnya. Dari sini kemudian beberapa kemungkinan disaring lagi untuk mencari jawaban atau mengambil kesimpulan akhir. Masalah yang bisa dipecahkan umumnya berupa teka-teki atau permainan yang simpel seperti tic tac toe, maupun othello.
Kemudian pada tahun 1980-an, terjadi booming kedua AI. Pada era ini, AI mulai dikembangkan untuk hal yang lebih dari sekadar pemecahan masalah dengan cara asumsi dari deretan kemungkinan. Karena persoalan di dunia nyata, tidak bisa teratasi dengan hasil yang didapat dari pemecahan masalah toy problem, seperti pada booming AI pertama. Para ilmuwan ingin mengimplementasikan “kecerdasan”, sehingga pada booming kedua ini lahirlah expert system. Misalnya Mycin yang dibuat oleh Universitas Stanford, merupakan expert system yang bisa menganalisa penyakit menular yang menjangkit orang, dan kemudian memberikan daftar obat untuk menyembuhkannya. Ada kurang lebih 500 pertanyaan sebagai database sistem Mycin, sehingga operator Mycin bisa memasukkan data berdasarkan pertanyaan yang diberikan, kemudian sistem menganalisa jawaban dan memberikan hasil akhir. Sistem bisa beroperasi bak seorang dokter “ahli” yang sedang menganalisa suatu penyakit, yang memang dari situlah nama “expert” berasal. Walaupun kelihatannya sistem ini bekerja dengan baik, namun ada juga beberapa kendala. Misalnya, dengan bertambahnya jumlah database informasi, maka terkadang output menjadi rancu karena ada yang bertentangan antara satu informasi dengan yang lainnya. Terlebih, operator harus memberikan input ke komputer (menjawab pertanyaan yang diberikan oleh sistem), agar komputer bisa “berpikir” untuk memecahkan masalah yang ada (misalnya pada sistem Mycin, untuk menyimpulkan apa nama penyakit menular yang menjangkit orang). “Kecerdasan” tergantung dari sejauh/sedetail apa operator bisa input data, sehingga sistem ini memerlukan tenaga dan biaya yang tidak sedikit.
Kemudian yang terjadi saat ini, merupakan booming AI ketiga. Lalu, apa yang membedakannya dengan booming AI masa sebelumnya? Ada beberapa kendala dalam pengembangan AI yang telah dilakukan sampai saat ini, yaitu Frame Problem dan Symbol Grounding Problem.
Frame Problem adalah masalah yang selalu menghantui AI, dimana ketika komputer (sistem) harus memecahkan suatu masalah, maka ia dituntut agar mempunyai kemampuan secara logis, untuk memilah mana hal-hal yang perlu dilakukan dan yang tidak. Walaupun, jika ada suatu masalah, maka cara pemecahannya selain tergantung dari bagaimana masalah itu sendiri, beberapa faktor luar yang selalu berubah (dinamis) juga mempunyai pengaruh yang tidak bisa diabaikan. Misalnya, jika kita memerintahkan robot untuk mengambil bola yang masuk ke lubang, tentunya kita harus fokus dan memberi perintah agar robot bisa mengambil bola dengan cepat dan tanpa hambatan. Sehingga kita tidak perlu memberi perintah agar robot perlu berhati-hati, karena mungkin saja itu lubang ular. Atau kita tidak perlu memberi perintah agar robot memeriksa apakah bola yang jatuh kempis atau tidak. Karena ini bisa memakan waktu, dan sistem bisa terjerumus pada loop tanpa akhir (misalnya karena memikirkan banyak faktor luar lain yang mungkin berpengaruh).
Symbol Grounding Problem adalah tentang hubungan antara simbol dan arti dari simbol itu. Sebagai contoh saat kita mencoba menjelaskan, apa itu Zebra kepada orang yang belum pernah melihatnya. Maka kita bisa bilang bahwa Zebra itu Kuda, yang corak badannya ada garis hitam dan putih. Simpel saja kan? (tentu asumsinya orang itu sudah tahu apa dan bagaimana binatang yang bernama Kuda). Kalau kita ingin agar komputer paham apa itu Zebra, tentu penjelasan yang harus diberikan tidak semudah ketika memberikan penjelasan kepada manusia. Karena kalau kita berikan input bahwa Zebra adalah “Kuda dengan corak badan garis hitam putih”, tentu komputer tidak akan langsung mengerti. Kita harus mendefinisikan lagi apa itu “Kuda”. Begitu juga dengan apa dan bagaimana itu corak “garis”, kemudian warna “hitam”, dan seterusnya.
Kita tahu bahwa otak manusia terdiri atas neuron yang berkomunikasi dengan neuron lain melalui synapses. Neuron ini tidak hanya satu lapis, namun berlapis-lapis dan membentuk jaringan. Neural Network adalah jaringan yang meniru cara kerja otak manusia tersebut. AI selama ini bekerja hanya dengan “satu” layer saja untuk memecahkan masalah. Namun, dengan basis Neural Network, maka cara pemecahan masalah dilakukan bukan hanya pada satu lapis, tetapi berlapis-lapis sampai dalam (deep) dengan beberapa layer digunakan. Sehingga cara kerja untuk membuat komputer “belajar” melalui layer berlapis ini disebut dengan Deep Learning (DL).
DL adalah satu terobosan terpenting pada era booming AI yang ketiga ini. DL bisa meningkatkan kemampuan AI, misalnya kemampuan komputer untuk membedakan (menebak) apa yang ada di dalam foto, seperti sudah saya tulis diawal. DL juga diharapkan bisa memecahkan masalah Frame Problem dan Symbol Grounding Problem. Dengan DL, maka kemampuan komputer untuk melakukan representasi dari data-data yang telah di-input meningkat secara signifikan. Sehingga komputer bisa membuat model dari data-data tersebut tanpa intervensi manusia (operator), kemudian menggunakannya untuk memecahkan masalah berikutnya. Kemampuan untuk membuat atau merancang “kadar” representasi dari data-data yang sudah dimiliki (di-input ke dalam) komputer merupakan hal yang terpenting dalam AI. Karena ini akan menentukan apakah AI yang ditanam dalam sistem mampu memecahkan masalah dengan baik atau tidak.
Keberhasilan DL mendeteksi foto menjadikannya sebagai “primadona” pada booming AI yang ketiga sekarang. Sehingga sudah menjadi sangat ‘lazim’ bagi AI dan DL untuk memberikan sebuah kejutan-kejutan dalam teknologi. Tentunya, deteksi foto merupakan langkah awal untuk sinkronasi antara AI dan DL untuk menjadi suatu kesatuan yang menjanjikan untuk memecahkan masalah yang menunggu di masa depan nanti.