Cara Menggunakan Google Books Ngram Viewer

Posted on
Cara Menggunakan Google Books Ngram Viewer 1Google Books Ngram Viewer
Google Ngram adalah mesin telusur online untuk Google Books. Ngram adalah analisis statistik teks untuk menemukan beberapa jenis item dalam teks, biasa juga disebut dengan N-gram. Pada intinya adalah analisis statistik pada konten teks, bisa jadi segala macam, seperti fonem, frasa, huruf ataupun prefiks. Mesin telusur dapat mencari frase apapun, termasuk yang salah eja ataupun yang tanpa makna tertentu. 
Teks yang dianalisis statistik berasal dari buku-buku yang telah dipindai oleh Google untuk mengisi Searching Engine Google Books. Ngram Viewer akan menampilkan grafik atau beberapa grafik yang merupakan representasi frasa atau banyak frasa tertentu. Grafik akan dibedakan berdasarkan warna untuk membedakan masing-masing pencarian frasa. 
Contohnya gambar di atas ini adalah tampilan homepage Google Ngram Viewer, yang menampilkan frasa Albert Einstein, Sherlock Holmes, Frankenstein. Google Ngram pada dasarnya mirip dengan Google Trends tetapi dengan jangkauan waktu yang lebih lama. Ini karena sumbernya yang berasal dari buku-buku yang telah dipindai dan dimasukan ke dalam database Google.
Pada ketika pencarian sebuah kata kunci, Ngram membagi teks berdasarkan kumpulan teks atau istilahnya corpus/ korpus/ kumpulan tulisan, meskipun bahasa tersebut mempunyai kemiripan seperti Bahasa Inggris Amerika dan Bahasa Inggris British. Grafik statistik tetap akan berubah tergantung preferensi anda, karena korpusnya berbeda.

Cara menggunakannya adalah sebagai berikut:

1. Buka https://books.google.com/ngrams

2. Ketikkan kata kunci yang akan dianalisis. Kata yang diketikkan bersifat case-sensitive, artinya penggunaan huruf kapital dan spasi juga akan berpengaruh pada hasil. Pisahkan setiap kata dengan menggunakan koma dan tanpa spasi setelah koma (kecuali termasuk ke dalam pencarian).

3. Atur jangkauan pencarian anda. Saat ini sudah bisa diatur pencarian dari tahun 1800 sampai dengan tahun 2008. Pengaturan default pada jangkauan 1800 sampai dengan tahun 2000.

4. Pilih bahasa/ corpus, cukup banyak tersedia opsi sampai sekarang, yaitu: American English, British, Chinese (simplified), English, English Fiction, French, German, Hebrew, Italian, Russian, Spanish, American English (2009), British English (2009), Chinese (simplified) (2009), English (2009), English Fiction (2009), English One Million (2009), French (2009), German (2009), Hebrew (2009), Russian (2009), dan Spanish (2009). Pengaturan default pada corpus “English”.

Kebanyakan dari opsi disematkan juga tahun (2009), ini menandakan data dikumpulkan sampai dengan tahun 2009 (Google lama). Jika memang tidak diperlukan kamu dapat mengabaikannya dan gunakan data baru.

5. Selanjutnya pilih tingkat kehalusan data (smoothing). Smoothing data adalah seberapa detail data ditampilkan pada grafik akhir. Semakin besar angkanya maka grafik akan semakin halus begitu juga sebaliknya. Diandaikan grafik jangkauan (range) maka smoothing ini juga menggeneralisasikan data pada range tertentu supaya lebih mudah didapatkan kesimpulan.

Representasi data paling sayarat dan masih bisa dibaca pada tingkat smoothing 1, kamu dapat mengaturnya pada tingkat 0, tetapi akan sulit dibaca. Secara default smoothing pada angka 3, grafik tidak terlalu halus tetapi tidak terlalu ‘keriting’ juga.

6. Selanjutnya klik tombol “Search lots of Books”, alias tombol “Cari Banyak Buku”, atau tekan tombol “Enter” pada keyboard anda. Selanjutnya akan ditampilkan grafik tertentu sebagai representasi penggunaan kata/ frasa tertentu, tergantung apa yang kamu input. Seperti yang disebutkan sebelumnya kamu dapat memasukan huruf, fonem, frasa, ataupun prefiks.

Jika kamu memasukan lebih dari satu kata kunci, harus dipisahkan dengan tanda koma dan tidak diberi spasi (kecuali spasi tersebut termasuk ke dalam pencarian). Grafik akan membedakannya dengan kode warna supaya lebih mudah dilihat. Sampai sini kamu akan menyadari bahwa ini mirip dengan konsep Google Trends, tetapi dengan jangka waktu yang jauh lebih lama.

Kita ambil contoh yang sudah secara “default” ada ketika kamu membuka Ngram, yaitu kaca kunci “Albert Einstein,Sherlock Holmes,Frankenstein”. Perhatikan penulisannya, ada pemisahan antara nama awal dan nama akhir dengan spasi, dan penggunaan huruf kapital pada awal nama. Jika kamu mengubahnya sedikit saja, grafik yang ditampilkan bisa jadi akan berbeda, atau tidak ada grafik sama sekali.

Selanjutnya kamu dapat mencoba klik opsi yang berada pada pilihan “Search in Google Books”. Coba klik pada opsi “frankenstein”, pada jangkauan waktu 2004-2008, dan pada corpus “English”. Maka kamu akan diarahkan pada hasil pencarian Google pada tab “Books” dengan custom range “2004-2008”. Klik pada salah satu link hasil pencarian tersebut, maka kamu akan diarahkan pada halaman buku tersebut yang dapat kamu baca secara online. Ini adalah hasil pindai Google terhadap buku tersebut.

Pada umumnya kamu dapat mencari kata kunci tertentu yang disebutkan di dalam buku tertentu, dengan bahasa tertentu, dan dalam jangka waktu tertentu. Misalnya saya tertarik untuk mencari tahu tentang “Laptop”, maka akan ditampilkan grafik sederhana.

Dari grafik “Laptop” dapat diambil asumsi sebagai berikut:

Istilah “Laptop” termasuk ke dalam istilah di jaman modern karena istilah ini baru muncul pada cetakan buku tertentu pada tahun 1955. Kata ini disebutkan juga pada literatur tertentu pada tahun 1800-an, karena muncul pada data tahun 1863, 1884-1890, tetapi kata “Laptop” ini tidak mempunyai makna yang sama dengan sekarang, karena jaman dahulu belum ditemukan yang namanya komputer jinjing.

Jika grafiknya dikerucutkan ke jangkauan data dari tahun 1955-2008, maka dengan mudah akan terlihat data bahwa kata “Laptop” mulai populer sejak tahun 1984 (mungkin setelah didirikannya Apple atau Microsoft). Kata ini semakin populer dengan grafik yang terus meningkat sampai dengan tahun 2008 (dalam corpus bahasa Inggris). Kata ini banyak disebutkan pada literatur atau media tertentu, karena perkembangan teknologi komputer yang pesat ketika itu.

Selanjutnya, kamu dapat merubah pengaturan smoothing ke 0 atau 1, supaya didapatkan data yang lebih detail. Anda akan mendapati bahwa sebenarnya istilah “Laptop” ini grafik meningkatnya tidak mulus, tetapi mengalami penurunan grafik ngram pada tahun 1955, lalu meningkat lagi pada tahun 1998, turun sedikit pada tahun 1999, dan naik secara signifikan sampai dengan tahun 2002. Pada kenyataannya tahun 2002 adalah tahun dimana komputer jinjing (laptop) sudah menjadi bagian kehidupan modern.

Kekurangan Ngram

Program yang dikembangkan oleh Jon Orwant dan Will Brockman ini sampai dengan ketika ini masih dalam proses penyempurnaan. Salah satu kekurangan yang sulit diatasi adalah OCR yang tidak sayarat.

OCR atau Optical Character Recognition atau Optical Character Reader adalah konversi secara elektronik dari gambar, tulisan tangan, atau hasil ketikan dalam bentuk teks. Seperti yang disebutkan sebelumnya, data google books ini bersumber dari sejumlah banyak buku yang dipindai, meliputi teks, gambar-gambar, keterangan gambar, dan sebagainya.

Metode OCR ini digunakan untuk mendigitalkan teks/ gambar yang telah dicetak, sehingga dapat disimpan dan disunting secara digital. Dalam hal ini teks/ gambar yang sudah tersimpan secara digital dapat dicari, ditampilkan secara online, diterjemahkan, diekstraksi menjadi bentuk suara, dan sebagainya. Terbayang bukan? Sejumlah besar literatur ilmiah dan non-ilmiah dipindai, lalu dikonversikan secara digital. Hasil konversi ini yang menjadi bias karena pengkategorian data-data yang tidak tepat ataupun kesalahan sistem ‘mengenali’ hasil pindaian.

Demikian artikel Cara Menggunakan Google Books Ngram Viewer. Untuk lebih memahami tentang Ngram kamu dapat mencoba sendiri, dan lakukan riset dan analisis sederhana. Google sudah menyediakan sejumlah besar database yang dapat kamu gunakan.

Sumber
lifewire.com
wikipedia.com