Perhitungan Normal untuk Data Iklim

Perhitungan Normal untuk Data Iklim

Pengertian Normal

Klimatologi banyak berurusan dengan variasi musim serta prediksi kondisi atmosfer jangka panjang. Untuk menyelesaikan permasalah terkait dengan hal tersebut, dibutuhkan sebuah nilai normal. Nilai normal digunakan untuk dua hal utama. Yang pertama, normal akan digunakan sebagai patokan untuk membandingkan observasi-observasi individual baik saat ini maupun di kondisi lampau, temasuk penggunaannya untuk membangun dataset iklim yang berbasis anomali. Yang kedua, normal secara eksplisit dan implisit digunakan sebagai prediksi atas nilai yang paling mungkin dialami di suatu wilayah tertentu.

Normal biasanya dihitung menggunakan data dengan periode sepanjang 30 tahun. Fokus utama nilai normal adalah nilai mean dari setiap elemen iklim. Namun, kita perlu ingat juga bahwa mean atau rata-rata masih belum lengkap tanpa mengetahui frekuensi dan nilai ekstrimnya. Dalam terapannya di beberapa bidang, nilai frekuensi dan distribusi dari data merupakan hal penting. Informasi lain terkait tentang data yang sering dibutuhkan dapat dilihat pada artikel proses analisis data iklim.

Kalkulasi normal biasanya dilakukan secara tahunan atau bulanan. Perhitungan ini juga yang disarankan oleh WMO. Untuk menghitung normal suhu dan kelembaban tahunan, biasanya yang dirata-rata adalah nilai rata-rata tahunannya. Beda halnya dengan curah hujan, normal tahunan curah hujan biasanya adalah rata-rata 30 tahun dari jumlah hujan selama satu tahun. Begitu pula dengan normal bulanan, untuk suhu dan kelembaban biasanya dilihat rata-rata bulanannya sedangkan untuk curah hujan, yang dirata-rata adalah jumlah curah hujan bulanan.

Untuk lebih lengkapnya, perhitungan normal harian dapat dilakukan. Ini dapat digunakan untuk menangkap variasi harian yang tidak bisa ditangkap oleh normal bulanan. Normal harian dihitung dengan merata-ratakan nilai-nilai elemen pada tanggal yang sama selama periode waktu yang ditentukan. Contohnya: normal harian suhu tanggal 28 januari dapat dihitung dengan merata-rata data observasi suhu semua tanggal 28 Januari selama 30 tahun. Seringkali rata-rata yang sudah didapat menggunakan data observasi dihaluskan lagi dengan menggunakan rata-rata berjalan atau binomial smoothing untuk 3-7 hari. Hal ini dilakukan untuk mengurangi efek dari variabilitas temporal frekuensi tinggi yang acak. Pendekatan smoothing lainnya dapat dilakukan dengan fitting rata-rata harian observasi dengan spline, fungsi smoothing polynomial. Hasil smoothing dapat dianggap sebagai normal harian.

Periode perhitungan

Berdasarkan WMO Technical Regulation, standar normal adalah rata-rata data klimatologi yang dihitung selama periode berurutan selama 30 tahun dengan mengikuti periode yang ditetapkan sebagai berikut: 1 Januari 1901 – 31 Desember 1930, 1 Januari 1931 – 31 Desember 1960, dan seterusnya. Periode terbaru adalah periode 1 Januari 1990 – 31 Desamber 2020. Perhitungan standar normal ini sebaiknya dibuat sesegera mungkin setelah normal lama berakhir. Hal ini juga sebaiknya dilakukan pada jaringan stasiun pengamatan seluas mungkin.

Jika data yang dimiliki tidak cukup panjang, perhitungan rata-rata dapat dilakukan. Rata-rata (provisional normal) di sini maksudnya adalah rata-rata dari data iklim dengan periode minimal 10 tahun dimulai dari 1 Januari yang tahunnya berakhir dengan angka 1 (contohnya 1 Januari 2001 – 31 Desember 2012). Hal ini lumrah dilakukan oleh stasiun meteorologi /klimatologi yang belum lama berdiri.

BMKG sendiri juga menghitung normal (bukan standar normal) setiap 10 tahun sekali dengan menggunakan data 30 tahun periode terakhir. Nah, jika 1 Januari 1961 – 31 Desember 1990 adalah standar normal, maka periode 30 tahun dari 1 januari 1971 – 31 Desember 2000 adalah normal (saja). Menurut WMO belum ada keuntungan yang jelas melakukan praktik ini kecuali update yang dilakukan menyediakan nilai normal baru untuk jumlah stasiun yang lebih banyak. Artinya, jika banyak penambahan jumlah stasiun, praktik ini mungkin perlu dilakukan. Update nilai normal yang terlalu sering memiliki kelemahan dalam hal kepraktisan. Kalkulasi ulang harus dilakukan lebih sering terhadap nilai normalnya sekaligus semua dataset yang menggunakan normal sebagai referensi, contohnya anomali suhu.

Menggunakan normal terbaru, contohnya 1981-2010 dapat menghasilkan sedikit peningkatan untuk akurasi prediksi untuk elemen-elemen yang memiliki trend sekuler dimana timeseries menunjukkan peningkatan dan penurunan konsisten ketika diukur dalam jangka panjang. User juga lebih menyukai sesuatu yang lebih ‘baru’. Sayangnya keuntungan ini dihilangkan jika normal digunakan untuk tujuan referensi. Sejumlah penelitian menemukan bahwa periode 30 tahun bukanlah periode rata-rata optimal normal yang digunakan untuk kepentingan prediksi. Periode optimal untuk suhu lebih pendek dari 30 tahun, namun periode optimal untuk curah hujan adalah lebih dari 30 tahun.

Ada dua hal yang menyebabkan data historis mungkin tidak memberikan penjelasan yang baik terkait dengan kondisi iklim saat ini. Pertama, adanya trend sekuler seperti peningkatan suhu akibat perubahan iklim. Kedua, adanya variabilitas multidekadal. Kalau variabilitas ini terjadi dalam siklus multidekadal, mungkin saja ada variabilitas yang tidak tertangkap untuk jangka waktu 30 tahun.

Perlakuan Untuk Dataset dengan Data Hilang

Aturan WMO 100 Mengenai Data Hilang yang Diperbolehkan

Normal tidak boleh dihitung menggunakan dataset yang tidak lengkap karena akan menghasilkan bias. Sayangnya tidak lengkapnya data sering terjadi. Hal ini dapat diakibatkan oleh kerusakan alat, bencana alam, perpindahan stasiun dan lain sebagainya. Jika kehilangan data tidak dapat dihindari, harus ada metode yang digunakan untuk mengisi kehilangan data ini.

Dampak perhitungan yang dihasilkan oleh dataset dengan data hilang bisa bermacam-macam. Pertama, hasil perhitungan normal tidak sesuai. Misalnya sebuah tahun memiliki kejadian hujan ekstrim yang jauh lebih tinggi nilainya dibanding biasanya. Nah, jika karena suatu hal data ini hilang, ketika normal dihitung, hasilnya akan lebih rendah dari seharusnya. Selain itu, hampir semua data klimatologi memiliki autokorelasi (nilai matematika yang menggambarkan derajat kemiripan suatu data dengan versi lag-nya) sehingga jika data hilang terjadi berurutan, dampaknya kan lebih besar dibandingkan dengan data hilang yang acak.

Normal dihitung hanya jika data yang tersedia sekurang-kurangnya 80% dari seluruh tahun pencatatan, dengan tanpa adanya 3 tahun berurutan data hilang. Opsi lainnya bisa dilakukan pada dataset yang data hilangnya cukup panjang namun setelah periode tersebut, datanya cukup lengkap. Jika ini terjadi, maka normal atau rata-rata dihitung menggunakan data setelah periode hilang saja.

Normal atau rata-rata tahunan dihitung sebagai rata-rata atau jumlah dari 12 normal bulanan, tanpa memikirkan beda panjang dari tiap bulannya. Untuk menghitung normal atau rata-rata tahunan ini, tidak diperbolehkan adanya data normal bulanan yang hilang. Nilai bulanan sebaiknya tidak dihitung jika ada 10 hari data hilang atau data hilang berurutan 5 hari atau lebih. Pada kasus dimana nilai bulanan merupakan jumlah, bukan nilai rata-rata (biasanya data hujan dan penyinaran matahari), nilai bulanan dihitung hanya jika semua data harian tersedia, atau jika ada data yang hilang, akumulasi tetap harus mempertimbangkan kemungkinan nilai dari hari-hari yang hilang tersebut (tetap saja datanya harus diisi). Perhitungan standar normal bulanan dan tahunan 30 tahun (WMO/TD-No. 341) merekomendasikan kriteria yang lebih ketat untuk perhitungan rata-rata, dengan batasan 5 hari data hilang atau 3 hari berurutan data hilang.

Pengisian Data Hilang

Ini adalah salah satu bagian rumit yang harus dikerjakan dalam analisis iklim. Kalau sudah membaca subbab sebelumnya, kita bisa lihat kalau kriteria untuk menghitung normal cukup ketat. Sayangnya, kondisi seringkali tidak seindah teori. Pada akhirnya, pengisian data kosong perlu dilakukan untuk melengkapi data.

Ada banyak metode yang dapat digunakan untuk mengisi data hilang dari sebuah dataset. Namun, sebelum kita berpikir untuk mengisi data hilang, perlu diketahui bahwa ada 3 perlakuan yang dapat kita lakukan jika melihat ada data hilang dalam sebuah data set.

  1. Biarkan saja. Pada beberapa analisa, kita tidak perlu memasukkan data hilang karena hal itu langsung diperhitungkan oleh metode analisa itu sendiri
  2. Hapus. Sebuah record bisa saja dihapus jika ada data yang hilang dari record tersebut. Hal ini mungkin bisa dilakukan pada data-data tertentu namun bukan data iklim. Jadi kalau kamu mengelola data iklim, kamu bisa melupakan pilihan untuk menghapus record yang tidak lengkap
  3. Pengisian data hilang. Ini yang paling sering dilakukan kalau ada data klimatologi yang hilang. Meskipun demikian, kalau data hilang terlalu panjang, tidak akan ada metode efektif yang benar-benar bisa mengisi data tersebut sesuai dengan data aslinya.
Apa yang dilakukan jika ada data hilang
Apa yang dilakukan jika ada data hilang [2]

Gambar di atas bersumber dari referensi [2]. Diagram tersebut memberikan penjelasan yang cukup komprehensip mengenai apa yang perlu kita lakukan jika menemukan data hilang. Bagian deletion (penghapusan) bisa diabaikan kalau Anda berurusan dengan data iklim. Umumnya kita akan berurusan dengan bagian kedua yaitu imputation (pengisian).

Metode imputation dapat dibagi menjadi dua, pertama adalah pengisian data untuk data timeseries dan yang kedua pengisian untuk hal-hal umum. Jika data tidak memiliki trend dan tidak memiliki siklus musiman, pengisian data kosong dapat dilakukan dengan mengisikan nilai mean, median atau modusnya. Selain itu, pengisian dapat juga dilakukan dengan memilih data secara acak. Jika data memiliki trend namun tidak ada siklus musiman, pengisian data menggunakan interpolasi linear adalah cara yang tepat. Terakhir, Jika data memiliki siklus musiman dan trend, kita dapat menggunakan interpolasi dan pengaturan musiman. Jika data tidak berupa timeseries (kepuasan pelanggan, hobi, dll), metode penyelesaian dibagi berdasarkan jenis data, kategori atau kontinu.

Itu secara umum, bagaimana praktiknya di bidang klimatologi?

Perlu kita ingat bahwa iklim akan berkaitan dengan data timeseries yang memiliki siklus musiman dan trend. Pengisian data paling sederhana dilakukan dengan menggunakan data pengamatan stasiun-stasiun terdekat pada waktu yang sama. Data tersebut bisa saja dirata-rata, diinterpolasi, atau diberi bobot. Cara kedua yang dapat dilakukan adalah menggunakan interpolasi dari data sebelum dan sesudahnya. Ada berbagai metode interpolasi yang dapat digunakan dengan berbagai tingkatan orde. Perlu diketahui bahwa tingkatan orde lebih tinggi belum tentu lebih efektif mengingat waktu komputasi yang diperlukan kemungkinan besar lebih lama. Ketiga, kita bisa mengestimasikan nilai parameter tertentu menggunakan parameter-parameter hasil pengukuran lain pada waktu yang sama. Misalnya memperkirakan nilai kelembaban tanggal 17 Januari menggunakan suhu dan jumlah radiasi sinar matahari. Parameter yang digunakan menyesuaikan dengan pengetahuan kita tentang tempat pengamatan tersebut. Cara terakhir adalah melakukan hindcast (prakiraan terhadap kondisi iklim yang sudah berlalu) menggunakan berbagai metode prakiraan.

Homogenisasi Data

Data yang digunakan dalam kalkulasi nilai normal dan rata-rata sebaiknya homogen. Homogen di sini maksudnya sebuah dataset dapat mewakili keseluruhan variabilitas yang ada. Dalam konteks mengenai normal dan rata-rata iklim, permasalahan homogenitas yang perlu diperhatikan antara lain: perubahan lokasi observasi, perubahan prosedur observasi, termasuk: perubahan waktu observasi, perubahan tipe instrumen, perubahan kondisi instrumen setelah beberapa lama, dan perubahan dalam pemrosesan data.

Untuk mendeteksi perubahan dan trend, hasilnya akan lebih reliable jika dataset yang homogen digunakan. Hal ini karena kebanyakan metode statistik mengasumsikan bahwa data yang diperiksa bebas dari kesalahan instrumen, koding, pemrosesan atau kesalahan akibat konsisi non meteorologis atau non-klimatologis. Oleh karena itu, jika terjadi inhomogenitas data, assesmen terhadap kondisi trend akan terpengaruh. Meskipun demikian, perlu diingat bahwa sebuah perubahan pada pengamatan mungkin tidak mempengaruhi seluruh elemen iklim dan kalaupun semuanya terpengaruh, belum tentu pengaruhnya sama besar. Di samping itu, beberapa penelitian mungkin perlu meneliti kondisi tidak homogen itu, sehingga tidak perlu dipaksa agar datanya homogen.

Ada beberapa hal yang memberi dampak pada homogenitas data, antara lain:

  1. Perubahan lokasi geografis dari pengamatan
  2. Alih fungsi lahan di sekitar lokasi pengamatan
  3. Tipe, penempatan, eksposure, dan perlindungan instrumen
  4. Kondisi sejarah dan politik
  5. Standar praktek observasi

Adapun beberapa hal yang perlu dilakukan untuk menjaga agar data tetap homogen antara lain:

  1. Menghindari perubahan pada cara koleksi data, cara meng-handle data, prosedur transmisi data dan pengolahan data.
  2. Menggunakan standar pengamatan tetap
  3. Menghindari penggantian instrumen. Kalaupun terpaksa harus diganti, instrumen pengganti sebaiknya memiliki standar yang sama dengan instrumen sebelumnya.

Memastikan jika dataset homogen

  1. Jika ingin mengetahui apakah sebuah dataset homogen, bisa dilakukan uji statistik chi square test, contohnya pada halaman web ini: https://courses.lumenlearning.com/wmopen-concepts-statistics/chapter/test-of-homogeneity/.
  2. Untuk menguji konsistensi data, dapat dilakukan dengan cara membandingkan dataset tersebut dengan dataset lain yang homogen (bisanya dengan metode kurva massa ganda: https://pubs.usgs.gov/wsp/1541b/report.pdf).
  3. Untuk menguji homogenitas dari variasi data, dapat menggunakan scatter plot antara data uji dan data acuan.

Kurva Massa Ganda

Kurva massa ganda adalah alat statistik yang digunakan untuk memverifikasi ukuran-ukuran pengamatan hidrologi seperti curah hujan dan limpasan. Meskipun demikian, untuk menguji konsistensi data, hampir semua elemen iklim bisa diuji menggunakan metode ini. Secara sederhana, metode ini membandingkan antara total akumulasi dataset dengan dataset lain sebagai referensi. Jika rasio antara dataset yang diuji dan referensinya bernilai konsisten, maka data homogen. Perubahan rasio dalam grafik total akumulasi menujukkan bahwa hubungan kedua data berubah. Hal ini bisa karena faktor yang normal atau inhomogenitas. Untuk memastikan bahwa yang menyebabkan adalah inhomogenitas, cek metadata atau pastikan bahwa penyimpangan ini terjadi terus-menerus selama lima tahun. Umumnya hampir semua perubahan bentuk yang tajam dalam grafik tersebut menunjukkan data tidak homogen.

Contoh kurva massa ganda
Sumber: https://pubs.usgs.gov/wsp/1541b/report.pdf

Kurva massa ganda di atas dibuat dengan 2 dataset individual yaitu dataset stasiun A dan dataset stasiun B. Sumbu y menunjukkan presipitasi kumulatif dari masing-masing stasiun, sedangkan sumbu y adalah nilai referensi. Nilai referensi yang digunakan di sini adalah nilai rata-rata curah hujan di seluruh titik stasiun terdekat. Dari gambar, kita bisa mendeteksi adanya ‘break’ di stasiun E. Selain dengan melihat langsung, kita bisa tambahkan juga garis trend untuk data setiap stasiun, cara ini memudahkan kita dalam mengamati titik mana yang menyimpang dari trendnya.

Contoh kurva massa ganda - WMO 100
Contoh kurva massa ganda – WMO 100

Contoh di atas menggunakan garis trend (solid). Garis putus-putus menunjukkan plot data stasiun terhadap dataset referensi. Terlihat jelas kalau ada penyimpangan (data tidak homogen) dengan ciri rasio antara data pengamatan dan data referensinya tidak konsisten. Sayangnya kita tidak bisa melihat jelas dimana ‘break’ terjadi. Masalah ini dapat diselesaikan dengan grafik residual dari dari selisih antara stasiun pengamatan dan stasiun referensi.

Contoh grafik residual kurva massa ganda - WMO 100
Contoh grafik residual kurva massa ganda – WMO 100

Grafik residual dapat menunjukkan dengan lebih jelas dimana perubahan itu terjadi. Dari contoh yang diberikan di atas, terlihat terjadi break pada periode antara 1940-1950. Perubahan yang terjadi di dalam dataset bisa jadi tidak hanya satu. Setelah semua titik ‘break’ ditemukan, kita bisa menentukan faktor koreksi untuk meng-homogenkan data. Sebelum menurunkan faktor koreksi, perlu dibedakan antara bagian data yang perlu dikoreksi dan tidak. Lihat rasio antara dataset pengamatan dan referensinya. periode-periode yang memiliki nilai rasio (slope) yang sama dengan slope garis trend tidak perlu dikoreksi. Yang dikoreksi hanya data yang rasionya tidak sama dengan rasio trendline.

Koreksi dapat dilakukan dengan rumus di bawah ini:

    \[P_{a}= \frac{b_{a}}{b_{0}}P_{0}\]

Dimana:

  • Pa adalah presipitasi setelah dikoreksi (yang rasionya sudah konsisten)
  • ba adalah rasio yang sesuai trendline
  • b0 adalah rasio awal yang tidak sesuai trendline
  • P0 adalah presipitasi sebelum disesuaikan

Dengan demikian, data homogen dapat dihasilkan dan digunakan untuk menghitung normal.

Meskipun ada berbagai teknik yang digunakan untuk mendeteksi dan mengkoreksi data yang tidak homogen, aplikasi teknik-teknik ini sebenarnya subjektif. Setidaknya keputusan apakah hal ini perlu dilakukan masih bersifat subjektif. Artinya, usaha independen untuk menghomogenkan data dapat menghasilkan data yang benar-benar berbeda. Maka dari itu, catatan tentang proses yang dilakukan ketika menghomogenkan data perlu dibuat dengan detil. Data yang sudah dikoreksi bukanlah data yang 100% benar. Data awal jugatidak bisa dikatakan ‘salah’. Meskipun banyak proses dilakukan, data awal harus tetap disimpan.

Perhatian khusus perlu diberikan pada data yang resolusi sub-bulanan (contohnya data harian dan data jam-an) karena data harian yang homogen digunakan untuk mempelajari perubahan dalam nilai ekstrim. Ekstrim hanya terjadi pada kondisi atmosfer yang langka sehingga hanya sedikit data yang ada untuk assesmen. Permasalahan homogenitas untuk kondisi-kondisi unik ini bisa saja sulit. Kejadian-kejadian ekstrim sebaiknya dihomogenisasikan bersama-sama dengan seluruh dataset lengkap. Secara umum teknik homogenisasi memuaskan untuk data bulanan dan tahunan, namun untuk data harian dan ekstrim masih menjadi masalah. Topik ini masih berkembang sehingga bukan tidak mungkin akan muncul berbagai penyesuaian teknik, teknik baru, dll.

Apa metode yang digunakan untuk mengisi data hilang?

Metode pengisian data hilang ada banyak. mulai dari yang paling sederhana dengan mengisi nilai mean, median atau modus. Yang lebih rumit adalah dengan interpolasi (IDW, Spline, Krigging, dll) dan regresi (linear maupun berganda). Yang lebih baru bisa menggunakan Artificial Inteligence, deep learning, K-nearest neighbor, dll

Metode pengisian data hilang mana yang paling efektif

Sejauh ini belum ada metode yang absolut efektif untuk semua kondisi. Untuk mengetahui apakah suatu metode efektif untuk dataset tertentu, perlu dilakukan penelitian terlebih dahulu.

Berapa banyak data hilang yang diijinkan dalam sebuah dataset iklim?

Jika data yang hilang hanya 20% dari tahun-tahun pencatatan, tanpa lebih dari 3 tahun hilang berurutan, normal atau rata-rata masih bisa dihitung.

Apa yang dimaksud dengan data homogen?

Homogen di sini maksudnya sebuah dataset dapat mewakili keseluruhan variabilitas yang ada.

Apa yang dimaksud dengan ‘normal’ dalam kondisi iklim?

nilai normal adalah nilai mean dari setiap elemen iklim. Namun, kita perlu ingat juga bahwa mean atau rata-rata masih belum lengkap tanpa mengetahui frekuensi dan nilai ekstrimnya.

Referensi

  1. WMO 100
  2. https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4

veanti

Siapa penulis utama veantiworld.com? Blog ini dibuat, dikelola, dan ditulis oleh Desak Putu Okta Veanti. Penulis adalah dosen jurusan klimatologi dan juga salah satu lulusan terbaik Sekolah Tinggi Meteorologi Klimatologi dan Geofisika. Penulis lulus Master Program of School of Integrated Climate System Science, University of Hamburg, Germany pada tahun 2017. Saat ini penulis aktif menekuni pekerjaan sebagai dosen, menulis blog, belajar Python, meningkatkan kemampuan bahasa asing, serta mencari informasi mengenai pseudo-science seperti astrologi dan tarot.

Tinggalkan Balasan