TECHNOLOGY

Bagaimana Penimbunan Data Merupakan Ancaman Baru terhadap Privasi dan Perubahan Iklim

Karena pembelajaran mesin dan algoritma data-intensif lainnya berkembang biak, lebih banyak organisasi menimbun data dengan harapan bisa mengubahnya menjadi sesuatu yang berharga. Dari agen mata-mata hingga penyedia infrastruktur jaringan, pengumpulan data adalah bagian tak terpisahkan dari ekonomi digital. Data terbaik dapat dikombinasikan dengan algoritma pintar untuk melakukan hal-hal yang luar biasa – tetapi penimbunan digital dan beban kerja yang intensif secara komputasi juga memiliki eksternalitas. Biaya listrik – dan karena itu dampak lingkungan – dari penghitungan adalah luar biasa dan terus bertambah. Model pembelajaran mesin (ML) modern adalah contoh utama. Mereka membutuhkan sejumlah besar energi untuk memproses gunung data. Biaya komputasi model pelatihan ML telah tumbuh secara eksponensial sejak 2012, dengan periode penggandaan 18 bulan, menurut OpenAI. Dalam beberapa bulan terakhir, penelitian serupa telah menunjukkan bahwa biaya listrik dari cryptocurrency dan streaming video juga signifikan dan terus bertambah. Memproduksi listrik ini menghasilkan pembuangan secara harfiah dalam banyak kasus – ada beberapa peternakan server yang berharga yang menggunakan energi terbarukan 100% – dan dengan perubahan iklim yang semakin besar, saatnya kita mengakui dampak lingkungan dari perhitungan. Sama seperti membungkus setiap hal kecil dalam kantong plastik, beberapa penggunaan CPU kita sembrono dan boros. Ilmu komputer dan ahli teknik telah mengeluh tentang ini selama bertahun-tahun. Beberapa menunjukkan bahwa kami pergi ke bulan hanya dengan 4kb RAM. Lainnya merinci bagaimana lambat dan membengkaknya perangkat lunak modern. Jonathan Blow bertindak lebih jauh dengan memperingatkan tentang keruntuhan yang akan datang dari seluruh disiplin rekayasa perangkat lunak karena hilangnya pengetahuan antargenerasi. Sebagian besar waktu argumen ini diposisikan dalam hal elitisme rekayasa. Para pendukungnya nostalgia mengingatkan kembali ke masa ketika itu benar-benar berarti sesuatu untuk menjadi insinyur perangkat lunak. Mereka memarahi pemula karena tidak tahu lebih baik sambil memamerkan rambut indah mereka, diwarnai dengan pengalaman kelabu keperakan. Meskipun direndahkan, mereka tidak sepenuhnya salah.

Saat komputer semakin cepat dan semakin cepat, program komputer sebenarnya semakin lambat. Pengguna akhir tidak memperhatikan karena program yang lebih lambat masih berjalan cepat di komputer yang lebih cepat. Akibatnya, banyak pengembang jarang harus fokus menggunakan siklus memori atau CPU secara efisien. CPU kami yang luar biasa dapat menjalankan kode yang relatif tidak efisien bahkan cukup cepat untuk sebagian besar pengguna. Alat dan bahasa pemrograman yang memprioritaskan waktu pengembang daripada CPU dan efisiensi memori telah menjadi norma. AWS dan layanan cloud lainnya melambangkan tradeoff ini – mengapa menghabiskan waktu pengembangan berminggu-minggu mengoptimalkan kode ketika Amazon dapat secara otomatis menghidupkan beberapa server lagi ketika kita membutuhkannya.

“Lebih efisien lebih baik,” hanya saja tidak memotivasi saya dengan cara yang sama seperti, “kita harus melakukan bagian kita untuk menghemat listrik, karena perubahan iklim adalah ancaman eksistensial bagi kemanusiaan.”

Tidak ada yang salah dengan para profesional yang mencoba memegang industri dengan standar tinggi. Tapi saya berharap kerumunan pro-efisiensi akan menggunakan taktik yang lebih persuasif daripada memarahi tautologis. Mungkin hanya saya, tetapi “lebih efisien lebih baik,” tidak memotivasi saya dengan cara yang sama seperti, “kita harus melakukan bagian kita untuk menghemat listrik karena perubahan iklim merupakan ancaman eksistensial bagi manusia.” Ini bukan hanya tentang tidak efisiennya penggunaan listrik juga. Data yang kami hasilkan sendiri adalah sejenis polutan digital – jenis sampah baru untuk era informasi. Beberapa data adalah produk limbah dengan cara yang sama seperti junk mail adalah produk limbah. Berapa banyak sumber daya komputasi yang didedikasikan untuk miliaran email spam yang dikirim setiap hari? Berapa banyak bandwidth yang didedikasikan untuk iklan yang tidak diklik di sidebar Anda? Semakin banyak catatan dari hampir setiap transaksi digital – tidak peduli seberapa sepele – ditransmisikan ke pusat data dan disimpan. Mungkin tampak hiperbola untuk memainkan beberapa bagian yang sia-sia, tetapi ini adalah masalah serius.

Twitter mengklaim mereka memiliki sekitar 126 juta pengguna aktif harian di bulan Februari. Jika setiap pengguna memuat beranda hanya sekali sehari, itu mewakili 756 terabyte informasi yang dikirimkan setiap hari. Hanya untuk Twitter. Tambahkan Amazon, Facebook, Google, dan yang lainnya, dan kami berbicara sejumlah besar data yang menempati kabel, melewati udara, dan menghabiskan waktu CPU. Apa bagian dari data yang benar-benar memberikan nilai nyata kepada pengguna akhir? Bagian mana yang meluncur melalui layar kita dengan sangat tidak relevan? Semua data ini membutuhkan infrastruktur. Kami membutuhkan lebih banyak dan lebih cepat kabel, router, komputer, dan telepon. Kita perlu meningkatkan dari 4g ke 5g. Kita perlu membangun pusat data dan server farm. Limbah digital ini menghasilkan jumlah infrastruktur fisik yang selalu ada yang semakin meningkat. Jumlah lahan yang digunakan oleh server farm sangat mengejutkan. Elektronik ini sulit didaur ulang dan usang lebih cepat di bawah beban yang lebih tinggi. Proses peningkatan dan penggantian elektronik yang terus-menerus ini telah menciptakan risiko lingkungan dan kesehatan yang serius, terutama karena meningkatnya jumlah komponen elektronik yang dibuang. Jika kami menggunakan infrastruktur ini dengan perawatan yang lebih besar – mentransmisikan dan menyimpan data seefisien mungkin – kami dapat secara signifikan mengurangi kebutuhan infrastruktur dan listrik kami. Beberapa dari data ini bersifat parasit – menguntungkan beberapa dengan mengorbankan yang lain. Pengiklan melacak kami saat kami menjelajahi internet. Ekstensi peramban memanen riwayat web kami. Aplikasi cuaca melacak lokasi kami. Daftarnya berlanjut. Berbagai aspek sejarah pribadi kami ini dijual kepada pialang data, yang mengemas ulang dan menjual kembali data gabungan tersebut ke pihak ketiga, keempat, dan kelima. Bagi kebanyakan orang, data ini adalah limbah yang harus dibuang begitu saja. Kebanyakan orang tidak akan pernah melakukan audit menyeluruh terhadap sejarah internet mereka, tetapi bagi pengiklan dan ahli strategi politik, ini bisa menjadi tambang emas. Lebih buruk lagi, pemerintah dan perusahaan akan terus menjadi korban peretas. Sumber data ini pasti akan jatuh ke tangan aktor jahat. Ada juga banyak bukti yang menunjukkan bahwa keberadaan set data besar – masing-masing secara individu tidak berbahaya – dapat berjumlah sesuatu yang lebih berbahaya. Dengan mengkorelasikan informasi dari beberapa sumber yang berbeda, penyerang dapat merusak profil yang jelas dan menggunakan informasi tersebut untuk menghubungkan potongan data yang lebih sensitif. Begitu banyak set data yang “dianonimkan” telah dikompromikan menggunakan taktik ini sehingga beberapa orang di lapangan menyatakan “anonimisasi sudah mati.” Para peneliti ini menyerukan paradigma baru yang memprioritaskan transparansi terkait pengumpulan data daripada upaya menganonimkan data.

Dan beberapa data – seperti limbah radioaktif, jarum bekas, atau jaringan berdarah – berbahaya bahkan untuk bertelur. Nomor jaminan sosial, nomor kartu kredit, informasi SIM, atau informasi yang sangat sensitif lainnya hanya boleh disimpan jika benar-benar diperlukan, dan dengan tindakan pencegahan khusus untuk mencegahnya dari jangkauan aktor jahat. Patut dikatakan bahwa ada, tentu saja, sejumlah besar insinyur berfokus pada pengoptimalan kinerja dan pelestarian privasi. Dan masih banyak lagi yang bisa dilakukan. Salah satu aspek paling indah dari perangkat lunak di era internet adalah bahwa kita dapat menyebarkan peningkatan secara instan di seluruh dunia. Pembaruan mulai berdampak langsung, dan pemotongan untuk pemrosesan dan persyaratan data bertambah seiring waktu.

Seperti halnya industri bahan bakar fosil, banyak perusahaan pemrograman telah memperkaya diri mereka sendiri dengan data sambil mengabaikan eksternalitas produk mereka.

Kembali ke perkiraan kasar kami dari atas: Jika saja Twitter memotong berat halamannya hingga setengahnya, itu akan menghemat 378 terabyte transmisi data per hari. Jika setiap perusahaan berupaya untuk hanya menyimpan data yang benar-benar diperlukan, dan mengamankan data tersebut dari aktor jahat, kita semua akan lebih aman dari pelanggaran privasi. Seperti halnya industri bahan bakar fosil, banyak perusahaan pemrograman telah memperkaya diri mereka sendiri dengan data sambil mengabaikan eksternalitas produk mereka. Apakah perusahaan akan mulai mengambil tindakan pencegahan itu atau tidak adalah pertanyaan lain. Yang mengingatkan saya: jangan lupa untuk mengklaim pembayaran Equifax $ 125 Anda.