Perbedaan Antara UCS-2 Dan UTF-16

perbedaan-antara-ucs-2-dan-utf-16

UTF-16

UTF-16 (16-bit Unicode Transformation Format) adalah pengkodean karakter yang mampu mengkodekan semua 1.112.064 titik kode non-pengganti Unicode (sebenarnya jumlah titik kode ini ditentukan oleh desain UTF-16). Pengkodean adalah variabel-panjang, sebagai titik kode dikodekan dengan satu atau dua unit kode 16-bit. UTF-16 muncul dari pengkodean 16-bit lebar tetap sebelumnya yang dikenal sebagai UCS-2 (untuk Kumpulan Karakter Universal 2-byte) setelah menjadi jelas bahwa lebih dari 216 (65.536) titik kode diperlukan.

UTF-16 digunakan secara internal oleh sistem seperti Microsoft Windows, bahasa pemrograman Java dan JavaScript/ECMAScript. Ini juga sering digunakan untuk teks biasa dan untuk file data pengolah kata di Microsoft Windows. Ini jarang digunakan untuk file pada sistem mirip Unix. Pada Mei 2019, Microsoft tampaknya telah membalikkan arah dan sekarang mendukung dan merekomendasikan penggunaan UTF-8.

UTF-16 adalah satu-satunya pengkodean web yang tidak kompatibel dengan ASCII, dan tidak pernah mendapatkan popularitas di web, di mana ia digunakan oleh kurang dari 0,005% (kurang dari seperseratus 1 persen) halaman web. UTF-8, sebagai perbandingan, digunakan oleh 97% dari semua halaman web. Kelompok Kerja Teknologi Aplikasi Hypertext Web (WHATWG) menganggap UTF-8 "pengkodean wajib untuk semua [teks]" dan bahwa untuk alasan keamanan aplikasi browser tidak boleh menggunakan UTF-16.

Yang Perlu Anda Ketahui Tentang UTF-16

  • UTF adalah singkatan dari Unicode Transformation Format-16.
  • UTF-16 adalah lebar variabel yang menggunakan 2-byte atau 4-byte untuk setiap karakter.
  • UTF-16 dapat mengkodekan 1.112.064 poin kode.
  • UTF-16 mendukung normalisasi. Normalisasi memperlakukan kata-kata yang memiliki arti yang sama tetapi direpresentasikan secara berbeda sebagai identik.
  • Dalam UTF-16, skrip dapat mengidentifikasi arah, sehingga memungkinkan aplikasi untuk merender kata-kata yang disimpan dalam kode dengan benar.
  • Versi Windows saat ini, dari Windows 2000 dan seterusnya, menggunakan UTF-16.

UCS-2

UCS-2 adalah singkatan dari Unicode Character Set Coded in 2 octet. UCS-2 adalah standar pengkodean karakter di mana karakter diwakili oleh panjang tetap 16 bit (2 byte). Ini digunakan sebagai cadangan di banyak jaringan GSM ketika pesan tidak dapat dikodekan menggunakan GSM-7 atau ketika bahasa membutuhkan lebih dari 128 karakter untuk dirender.

UCS-2 dan standar UCS lainnya ditentukan oleh Organisasi Internasional untuk Standardisasi (ISO) dalam ISO 10646. UCS-2 mewakili kemungkinan maksimum 65.536 karakter, atau dalam heksadesimal dari 0000h – FFFFh (2 byte). Karakter di UCS-2 disinkronkan ke Basic Multilingual Plane di Unicode.

Karakter adalah istilah yang kelebihan beban, jadi sebenarnya lebih tepat untuk merujuk pada poin kode. Poin kode memungkinkan abstraksi dari istilah karakter, dan merupakan unit atom penyimpanan informasi dalam pengkodean.

UCS-2 adalah pengkodean lebar tetap; setiap titik kode yang disandikan akan memakan waktu tepat 2 byte. Karena pesan SMS ditransmisikan dalam 140 oktet, pesan yang dikodekan dalam UCS-2 memiliki maksimum 70 karakter (sungguh, poin kode): (140*8) / (2*8) = 70.

Dengan standar Unicode, UCS-2 adalah pengkodean usang karena tidak dirancang untuk memungkinkan karakter dalam apa yang disebut pesawat tambahan atau 'astral' di Unicode. Plane 0, Basic Multilingual Plane, berisi pengkodean karakter untuk apa yang diyakini sebagai karakter yang paling umum digunakan dalam bahasa modern. UCS-2 terbatas pada poin kode FFFFh, atau 65.536 karakter yang mungkin.

UTF-16 adalah penerus UCS-2. dan memiliki kemampuan untuk menangani Base dan 16 bidang Tambahan, dengan jumlah karakter maksimum 10FFFFh, atau 1.114.112 poin kode.

Yang Perlu Anda Ketahui Tentang UCS-2

  • UCS-2 adalah singkatan dari Unicode Character Set Coded in 2 octet.
  • UCS-2 adalah pengkodean karakter 2-byte dengan lebar tetap untuk Unicode.
  • UCS-2 dapat mengkodekan 65.536 poin kode (0-0XFFFF).
  • Di UCS-2, normalisasi tidak terjadi secara otomatis, sehingga aplikasi perlu mengimplementasikan fitur tersebut sendiri.
  • Skrip UCS-2 tidak memiliki kemampuan untuk mengidentifikasi arah, sehingga tidak akan berfungsi dengan skrip seperti Arab dan Ibrani, yang bergerak dari kanan ke kiri.
  • Versi awal Windows, dari Windows NT 3.1 dan Windows 95 dan seterusnya menggunakan UCS-2.

Perbedaan Antara UCS-2 Dan UTF-16

  1. UTF adalah singkatan dari Unicode Transformation Format-16. UCS-2 adalah singkatan dari Unicode Character Set Coded in 2 octet.
  2. UTF-16 adalah lebar variabel yang menggunakan 2-byte atau 4-byte untuk setiap karakter. UCS-2 adalah pengkodean karakter 2-byte dengan lebar tetap untuk Unicode.
  3. UTF-16 dapat mengkodekan 1.112.064 poin kode. UCS-2 dapat mengkodekan 65.536 poin kode (0-0XFFFF).
  4. UTF-16 mendukung normalisasi. Normalisasi memperlakukan kata-kata yang memiliki arti yang sama tetapi direpresentasikan secara berbeda sebagai identik. Di UCS-2, normalisasi tidak terjadi secara otomatis, sehingga aplikasi perlu mengimplementasikan fitur tersebut sendiri.
  5. Dalam UTF-16, skrip dapat mengidentifikasi arah, sehingga memungkinkan aplikasi untuk merender kata-kata yang disimpan dalam kode dengan benar. Skrip UCS-2 tidak memiliki kemampuan untuk mengidentifikasi arah, sehingga tidak akan berfungsi dengan skrip seperti Arab dan Ibrani, yang bergerak dari kanan ke kiri.
  6. Versi Windows saat ini, dari Windows 2000 dan seterusnya, menggunakan UTF-16. Versi awal Windows, dari Windows NT 3.1 dan Windows 95 dan seterusnya menggunakan UCS-2.

Post a Comment

Lebih baru Lebih lama