ยูนิโคด

ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่น อักษรอาหรับ หรือ อักษรฮีบรู ที่เขียนจากขวาไปซ้าย) ^[1]

อักขระยูนิโคดทั้งหมดเมื่อพิมพ์ลงกระดาษ (รวมทั้งสองแผ่น)

ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง เช่น เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่

ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์ สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)

สมาคม Unicode

สมาคม Unicode เป็นองค์กรไม่แสวงหากำไรที่ประสานงานการพัฒนา Unicode สมาชิกเต็มรูปแบบประกอบด้วยบริษัทซอฟต์แวร์และฮาร์ดแวร์คอมพิวเตอร์หลักส่วนใหญ่ที่มีความสนใจในมาตรฐานการประมวลผลข้อความ รวมถึง Adobe, Apple, Facebook, Google, IBM, Microsoft, Netflix และ SAP SE.^[2]

สมาคมมีเป้าหมายที่ทะเยอทะยานในการแทนที่โครงร่างการเข้ารหัสอักขระที่มีอยู่ด้วย Unicode และโครงร่าง Unicode Transformation Format (UTF) มาตรฐาน เนื่องจากโครงร่างที่มีอยู่จำนวนมากมีขนาดและขอบเขตที่จำกัดและไม่เข้ากันกับ multilingual สภาพแวดล้อม

อักขระ Unicode ใช้กันอย่างแพร่หลายในการตกแต่งข้อความบนเครือข่ายสังคม สำหรับสิ่งนี้มีแอปพลิเคชั่นพิเศษที่แปลงตัวอักษรธรรมดาเป็นอักขระพิเศษ ^[3]

การเข้ารหัส

UTF-8 เข้ารหัสตัวอักษรเป็นข้อมูลหนึ่งถึงสี่ไบต์ตามลำดับของจุดรหัส ตารางต่อไปนี้แสดงโครงสร้างของการเข้ารหัส ตัว x แทนบิตของจุดรหัส

จุดรหัส <-> UTF-8
จุดรหัสแรก	จุดรหัสท้าย	ไบต์ที่ 1	ไบต์ที่ 2	ไบต์ที่ 3	ไบต์ที่ 4
U+0000	U+007F	0xxxxxxx
U+0080	U+07FF	110xxxxx	10xxxxxx
U+0800	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx
U+10000	U+10FFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

ตัวอย่างการเข้ารหัส
ตัวอักษร		จุดรหัสฐานสอง	UTF-8 ฐานสอง	UTF-8 ฐานสิบหก
$	U+0024	010 0100	00100100	24
¢	U+00A2	000 1010 0010	11000010 10100010	C2 A2
ह	U+0939	0000 1001 0011 1001	11100000 10100100 10111001	E0 A4 B9
€	U+20AC	0010 0000 1010 1100	11100010 10000010 10101100	E2 82 AC
한	U+D55C	1101 0101 0101 1100	11101101 10010101 10011100	ED 95 9C
𐍈	U+10348	0 0001 0000 0011 0100 1000	11110000 10010000 10001101 10001000	F0 90 8D 88

รุ่นยูนิโคด

รุ่น	วันที่	หนังสือ	ความสอดคล้องกับ ชุดอักขระสากล (ISO/IEC 10646)	ชุดอักษร	อักขระ
รุ่น	วันที่	หนังสือ	ความสอดคล้องกับ ชุดอักขระสากล (ISO/IEC 10646)	ชุดอักษร	จำนวน	การเพิ่มเติมที่สำคัญ
1.0.0	ตุลาคม พ.ศ. 2534	ISBN 0-201-56788-1 (Vol.1)		24	7,161	เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกอล, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มลยาฬัม, โอริยา, ทมิฬ, เตลูกู, ไทย และทิเบต ^[4]
1.0.1	มิถุนายน พ.ศ. 2535	ISBN 0-201-60845-6 (Vol.2)		25	28,359	เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว ^[5]
1.1	มิถุนายน พ.ศ. 2536		ISO/IEC 10646-1:1993	24	34,233	เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก ^[6]
2.0	กรกฎาคม พ.ศ. 2539	ISBN 0-201-48345-9	ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7	25	38,950	พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) ^[7]
2.1	พฤษภาคม พ.ศ. 2541		ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18	25	38,952	เครื่องหมายยูโรถูกเพิ่มเข้ามา ^[8]
3.0	กันยายน พ.ศ. 2542	ISBN 0-201-61633-5	ISO/IEC 10646-1:2000	38	49,259	เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ ^[9]
3.1	มีนาคม พ.ศ. 2544		ISO/IEC 10646-1:2000 ISO/IEC 10646-2:2001	41	94,205	เดเซเรท, โกธิก และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว ^[10]
3.2	มีนาคม พ.ศ. 2545		ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1 ISO/IEC 10646-2:2001	45	95,221	เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และตักบันวา ^[11]
4.0	เมษายน พ.ศ. 2546	ISBN 0-321-18578-1	ISO/IEC 10646:2003	52	96,447	ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง ^[12]
4.1	มีนาคม พ.ศ. 2548		ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1	59	97,720	ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย ^[13]
5.0	กรกฎาคม พ.ศ. 2549	ISBN 0-321-48091-0	ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3	64	99,089	บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และฟินิเชีย เพิ่มเข้ามา ^[14]
5.1	เมษายน พ.ศ. 2551		ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4	75	100,713	คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß.^[15]
5.2	ตุลาคม พ.ศ. 2552		ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6	90	107,361	อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม และ ไทเวียด. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับอักษรพระเวท ^[16]
6.0	ตุลาคม พ.ศ. 2553		ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย	93	109,449	บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ^[17]
7.0	มิถุนายน 2557	ISBN 978-1-936213-09-2	ISO/IEC 10646:2012 เพิ่มข้อแก้ไขที่ 1 และ 2 และเครื่องหมายรูเบิล	123	112,956 (2,834 added)	Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats.
8.0	มิถุนายน 2558	ISBN 978-1-936213-10-8	ISO/IEC 10646:2014 pเพิ่มข้อแก้ไขที่ 1 และเครื่องหมายสกุลเงินลารี อักษรภาพรวมจีนญี่ปุ่นเกาหลี9 ตัว และอีโมจิ 41 ตัว	129	120,672 (7,716 added)	Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers.
9.0	มิถุนายน 2559	ISBN 978-1-936213-13-9	ISO/IEC 10646:2014เพิ่มข้อแก้ไขที่ 1 และ 2 และอัดลัม เนวา สัญลักษณ์โทรทัศน์ญี่ปุ่น และอีโมจิกับสัญลักษณ์อีก 74 ตัว	135	128,172 (7,500 added)	Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji.
10.0	มิถุนายน 2560	ISBN 978-1-936213-16-0	ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters	139	136,690 (8,518 added)	Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, 56 emoji, and bitcoin symbol.
11.0	มิถุนายน 2561	ISBN 978-1-936213-19-1	ISO/IEC 10646:2017 plus Amendment 1, as well as 46 Mtavruli Georgian capital letters, 5 CJK unified ideographs, and 66 emoji characters.	146	137,374 (684 added)	Dogra, Georgian Mtavruli capital letters, Gunjala Gondi, Hanifi Rohingya, Indic Siyaq numbers, Makasar, Medefaidrin, Old Sogdian and Sogdian, Mayan numerals, 5 urgently needed CJK unified ideographs, symbols for xiangqi (Chinese chess) and star ratings, and 145 emoji.
12.0	มีนาคม 2562	ISBN 978-1-936213-22-1	ISO/IEC 10646:2017 plus Amendments 1 and 2, as well as 62 additional characters.	150	137,928 (554 added)	Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao script additions for several Miao and Yi dialects in China, hiragana and katakana small letters for writing archaic Japanese, Tamil historic fractions and symbols, Lao letters for Pali, Latin letters for Egyptological and Ugaritic transliteration, hieroglyph format controls, and 61 emoji.
12.1	พฤษภาคม 2562	ISBN 978-1-936213-25-2		150	137,929 (1 added)	เพิ่มอักษรหนึ่งตัวที่ U+32FF ชื่อยุคเรวะแบบมัดเป็นสี่เหลี่ยมจัตุรัส
13.0	มีนาคม 2563	ISBN 978-1-936213-26-9	ISO/IEC 10646:2020	154	143,859 (5,930 added)	Chorasmian, Dives Akuru, Khitan small script, Yezidi, 4,969 CJK unified ideographs added (including 4,939 in Ext. G), Arabic script additions used to write Hausa, Wolof, and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan, Bopomofo additions used for Cantonese, Creative Commons license symbols, graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s, and 55 emoji.
14.0	กันยายน 2564	ISBN 978-1-936213-29-0		159	144,697 (838 added)	Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, Latin script additions at SMP blocks (Ext-F, Ext-G) for use in extended IPA, Arabic script additions for use in languages across Africa and in Iran, Pakistan, Malaysia, Indonesia, Java, and Bosnia, and to write honorifics, additions for Quranic use, other additions to support languages in North America, the Phillipines, India, and Mongolia, addition of the Kyrgyzstani som currency symbol, support for Znamenny musical notation, and 37 emoji.

แผนผังBasic Multilingual Plane หนึ่งกล่องแทน 256 ช่อง

บล็อกต่าง ๆ


ระยะ	ชื่อ	จำนวนช่อง	กำหนดแล้ว	ชุดอักษร
U+0000..U+007F	Basic Latin	128	128	ละติน (52 ตัว), ทั่วไป (76 ตัว)
U+0080..U+00FF	Latin-1 Supplement	128	128	ละติน (64 ตัว), ทั่วไป (64 ตัว)
U+0100..U+017F	Latin Extended-A	128	128	ละติน
U+0180..U+024F	Latin Extended-B	208	208	ละติน
U+0250..U+02AF	IPA Extensions	96	96	ละติน
U+02B0..U+02FF	Spacing Modifier Letters	80	80	ปอพอมอฟอ (2 ตัว), ละติน (14 ตัว), ทั่วไป (64 ตัว)
U+0300..U+036F	Combining Diacritical Marks	112	112	ใช้กับตัวอื่น
U+0370..U+03FF	Greek and Coptic	144	135	คอปติก (14 ตัว), กรีก (117 ตัว), ทั่วไป (4 ตัว)
U+0400..U+04FF	Cyrillic	256	256	ซีริลลิก (254 characters), ใช้กับตัวอื่น (2 ตัว)
U+0500..U+052F	Cyrillic Supplement	48	48	ซีริลลิก
U+0530..U+058F	Armenian	96	91	อาร์เมเนียน
U+0590..U+05FF	Hebrew	112	88	ฮีบรู
U+0600..U+06FF	Arabic	256	256	อาหรับ (238 ตัว), ทั่วไป (6 ตัว), ใช้กับตัวอื่น (12 ตัว)
U+0700..U+074F	Syriac	80	77	ซีเรีย
U+0750..U+077F	Arabic Supplement	48	48	อาหรับ
U+0780..U+07BF	Thaana	64	50	อักษรทานะ
U+07C0..U+07FF	NKo	64	62	อักษรอึนโก
U+0800..U+083F	Samaritan	64	61	Samaritan
U+0840..U+085F	Mandaic	32	29	Mandaic
U+0860..U+086F	Syriac Supplement	16	11	ซีเรีย
U+0870..U+089F	Arabic Extended-B	48	41	อาหรับ
U+08A0..U+08FF	Arabic Extended-A	96	96	อาหรับ (95 ตัว), ทั่วไป (1 ตัว)
U+0900..U+097F	Devanagari	128	128	เทวนาครี (122 ตัว), ทั่วไป (2 ตัว), Inherited (4 ตัว)
U+0980..U+09FF	Bengali	128	96	เบงกอล
U+0A00..U+0A7F	Gurmukhi	128	80	อักษรคุรมุขี
U+0A80..U+0AFF	Gujarati	128	91	คุชราต
U+0B00..U+0B7F	Oriya	128	91	โอริยา
U+0B80..U+0BFF	Tamil	128	72	ทมิฬ
U+0C00..U+0C7F	Telugu	128	100	เตลูกู
U+0C80..U+0CFF	Kannada	128	90	กันนาดา
U+0D00..U+0D7F	Malayalam	128	118	มลยาฬัม
U+0D80..U+0DFF	Sinhala	128	91	สิงหล
U+0E00..U+0E7F	Thai	128	87	ไทย(86 ตัว), ทั่วไป (1 ตัว)
U+0E80..U+0EFF	Lao	128	82	ลาว
U+0F00..U+0FFF	Tibetan	256	211	ทิเบต (207 ตัว), ทั่วไป (4 ตัว)
U+1000..U+109F	Myanmar	160	160	พม่า
U+10A0..U+10FF	Georgian	96	88	จอร์เจีย (87 ตัว), ทั่วไป (1 ตัว)
U+1100..U+11FF	Hangul Jamo	256	256	ฮันกึล
U+1200..U+137F	Ethiopic	384	358	เอธิโอเปีย
U+1380..U+139F	Ethiopic Supplement	32	26	เอธิโอเปีย
U+13A0..U+13FF	Cherokee	96	92	เชโรกี
U+1400..U+167F	Unified Canadian Aboriginal Syllabics	640	640	แคนาดาพื้นเมือง
U+1680..U+169F	Ogham	32	29	Ogham
U+16A0..U+16FF	Runic	96	89	รูน (86 ตัว), ทั่วไป (3 ตัว)
U+1700..U+171F	Tagalog	32	23	ตากาล็อก
U+1720..U+173F	Hanunoo	32	23	Hanunoo (21 characters), Common (2 characters)
U+1740..U+175F	Buhid	32	20	Buhid
U+1760..U+177F	Tagbanwa	32	18	Tagbanwa
U+1780..U+17FF	Khmer	128	114	เขมร
U+1800..U+18AF	Mongolian	176	158	มองโกเลีย (155 ตัว), ทั่วไป (3 ตัว)
U+18B0..U+18FF	Unified Canadian Aboriginal Syllabics Extended	80	70	แคนาดาพื้นเมือง
U+1900..U+194F	Limbu	80	68	Limbu
U+1950..U+197F	Tai Le	48	35	อักษรไทใต้คง
U+1980..U+19DF	New Tai Lue	96	83	อักษรไทลื้อ
U+19E0..U+19FF	Khmer Symbols	32	32	เขมร
U+1A00..U+1A1F	Buginese	32	30	Buginese
U+1A20..U+1AAF	Tai Tham	144	127	อักษรล้านนา
U+1AB0..U+1AFF	Combining Diacritical Marks Extended	80	31	ผสม
U+1B00..U+1B7F	Balinese	128	124	Balinese
U+1B80..U+1BBF	Sundanese	64	64	Sundanese
U+1BC0..U+1BFF	Batak	64	56	Batak
U+1C00..U+1C4F	Lepcha	80	74	Lepcha
U+1C50..U+1C7F	Ol Chiki	48	48	Ol Chiki
U+1C80..U+1C8F	Cyrillic Extended-C	16	9	ซีริลลิก
U+1C90..U+1CBF	Georgian Extended	48	46	จอร์เจีย
U+1CC0..U+1CCF	Sundanese Supplement	16	8	Sundanese
U+1CD0..U+1CFF	Vedic Extensions	48	43	ทั่วไป (16 ตัว), ผสม(27 ตัว)
U+1D00..U+1D7F	Phonetic Extensions	128	128	ซีริลลิก (2 ตัว), กรีก(15 ตัว), ละติน (111 ตัว)
U+1D80..U+1DBF	Phonetic Extensions Supplement	64	64	กรีก (1 ตัว), ละติน (63 ตัว)
U+1DC0..U+1DFF	Combining Diacritical Marks Supplement	64	64	ผสม
U+1E00..U+1EFF	Latin Extended Additional	256	256	ละติน
U+1F00..U+1FFF	Greek Extended	256	233	กรีก
U+2000..U+206F	General Punctuation	112	111	ทั่วไป (109 ตัว), ผสม (2 ตัว)
U+2070..U+209F	Superscripts and Subscripts	48	42	ละติน (15 ตัว), ทั่วไป (27 ตัว)
U+20A0..U+20CF	Currency Symbols	48	33	ทั่วไป
U+20D0..U+20FF	Combining Diacritical Marks for Symbols	48	33	ใช้กับตัวอื่น
U+2100..U+214F	Letterlike Symbols	80	80	กรีก (1 ตัว), ละติน (4 ตัว), ทั่วไป (75 ตัว)
U+2150..U+218F	Number Forms	64	60	ละติน (41 ตัว), ทั่วไป (19 ตัว)
U+2190..U+21FF	Arrows	112	112	ทั่วไป
U+2200..U+22FF	Mathematical Operators	256	256	ทั่วไป
U+2300..U+23FF	Miscellaneous Technical	256	256	ทั่วไป
U+2400..U+243F	Control Pictures	64	39	ทั่วไป
U+2440..U+245F	Optical Character Recognition	32	11	ทั่วไป
U+2460..U+24FF	Enclosed Alphanumerics	160	160	ทั่วไป
U+2500..U+257F	Box Drawing	128	128	ทั่วไป
U+2580..U+259F	Block Elements	32	32	ทั่วไป
U+25A0..U+25FF	Geometric Shapes	96	96	ทั่วไป
U+2600..U+26FF	Miscellaneous Symbols	256	256	ทั่วไป
U+2700..U+27BF	Dingbats	192	192	ทั่วไป
U+27C0..U+27EF	Miscellaneous Mathematical Symbols-A	48	48	ทั่วไป
U+27F0..U+27FF	Supplemental Arrows-A	16	16	ทั่วไป
U+2800..U+28FF	Braille Patterns	256	256	อักษรเบรลล์
U+2900..U+297F	Supplemental Arrows-B	128	128	ทั่วไป
U+2980..U+29FF	Miscellaneous Mathematical Symbols-B	128	128	ทั่วไป
U+2A00..U+2AFF	Supplemental Mathematical Operators	256	256	ทั่วไป
U+2B00..U+2BFF	Miscellaneous Symbols and Arrows	256	253	ทั่วไป
U+2C00..U+2C5F	Glagolitic	96	96	Glagolitic
U+2C60..U+2C7F	Latin Extended-C	32	32	ละติน
U+2C80..U+2CFF	Coptic	128	123	คอปติก
U+2D00..U+2D2F	Georgian Supplement	48	40	จอร์เจีย
U+2D30..U+2D7F	Tifinagh	80	59	ทิฟินาค
U+2D80..U+2DDF	Ethiopic Extended	96	79	เอธิโอเปีย
U+2DE0..U+2DFF	Cyrillic Extended-A	32	32	ซีริลลิก
U+2E00..U+2E7F	Supplemental Punctuation	128	94	ทั่วไป
U+2E80..U+2EFF	CJK Radicals Supplement	128	115	อักษรจีน
U+2F00..U+2FDF	Kangxi Radicals	224	214	อักษรจีน
U+2FF0..U+2FFF	Ideographic Description Characters	16	12	ทั่วไป
U+3000..U+303F	CJK Symbols and Punctuation	64	64	จีน (15 ตัว), ฮันกึล (2 ตัว), ทั่วไป (43 ตัว), ใช้กับตัวอื่น (4 ตัว)
U+3040..U+309F	Hiragana	96	93	ฮิรางานะ (89 ตัว), ทั่วไป (2 ตัว), ใช้กับตัวอื่น (2 ตัว)
U+30A0..U+30FF	Katakana	96	96	คาตากานะ (93 ตัว), ทั่วไป (3 ตัว)
U+3100..U+312F	Bopomofo	48	43	ปอพอมอฟอ
U+3130..U+318F	Hangul Compatibility Jamo	96	94	ฮันกึล
U+3190..U+319F	Kanbun	16	16	ทั่วไป
U+31A0..U+31BF	Bopomofo Extended	32	32	ปอพอมอฟอ
U+31C0..U+31EF	CJK Strokes	48	36	ทั่วไป
U+31F0..U+31FF	Katakana Phonetic Extensions	16	16	คาตากานะ
U+3200..U+32FF	Enclosed CJK Letters and Months	256	255	ฮันกึล (62 ตัว), คาตากานะ (47 ตัว), ทั่วไป (146 ตัว)
U+3300..U+33FF	CJK Compatibility	256	256	คาตากานะ (88 ตัว), ทั่วไป (168 ตัว)
U+3400..U+4DBF	CJK Unified Ideographs Extension A	6,592	6,592	จีน
U+4DC0..U+4DFF	Yijing Hexagram Symbols	64	64	ทั่วไป
U+4E00..U+9FFF	CJK Unified Ideographs	20,992	20,992	อักษรจีน
U+A000..U+A48F	Yi Syllables	1,168	1,165	Yi
U+A490..U+A4CF	Yi Radicals	64	55	Yi
U+A4D0..U+A4FF	Lisu	48	48	Lisu
U+A500..U+A63F	Vai	320	300	Vai
U+A640..U+A69F	Cyrillic Extended-B	96	96	ซีริลลิก
U+A6A0..U+A6FF	Bamum	96	88	Bamum
U+A700..U+A71F	Modifier Tone Letters	32	32	ทั่วไป
U+A720..U+A7FF	Latin Extended-D	224	193	Latin (188 characters), Common (5 characters)
U+A800..U+A82F	Syloti Nagri	48	45	Syloti Nagri
U+A830..U+A83F	Common Indic Number Forms	16	10	ทั่วไป
U+A840..U+A87F	Phags-pa	64	56	อักษรพักส์-ปา
U+A880..U+A8DF	Saurashtra	96	82	Saurashtra
U+A8E0..U+A8FF	Devanagari Extended	32	32	เทวนาครี
U+A900..U+A92F	Kayah Li	48	48	Kayah Li (47 characters), Common (1 character)
U+A930..U+A95F	Rejang	48	37	Rejang
U+A960..U+A97F	Hangul Jamo Extended-A	32	29	ฮันกึล
U+A980..U+A9DF	Javanese	96	91	ชวา (90 ตัว), ทั่วไป (1 ตัว)
U+A9E0..U+A9FF	Myanmar Extended-B	32	31	พม่า
U+AA00..U+AA5F	Cham	96	83	จาม
U+AA60..U+AA7F	Myanmar Extended-A	32	32	พม่า
U+AA80..U+AADF	Tai Viet	96	72	ไทเวียด
U+AAE0..U+AAFF	Meetei Mayek Extensions	32	23	Meetei Mayek
U+AB00..U+AB2F	Ethiopic Extended-A	48	32	Ethiopic
U+AB30..U+AB6F	Latin Extended-E	64	60	Latin (56 characters), Greek (1 character), Common (3 characters)
U+AB70..U+ABBF	Cherokee Supplement	80	80	Cherokee
U+ABC0..U+ABFF	Meetei Mayek	64	56	Meetei Mayek
U+AC00..U+D7AF	Hangul Syllables	11,184	11,172	Hangul
U+D7B0..U+D7FF	Hangul Jamo Extended-B	80	72	Hangul
U+D800..U+DB7F	High Surrogates	896	0	Unknown
U+DB80..U+DBFF	High Private Use Surrogates	128	0	Unknown
U+DC00..U+DFFF	Low Surrogates	1,024	0	Unknown
U+E000..U+F8FF	Private Use Area	6,400	6,400	Unknown
U+F900..U+FAFF	CJK Compatibility Ideographs	512	472	Han
U+FB00..U+FB4F	Alphabetic Presentation Forms	80	58	Armenian (5 characters), Hebrew (46 characters), Latin (7 characters)
U+FB50..U+FDFF	Arabic Presentation Forms-A	688	631	อาหรับ (629 ตัว), ทั่วไป (2 ตัว)
U+FE00..U+FE0F	Variation Selectors	16	16	ผสม
U+FE10..U+FE1F	Vertical Forms	16	10	ทั่วไป
U+FE20..U+FE2F	Combining Half Marks	16	16	ซีริลลิก (2 ตัว), ผสม (14 ตัว)
U+FE30..U+FE4F	CJK Compatibility Forms	32	32	ทั่วไป
U+FE50..U+FE6F	Small Form Variants	32	26	ทั่วไป
U+FE70..U+FEFF	Arabic Presentation Forms-B	144	141	Arabic (140 characters), Common (1 character)
U+FF00..U+FFEF	Halfwidth and Fullwidth Forms	240	225	ฮันกึล (52 ตัว), คาตากานะ (55 ตัว), ละติน(52 ตัว), ทั่วไป (66 ตัว)
U+FFF0..U+FFFF	Specials	16	5	ทั่วไป

ข้อจำกัดและปัญหา

มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน

ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่ วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา

การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น

อ้างอิง

↑ http://www.unicode.org/standard/principles.html#What_Characters
↑ "The Unicode Consortium Members". สืบค้นเมื่อ 4 January 2019.
↑ "อักษรพิเศษ". สืบค้นเมื่อ 2 April 2023.
↑ http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
↑ http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
↑ http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
↑ http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
↑ http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
↑ http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
↑ http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
↑ http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
↑ http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
↑ http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
↑ http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
↑ http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
↑ http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
↑ "Unicode Data 6.0.0". สืบค้นเมื่อ 2010-10-11.

แหล่งข้อมูลอื่น

DecodeUnicode - Unicode WIKI, 50.000 gifs

[1] ttp://www.unicode.org/standard/principles.html#What_Characters

[members-2] "The Unicode Consortium Members". สืบค้นเมื่อ 4 January 2019.

[3] "อักษรพิเศษ". สืบค้นเมื่อ 2 April 2023.

[4] ttp://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt

[5] ttp://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt

[6] ttp://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt

[7] ttp://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt

[8] ttp://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt

[9] ttp://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt

[10] ttp://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt

[11] ttp://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt

[12] ttp://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt

[13] ttp://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt

[14] ttp://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt

[15] ttp://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt

[16] ttp://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt

[17] "Unicode Data 6.0.0". สืบค้นเมื่อ 2010-10-11.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]