❶ 如何用java處理越南語
也覺得應該在要處理的工具里,將編碼改為utf-8
如eclipse里,瀏覽器里.都能改的
❷ 我有一個word文件,是越南語的,用word打開以後顯示亂碼,怎樣解決
安裝越南語輸入法,,把字體文件拷貝到windows下的font文件夾內
亂碼可能是輸入的是vntime字體,要是unicode編碼就不會出現亂碼!
❸ 越南語用什麼字元集顯示,像漢語都是GB2312,英語是ISOIEC8859_1,越南語是什麼
Windows CP1258 字元集
❹ Unicode 編碼 范圍
文字部分
( U+0000 – U+007F) 基本拉丁字元
( U+0080 – U+00FF) 增補拉丁字元集 1
( U+0100 – U+017F) 拉丁字元擴展集 A
( U+0180 – U+024F) 拉丁字元擴展集 B
( U+0370 – U+03FF) 希臘文字中的科普特字元
( U+0370 – U+03FF) 希臘字元
( U+0400 – U+04FF) 西里爾字元
( U+0500 – U+052F) 增補西里爾字元
( U+0530 – U+058F) 亞美尼亞字元
( U+0590 – U+059F) 希伯來字元
( U+0600 – U+06FF) 阿拉伯字元
( U+0700 – U+074F) 敘利亞字元
( U+0750 – U+077F) 增補阿拉伯字元
( U+0780 – U+07BF) 塔納字元
( U+07C0 – U+07FF) N』Ko
( U+0900 – U+097F) 梵文字元
( U+0980 – U+09FF) 孟加拉字元
( U+0A00 – U+0A7F) 果魯穆奇字元
( U+0A80 – U+0AFF) 古吉拉特字元
( U+0B00 – U+0B7F) 奧里亞字元
( U+0B80 – U+0BFF) 泰米爾字元
( U+0C00 – U+0C7F) 泰盧固字元
( U+0C80 – U+0CFF) 埃納德字元
( U+0D00 – U+0D7F) 馬拉亞拉姆字元
( U+0D80 - U+0DFF) 僧伽羅字元
( U+0E00 – U+0E7F) 泰語字元
( U+0E80 – U+0EFF) 寮國語字元
( U+0F00 – U+0FFF) 藏語字元
( U+1000 – U+109F) 緬甸語字元
( U+10A0 – U+10FF) 喬治亞風格字母
( U+1100 – U+11FF) 諺文字母
( U+1200 – U+137F) 衣索比亞字元
( U+1380 – U+139F) 增補衣索比亞字元
( U+1400 – U+167F) 加拿大語字元
( U+13A0 – U+13FF) 切羅基字元
( U+1680 – U+169F) 歐甘字元
( U+16A0 – U+16FF) Runic 字元
( U+1700 – U+171F) 塔加路字元
( U+1720 – U+173F) 哈魯喏字元
( U+1740 – U+175F) Buhid 字元
( U+1760 – U+177F) 泰格班瓦字元
( U+1780 – U+17FF) 高棉字元
( U+1800 – U+18AF) 蒙古字元
( U+1900 – U+194F) 林布字元
( U+1950 – U+197F) 德宏傣文、德傣文,傣訥文字母
( U+1980 – U+19DF) 新傣泐文字母西雙版納傣文、西傣文,
( U+19E0 – U+19FF) 高棉符號
( U+1A00 – U+1A1F) 布吉字元
( U+1B00 – U+1B7F) 巴厘字元
( U+1E00 – U+1EFF) 附加拉丁字元擴展集
( U+1F00 – U+1FFF) 希臘字元擴展集
( U+2C00 – U+2C5F) 格拉哥里字元
( U+2C60 – U+2C7F) 拉丁字元擴展集 C
( U+2C80 – U+2CFF) 科普特字元
( U+2D00 – U+2D2F) 增補喬治亞風格字母
( U+2D30 – U+2D7F) 提非納字元
( U+2D80 – U+2DDF) 衣索比亞字元擴展集
( U+2E80 – U+2EFF) 增補中日韓漢字部首
( U+2F00 – U+2FDF) 康熙部首
( U+2FF0 – U+2FFF) 表意文字描述符
( U+3040 – U+309F) 平假名
( U+30A0 – U+30FF) 片假名
( U+3100 – U+312F) 漢語拼音字母
( U+3130 – U+318F) 諺文相容字母
( U+3190 – U+319F) 漢字注釋標記
( U+31A0 – U+31BF) 漢語拼音字母擴展集
( U+31C0 – U+31EF) 中日韓漢字筆畫
( U+31F0 – U+31FF) 片假名音標擴展集
( U+3400 – U+4DBF) 中日韓統一漢字擴展集 A
( U+4E00 – U+9FBF) 中日韓統一漢字
( U+A000 – U+A48F) Yi 音節符號
( U+A490 – U+A4CF) Yi 字元符號
( U+A720 – U+A7FF) 拉丁字元擴展集 D
( U+A800 – U+A82F) Syloti Nagri 字元
( U+A840 – U+A87F) 八思巴字元
( U+AC00 – U+D7AF) 諺文音節字元
( U+F900 – U+FAFF) 中日韓相容漢字
( U+FB00 – U+FB4F) 字母表達形式字元: 拉丁文相關
( U+FB00 – U+FB4F) 希伯來字母表達形式字元
( U+FB00 – U+FB4F) 亞美尼亞文字相關
( U+FB50 – U+FDFF) 阿拉伯表達形式字元集 A
( U+FE50 – U+FE6F) 小形式變體字元
( U+FE70 – U+FEFF) 阿拉伯表達形式字元集 B
( U+FF00 – U+FFEF) 半形片假名
( U+FF00 – U+FFEF) 半形諺文字母
( U+FF00 – U+FFEF) 全形拉丁字母
( U+10000 – U+1007F) 線狀 B 表音字元
( U+10080 – U+100FF) 線狀 B 表意字元
( U+10100 – U+1013F) 愛琴海數字
( U+10140 – U+1018F) 古希臘數字
( U+10300 – U+1032F) 古義大利語字元
( U+10330 – U+1034F) 哥特字元
( U+10380 – U+1039F) 烏加里特字元
( U+103A0 – U+103DF) 古波斯字元
( U+10400 – U+1044F) 猶他字元
( U+10450 – U+1047F) 蕭伯納風格字元
( U+10480 – U+104AF) 奧斯曼字元
( U+10800 – U+1083F) 塞普勒斯表音字元
( U+10900 – U+1091F) 腓尼基字元
( U+10A00 – U+10A5F) Kharoshihi
( U+12000 – U+123FF) 楔形文字
( U+12400 – U+1247F) 楔形文字數字和標點符號
( U+1D200 – U+1D24F) 古希臘音樂符號
( U+1D360 – U+1D37F) 籌算數字
( U+20000 – U+2A6DF) 中日韓統一漢字擴展集 B
( U+2F800 – U+2FA1F) 增補中日韓相容漢字
+++++++++++++++++++++++++++++++++++++++++++++++
符號部分
++++++++++++++++++++++++++++++++++++++++++++++++
( U+0000 – U+007F) ASCII 標點符號
( U+0000 – U+007F) ASCII 數字
( U+0000 – U+007F) 美元、歐元符號
( U+0000 – U+007F) 控制符 C0
( U+0080 – U+00FF) 增補拉丁字元集 1 標點符號
( U+0080 – U+00FF) 日元、英鎊和分幣
( U+0080 – U+00FF) 控制符 C1
( U+0250 – U+02AF) 國際音標擴展集
( U+02B0 – U+02FF) 間隔修飾符
( U+0300 – U+036F) 組合區分標記
( U+1D00 – U+1D7F) 音標擴展集
( U+1D80 – U+1DBF) 增補音標擴展集
( U+1DC0 – U+1DFF) 增補組合區分標記
( U+2000 – U+206F) 通用標點符號
( U+2000 – U+206F) 排版控制符
( U+2000 – U+206F) 不可見操作符
( U+2070 – U+209F) 上標和下標字元
( U+20A0 – U+20CF) 貨幣符號
( U+20A0 – U+20CF) 芬尼
( U+20D0 – U+20FF) 符號組合區分標記
( U+2100 – U+214F) 字母類符號
( U+2100 – U+214F) 馬克
( U+2150 – U+218F) 數字形式字元
( U+2190 – U+21FF) 箭頭符號
( U+2200 – U+22FF) 數學運算符
( U+2300 – U+23FF) 綜合技術符號
( U+2400 – U+243F) 控制符圖示
( U+2440 – U+245F) 光學字元識別符號
( U+2460 – U+24FF) 帶圈字母和數字
( U+2500 – U+257F) 框線繪制符號
( U+2580 – U+259F) 方形組塊圖符
( U+25A0 – U+25FF) 幾何圖形
( U+2600 – U+26FF) 綜合符號
( U+2700 - U+27BF) 印刷符號
( U+27C0 – U+27EF) 綜合數學符號集合 A
( U+27F0 – U+27FF) 增補箭頭符號集合 A
( U+2800 – U+28FF) 盲人點字圖符
( U+2900 – U+297F) 增補箭頭符號集合 B
( U+2980 – U+29FF) 綜合數學符號集合 B
( U+2A00 – U+2AFF) 增補數學運算符
( U+2B00 – U+2BFF) 綜合符號和箭頭
( U+2E00 – U+2E7F) 增補標點符號
( U+3000 – U+303F) 中日韓標點符號
( U+3200 – U+32FF) 帶圈中日韓相容表音文字字母和月份符號
( U+3300 – U+33FF) 中日韓相容符號
( U+4DC0 – U+4DFF) 《易經》六爻符號
( U+A700 – U+A71F) 改進的音標字母
( U+FB50 – U+FDFF) 里亞爾符號
( U+FE00 – U+FE0F) 變體選擇符
( U+FE10 – U+FE1F) 豎排標點符號
( U+FE20 – U+FE2F) 半形組合標記
( U+FF00 – U+FFEF) 全形 ASCII 標點符號
( U+FF00 – U+FFEF) 全形 ASCII 數字
( U+FF00 – U+FFEF) 全形貨幣符號
( U+FFF0 – U+FFFF) 專用符號
( U+1D000 – U+1D0FF) 拜占庭音樂符號
( U+1D000 – U+1D0FF) 西方音樂符號
( U+1D200 – U+1D24F) 古希臘音樂符號
( U+1D300 – U+1D35F) 《太玄經》符號
( U+1D400 – U+1D4FF) 數學文字元號
( U+E0000 – U+E007F) 標記符號
( U+E0100 – U+E01EF) 增補變體選擇符
( U+F0000 – U+FFFFD) 增補私用 A 區
( U+100000 – U+10FFFD) 增補私用 B 區
( U+0000 – U+007F) 基本拉丁字元
( U+0000 – U+007F) ASCII 標點符號
( U+0000 – U+007F) ASCII 數字
( U+0000 – U+007F) 美元、歐元符號
( U+0000 – U+007F) 控制符 C0
( U+0080 – U+00FF) 增補拉丁字元集 1
( U+0080 – U+00FF) 增補拉丁字元集 1 標點符號
( U+0080 – U+00FF) 日元、英鎊和分幣
( U+0080 – U+00FF) 控制符 C1
( U+0100 – U+017F) 拉丁字元擴展集 A
( U+0180 – U+024F) 拉丁字元擴展集 B
( U+0250 – U+02AF) 國際音標擴展集
( U+02B0 – U+02FF) 間隔修飾符
( U+0300 – U+036F) 組合區分標記
( U+0370 – U+03FF) 希臘文字中的科普特字元
( U+0370 – U+03FF) 希臘字元
( U+0400 – U+04FF) 西里爾字元
( U+0500 – U+052F) 增補西里爾字元
( U+0530 – U+058F) 亞美尼亞字元
( U+0590 – U+059F) 希伯來字元
( U+0600 – U+06FF) 阿拉伯字元
( U+0700 – U+074F) 敘利亞字元
( U+0750 – U+077F) 增補阿拉伯字元
( U+0780 – U+07BF) 塔納字元
( U+07C0 – U+07FF) N』Ko
( U+0900 – U+097F) 梵文字元
( U+0980 – U+09FF) 孟加拉字元
( U+0A00 – U+0A7F) 果魯穆奇字元
( U+0A80 – U+0AFF) 古吉拉特字元
( U+0B00 – U+0B7F) 奧里亞字元
( U+0B80 – U+0BFF) 泰米爾字元
( U+0C00 – U+0C7F) 泰盧固字元
( U+0C80 – U+0CFF) 埃納德字元
( U+0D00 – U+0D7F) 馬拉亞拉姆字元
( U+0D80 - U+0DFF) 僧伽羅字元
( U+0E00 – U+0E7F) 泰語字元
( U+0E80 – U+0EFF) 寮國語字元
( U+0F00 – U+0FFF) 藏語字元
( U+1000 – U+109F) 緬甸語字元
( U+10A0 – U+10FF) 喬治亞風格字母
( U+1100 – U+11FF) 諺文字母
( U+1200 – U+137F) 衣索比亞字元
( U+1380 – U+139F) 增補衣索比亞字元
( U+1400 – U+167F) 加拿大語字元
( U+13A0 – U+13FF) 切羅基字元
( U+1680 – U+169F) 歐甘字元
( U+16A0 – U+16FF) Runic 字元
( U+1700 – U+171F) 塔加路字元
( U+1720 – U+173F) 哈魯喏字元
( U+1740 – U+175F) Buhid 字元
( U+1760 – U+177F) 泰格班瓦字元
( U+1780 – U+17FF) 高棉字元
( U+1800 – U+18AF) 蒙古字元
( U+1900 – U+194F) 林布字元
( U+1950 – U+197F) 德宏傣文、德傣文,傣訥文字母
( U+1980 – U+19DF) 新傣泐文字母西雙版納傣文、西傣文,
( U+19E0 – U+19FF) 高棉符號
( U+1A00 – U+1A1F) 布吉字元
( U+1B00 – U+1B7F) 巴厘字元
( U+1D00 – U+1D7F) 音標擴展集
( U+1D80 – U+1DBF) 增補音標擴展集
( U+1DC0 – U+1DFF) 增補組合區分標記
( U+1E00 – U+1EFF) 附加拉丁字元擴展集
( U+1F00 – U+1FFF) 希臘字元擴展集
( U+2000 – U+206F) 通用標點符號
( U+2000 – U+206F) 排版控制符
( U+2000 – U+206F) 不可見操作符
( U+2070 – U+209F) 上標和下標字元
( U+20A0 – U+20CF) 貨幣符號
( U+20A0 – U+20CF) 芬尼
( U+20D0 – U+20FF) 符號組合區分標記
( U+2100 – U+214F) 字母類符號
( U+2100 – U+214F) 馬克
( U+2150 – U+218F) 數字形式字元
( U+2190 – U+21FF) 箭頭符號
( U+2200 – U+22FF) 數學運算符
( U+2300 – U+23FF) 綜合技術符號
( U+2400 – U+243F) 控制符圖示
( U+2440 – U+245F) 光學字元識別符號
( U+2460 – U+24FF) 帶圈字母和數字
( U+2500 – U+257F) 框線繪制符號
( U+2580 – U+259F) 方形組塊圖符
( U+25A0 – U+25FF) 幾何圖形
( U+2600 – U+26FF) 綜合符號
( U+2700 - U+27BF) 印刷符號
( U+27C0 – U+27EF) 綜合數學符號集合 A
( U+27F0 – U+27FF) 增補箭頭符號集合 A
( U+2800 – U+28FF) 盲人點字圖符
( U+2900 – U+297F) 增補箭頭符號集合 B
( U+2980 – U+29FF) 綜合數學符號集合 B
( U+2A00 – U+2AFF) 增補數學運算符
( U+2B00 – U+2BFF) 綜合符號和箭頭
( U+2C00 – U+2C5F) 格拉哥里字元
( U+2C60 – U+2C7F) 拉丁字元擴展集 C
( U+2C80 – U+2CFF) 科普特字元
( U+2D00 – U+2D2F) 增補喬治亞風格字母
( U+2D30 – U+2D7F) 提非納字元
( U+2D80 – U+2DDF) 衣索比亞字元擴展集
( U+2E00 – U+2E7F) 增補標點符號
( U+2E80 – U+2EFF) 增補中日韓漢字部首
( U+2F00 – U+2FDF) 康熙部首
( U+2FF0 – U+2FFF) 表意文字描述符
( U+3000 – U+303F) 中日韓標點符號
( U+3040 – U+309F) 平假名
( U+30A0 – U+30FF) 片假名
( U+3100 – U+312F) 漢語拼音字母
( U+3130 – U+318F) 諺文相容字母
( U+3190 – U+319F) 漢字注釋標記
( U+31A0 – U+31BF) 漢語拼音字母擴展集
( U+31C0 – U+31EF) 中日韓漢字筆畫
( U+31F0 – U+31FF) 片假名音標擴展集
( U+3200 – U+32FF) 帶圈中日韓相容表音文字字母和月份符號
( U+3300 – U+33FF) 中日韓相容符號
( U+3400 – U+4DBF) 中日韓統一漢字擴展集 A
( U+4DC0 – U+4DFF) 《易經》六爻符號
( U+4E00 – U+9FBF) 中日韓統一漢字
( U+A000 – U+A48F) Yi 音節符號
( U+A490 – U+A4CF) Yi 字元符號
( U+A700 – U+A71F) 改進的音標字母
( U+A720 – U+A7FF) 拉丁字元擴展集 D
( U+A800 – U+A82F) Syloti Nagri 字元
( U+A840 – U+A87F) 八思巴字元
( U+AC00 – U+D7AF) 諺文音節字元
( U+F900 – U+FAFF) 中日韓相容漢字
( U+FB00 – U+FB4F) 字母表達形式字元: 拉丁文相關
( U+FB00 – U+FB4F) 希伯來字母表達形式字元
( U+FB00 – U+FB4F) 亞美尼亞文字相關
( U+FB50 – U+FDFF) 阿拉伯表達形式字元集 A
( U+FB50 – U+FDFF) 里亞爾符號
( U+FE00 – U+FE0F) 變體選擇符
( U+FE10 – U+FE1F) 豎排標點符號
( U+FE20 – U+FE2F) 半形組合標記
( U+FE50 – U+FE6F) 小形式變體字元
( U+FE70 – U+FEFF) 阿拉伯表達形式字元集 B
( U+FF00 – U+FFEF) 半形片假名
( U+FF00 – U+FFEF) 半形諺文字母
( U+FF00 – U+FFEF) 全形拉丁字母
( U+FF00 – U+FFEF) 全形 ASCII 標點符號
( U+FF00 – U+FFEF) 全形 ASCII 數字
( U+FF00 – U+FFEF) 全形貨幣符號
( U+FFF0 – U+FFFF) 專用符號
( U+10000 – U+1007F) 線狀 B 表音字元
( U+10080 – U+100FF) 線狀 B 表意字元
( U+10100 – U+1013F) 愛琴海數字
( U+10140 – U+1018F) 古希臘數字
( U+10300 – U+1032F) 古義大利語字元
( U+10330 – U+1034F) 哥特字元
( U+10380 – U+1039F) 烏加里特字元
( U+103A0 – U+103DF) 古波斯字元
( U+10400 – U+1044F) 猶他字元
( U+10450 – U+1047F) 蕭伯納風格字元
( U+10480 – U+104AF) 奧斯曼字元
( U+10800 – U+1083F) 塞普勒斯表音字元
( U+10900 – U+1091F) 腓尼基字元
( U+10A00 – U+10A5F) Kharoshihi
( U+12000 – U+123FF) 楔形文字
( U+12400 – U+1247F) 楔形文字數字和標點符號
( U+1D000 – U+1D0FF) 拜占庭音樂符號
( U+1D000 – U+1D0FF) 西方音樂符號
( U+1D200 – U+1D24F) 古希臘音樂符號
( U+1D200 – U+1D24F) 古希臘音樂符號
( U+1D300 – U+1D35F) 《太玄經》符號
( U+1D360 – U+1D37F) 籌算數字
( U+1D400 – U+1D4FF) 數學文字元號
( U+20000 – U+2A6DF) 中日韓統一漢字擴展集 B
( U+2F800 – U+2FA1F) 增補中日韓相容漢字
( U+E0000 – U+E007F) 標記符號
( U+E0100 – U+E01EF) 增補變體選擇符
( U+F0000 – U+FFFFD) 增補私用 A 區
( U+100000 – U+10FFFD)增補私用 B 區
韓語 AC00-D7AF 1100-11FF 3130-318F
日語 3040-309F 30A0-30FF 31F0-31FF
泰語 0e00-0e7f
越南語 Basic Latin, Latin-1 Supplement, Latin Extended-A, Latin Extended-B, Latin Extended Additional
空格 0020 00A0
❺ 怎麼安裝越南語輸入法系統
1、越南人使用的XP是英文系統;
2、電腦中輸入越南文可安裝越文輸入法;
3、所有的windows操作系統都支持越南語(Unicode)的讀寫,某些非Unicode編碼的越文需安裝類似Vntime字體方可正確顯示
4、進入控制面板--區域和語言選項--格式里,選擇「越南語」,位置里,選擇「越南」
❻ T i yêu b n 誰幫我把越南語翻譯成中文 急啊
原文是用的ABC或者VNI編碼寫的,所以在貼的時候是亂碼.
據GOOGLE機器人的翻譯,是說:
"消息人士說,我愛你"
但這明顯是GOOGLE機器人在亂忽悠人的.
大概意思應該是"某某,我愛你"之類的意思.
在前面的姓名中,應該是對一個叫什麼"玉"的人說的.
但這種愛是博愛的,不是男歡女愛的那種.
❼ UTF-8,和Unicode是什麼關系 UTF-8的全稱又是什麼
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,又稱萬國碼。由Ken Thompson於1992年創建。現在已經標准化為RFC 3629。UTF-8用1到6個位元組編碼Unicode字元。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)。
在所有字元集中,最知名的可能要數被稱為ASCII的7位字元集了。它是美國標准信息交換代碼(American Standard Code for Information Interchange)的縮寫, 為美國英語通信所設計。它由128個字元組成,包括大小寫字母、數字0-9、標點符號、非列印字元(換行符、製表符等4個)以及控制字元(退格、響鈴等)組成。
但是,由於他是針對英語設計的,當處理帶有音調標號(形如漢語的拼音)的亞洲文字時就會出現問題。因此,創建出了一些包括255個字元的由ASCII擴展的字元集。其中有一種通常被稱為IBM字元集,它把值為128-255之間的字元用於畫圖和畫線,以及一些特殊的歐洲字元。另一種8位字元集是ISO 8859-1Latin 1,也簡稱為ISOLatin-1。它把位於128-255之間的字元用於拉丁字母表中特殊語言字元的編碼,也因此而得名。歐洲語言不是地球上的唯一語言,因此亞洲和非洲語言並不能被8位字元集所支持。僅漢語字母表(或pictograms)就有80000以上個字元。
但是把漢語、日語和越南語的一些相似的字元結合起來,在不同的語言里,使不同的字元代表不同的字,這樣只用2個位元組就可以編碼地球上幾乎所有地區的文字。因此,創建了UNICODE編碼。
它通過增加一個高位元組對ISO Latin-1字元集進行擴展,當這些高位元組位為0時,低位元組就是ISO Latin-1字元。UNICODE支持歐洲、非洲、中東、亞洲(包括統一標準的東亞象形漢字和韓國表音文字)。但是,UNICODE並沒有提供對諸如Braille,Cherokee, Ethiopic, Khmer, Mongolian, Hmong, Tai Lu, Tai Mau文字的支持。同時它也不支持如Ahom, Akkadian, Aramaic,BabylonianCuneiform, Balti, Brahmi, Etruscan, Hittite, Javanese, Numidian, Old Persian Cuneiform, Syrian之類的古老文字。
事實證明,對可以用ASCII表示的字元使用UNICODE並不高效,因為UNICODE比ASCII佔用大一倍的空間,而對ASCII來說高位元組的0對他毫無用處。為了解決這個問題,就出現了一些中間格式的字元集,他們被稱為通用轉換格式,即UTF(Unicode Transformation Format)。常見的UTF格式有:UTF-7, UTF-7.5, UTF-8,UTF-16, 以及UTF-32。
如果UNICODE字元由2個位元組表示,則編碼成UTF-8很可能需要3個位元組。而如果UNICODE字元由4個位元組表示,則編碼成UTF-8可能需要6個位元組。用4個或6個位元組去編碼一個UNICODE字元可能太多了,但很少會遇到那樣的UNICODE字元。
UTF-8編碼規則:如果只有一個位元組則其最高二進制位為0;如果是多位元組,其第一個位元組從最高位開始,連續的二進制位值為1的個數決定了其編碼的位元組數,其餘各位元組均以10開頭。
實際表示ASCII字元的UNICODE字元,將會編碼成1個位元組,並且UTF-8表示與ASCII字元表示是一樣的。所有其他的UNICODE字元轉化成UTF-8將需要至少2個位元組。每個位元組由一個換碼序列開始。第一個位元組由唯一的換碼序列,由n位連續的1加一位0組成, 首位元組連續的1的個數表示字元編碼所需的位元組數。
Unicode轉換為UTF-8時,可以將Unicode二進制從低位往高位取出二進制數字,每次取6位,如上述的二進制就可以分別取出為如下示例所示的格式,前面按格式填補,不足8位用0填補。
小結 :用通信理論的思路可以理解為:
unicode是信源編碼,對字元集數字化;
utf8是信道編碼,為更好的存儲和傳輸。
註:Unicode轉換為UTF-8需要的位元組數可以根據這個規則計算:如果Unicode小於0X80(Ascii字元),則轉換後為1個位元組。否則轉換後的位元組數為Unicode二進制位數減1再除以5。
參考:度女良
❽ 請問,有沒有知道怎麼把越南語保存為ansi格式
保存到ansi 方式是不對的,提出來也會有亂碼和丟失字元。應該保存為 Unicode方式