Internet Derazalar Android
Kengaytirmoq

ASCII ikkilik. ASCII Coding (Axborot almashish uchun Amerika standart kod) - Latiza matn kodlashi

Salom, aziz blogi o'quvchilari veb-sayti. Bugun biz siz bilan Krakoyorbra qaerdan va dasturlar bilan tanishish haqida gaplashamiz, ular qaysi matnli kodlar mavjud va qaysi biri ishlatilishi kerak. Keling, ularning rivojlanish tarixi, shuningdek, ASCII, KOI8-R, Windows 1251 va Unicode UTF 16 va 8 ta konsorsiumining kengaytirilgan versiyalarini batafsil ko'rib chiqaylik.

Kimdir bu ma'lumot keraksiz ko'rinishi mumkin, ammo siz qanday savollar paydo bo'lishini bilib olasiz (belgilar to'plamini o'qimaslik). Endi men barchani ushbu maqolaning matniga yuborish imkoniga ega bo'laman va sizning shoallaringizni mustaqil ravishda qidiraman. Xo'sh, ma'lumotni o'zlashtirishga tayyorlaning va rivoyatni kuzatishga harakat qiling.

ASCII - Latiza matn kodlashi

Matnli kodlarning rivojlanishi uni sanoatning shakllanishi bilan bir vaqtda va shu vaqt ichida ular juda oz sonli o'zgarishlarga duch kelishdi. Tarixan, barchasi EBCDICning talaffuzida zararli bo'lgan, bu lotin alifbosidagi harflarni, hujayra alifbosidagi harflarni, arab raqamlari va tinish belgilarini boshqarish belgilari bilan kodlash imkonini berdi.

Ammo baribir zamonaviy matnli kodlarni rivojlantirishning boshlanish nuqtasi mashhur deb hisoblanishi kerak ASCII. (Ma'lumot almashish uchun Amerika standart kodlari, rus tilida odatda "ASSI" deb e'lon qilinadi). U eng ko'p ishlatiladigan ingliz tilida so'zlashadigan foydalanuvchilar - lotin harflari, arab raqamlari va tinish belgilarining dastlabki 128 belgidan iborat tasvirlangan.

ASCII-da tasvirlangan 128 ta belgidan ham, xizmat ko'rsatish belgilari qavslar, panjara, yulduzchalar va boshqalar tomonidan maydalangan. Aslida, siz ularni ko'rasiz:

Bu ASCIIning dastlabki versiyasidan 128 belgidan iborat standart bo'lib qoldi va boshqa kodlashda siz albatta uchrashasiz va ular shunday munosabatda bo'lasiz.

Ammo haqiqat shundaki, bu ma'lumotning bir bayti bilan 128 ta emas, balki 256 xil qiymatlar (ikkitadan sakkiz darajagacha) 256 ga teng) baza versiyasi Aski bir qator paydo bo'ldi advanced Kodods ASCII128 ta asosiy belgilar, shuningdek, milliy kodlash belgilarini (masalan, rus) kodlashi mumkin edi.

Bu erda, ehtimol, tavsifda ishlatiladigan raqam tizimi haqida biroz ko'proq narsa. Birinchidan, hamma narsani bilganingizdek, kompyuterda faqat institutda yoki maktabda yoki maktabda o'tkazilgan bo'lsa, nol va birliklar bilan birga. Ularning har biri noldan boshlanadigan va ettinchi darajali ikki darajani talab qiladi:

Bunday dizaynda nol va dizayndagi barcha mumkin bo'lgan kombinatsiyalar faqat 256 bo'lishi mumkinligini tushunish qiyin emas. Ikkilik tizimdan o'nlik tizimdan tarjima qiling. Yuqoridagi burilishlarning barcha darajalarini bitta stendning barcha darajasini belgilash kerak.

Bizning misolda, u 1 (ikki darajagacha), plyus 32 (beshinchi darajasida ikki marta), shuningdek, 128 (ettinchi darajasida) . O'nlik raqamli tizimda 233 oladi. Ko'rinib turibdiki, hamma narsa juda oddiy.

Ammo agar siz stolga ASCII belgilari bilan qarasangiz, ular o'n oltilik kodlashda taqdim etilganligini ko'rasiz. Masalan, "yulduzcha" 2a raqamining jannatiga to'g'ri keladi. Ehtimol, bilasizki, siz olti miqdordagi tizim tizimida (o'rtacha o'n) dan f (o'rtacha o'nta) gacha bo'lgan lotin harflari (o'n besh) raqamli tizimda ishlatiladi.

Xo'sh, bu uchun ikkilik raqamlarni o'n miqdorda tarjima qiling Keyingi sodda va vizual tarzda murojaat qiling. Har bir ma'lumotdan iborat ma'lumot to'rtta bitning ikki qismida, yuqoridagi skrinshotda ko'rsatilganidek, to'rtta bitdan iborat. Shunday qilib Baytning har bir yarmida ikkilik kodi faqat o'n olti qiymatdan (to'rtinchi darajadan ikkitasi) kodlashi mumkin, uni Hekaduti uchun osongina ifodalash mumkin.

Bundan tashqari, baytning chap yarmida, skrinshotda ko'rsatilgandek emas, balki uni noldan hisobga olish kerak bo'ladi. Natijada, yaxshi hisoblash orqali e9 raqami skrinshotda kodlanganligini olamiz. Umid qilamanki, bu mening mulohazalarim va bu tanqoning qotib qolganligingiz tushunarli. Xo'sh, endi biz matn kodlashi haqida gapirib, davom etamiz.

Aski - CP866 va koi8-r kodlashning kengaytirilgan versiyalari

Shunday qilib, biz ASCII haqida gapirishni boshladik, bu barcha zamonaviy kodlanishlar (Windows 1251, Unicode, UTF 8) bo'lgan.

Dastlab, u faqat 128 ta lotin alifbosi, arab raqamlari va u erda boshqa narsa yotqizilgan, ammo kengaytirilgan versiyada bitta pate ma'lumotlarida kodlangan barcha 256 qiymatdan foydalanish mumkin edi. Ular. Tilning so'zlarining ramzlarini Ata-Ata-ga qo'shish imkoniyati.

Bu erda yana bir bor aniqlashtirish uchun chalg'itilishi kerak bo'ladi - nega kodlash kerak? matnlar va nima uchun bu juda muhim. Kompyuteringiz ekranidagi belgilar ikki narsa asosida shakllanadi - barcha turdagi belgilar (ular CO-fayllar) to'plamlari (ular fayllar CO-da) va bu vektorli shakllarni olish imkonini beradi ( shrift fayl) bu to'g'ri joyga kiritilishi belgisidir.

Shriftlar vektor shakllari uchun javobgardir, ammo unda ishlatiladigan operatsion tizim va dasturlar kodlash uchun javobgardir. Ular. Kompyuteringizdagi har qanday matn har birida, bu matnning bir qismi kodlangan.

Ushbu matnni ekranda ko'rsatadigan dastur (matn muharriri, brauzer, brauzer, brauzer va boshqalar), u keyingi belgini kodlashni o'qiydi va ulangan shrift faylida ulangan shrift faylida unga mos keladigan vektor shaklini qidiradi va Ushbu matn hujjatini namoyish eting. Hammasi oddiy va tatbiq.

Shunday qilib, biz kerakli har qanday belgini (masalan, milliy alifboflashtirish uchun) kodlash uchun, ikkita shart tugashi kerak - bu belgi shaklida ishlatiladigan shriftda bo'lishi kerak va bu belgi qadar bitta shriftda bitta baytga kengaytirilishi mumkin . Shuning uchun bunday variantlarning umuman bir guruhi bor. Faqat rus tilidagi belgilarni kodlash uchun kengaytirilgan eshaklarning bir nechta navlari mavjud.

Masalan, dastlab paydo bo'ldi CP866.Unda rus alifbosining belgilaridan foydalanish mumkin edi va u ASCIIning kengaytirilgan versiyasi edi.

Ular. Skrinshotda bir oz yuqori bo'lgan, ammo skrinshotda ko'rsatilganidek, uning yuqori qismi Askining asosiy versiyasiga (Lotin, raqamlarning 128 belgilari), ammo skrinshotda joylashgan CP866-ning pastki qismi mavjud edi Ko'rishning bir oz ostidan biroz past va yana 128 ta belgi (rus harflari va har qanday psevdografik) kodlash imkonini berdi:

Qarang, o'ng ustunda raqamlar 8 dan boshlanadi, chunki 0 dan 7 gacha bo'lgan raqamlar ASCIIning asosiy qismiga murojaat qiladi (birinchi ekran rasmiga qarang). Shunday qilib Rossiyaning "M" harfi CP866 kodida 9c kodiga ega bo'ladi (9 ta vall bo'lganlar) bir baytdagi ma'lumotlarda yozilishi mumkin, agar bo'lsa Rus qahramonlari bilan mos keladigan shrift mavjud, bu xat matnda muammosiz ko'rinadi.

Bu miqdor qayerdan kelib chiqqan cP866-da psudografers.? Bu erda shuni anglatadiki, ushbu kodni grafikaning bunday taqsimlanmaganida bunday yorqin yillarda ishlab chiqilgan operatsion tizimlar hozir ham xuddi shunday. Va DOSS va shunga o'xshash matnli operatsiyalarda, hech bo'lmaganda qandaydir qandaydir tarzda matnlar differsiyasini diversifikatsiya qilishga ruxsat berilgan va shuning uchun u Aska versiyalarini amalga oshirgan holda, CP866 va boshqa barcha qatorlar.

CP866 tarqatilgan IBM kompaniyasi, ammo qo'shimcha ravishda, bir qator kodlar rus tilining belgilari uchun bir qator kodlar ishlab chiqilgan, masalan, bir xil turdagi (kengaytirilgan ASCII) bog'liq bo'lishi mumkin Koi8-r.:

Uning ishining printsipi keyinchalik tavsiflangan CP866 bilan bir xil bo'lib qoldi - har bir matn belgisi bitta bayt bilan kodlanadi. Skrinshot koi8-jadvalning ikkinchi yarmini ko'rsatadi, chunki Birinchi bo'lim ushbu moddadagi birinchi ekranda ko'rsatilgan ASUS bazasi bilan to'liq mos keladi.

Koi8-r Encoding xususiyatlari orasida ta'kidlash mumkinki, uning stolidagi rus harflari alifbo tartibida emas, masalan, CP866-da ishlab chiqarilgan.

Agar siz birinchi skrinshotga qarasangiz, KOI8-R-larda, rus harflari birinchi qismidan lotin alifbosidagi harflar sifatida jadvalning bir xil stollarida joylashganligini xabar qiling stol. Bu rus ruslarini lotin tilidan uzatish uchun faqat bitta bitni olib tashlash orqali latinga o'tish uchun qilingan (ikki yoki 128).

Windows 1251 - ASCII ning zamonaviy versiyasi va nima uchun crackels chiqadi

Matnli kodlarni yanada rivojlantirish grafik operatsion tizimlar va ularda psevdografikadan foydalanish zarurligi ommalashdi. Natijada, butun guruh o'z mohiyatiga ko'ra, hali ham Aski versiyalari bor edi (bitta matn belgisi faqat bitta ma'lumotdan faqat bitta ma'lumotga ega), ammo psevdografik belgilardan foydalanmasdan.

Ular Amerika standartlashtirish instituti tomonidan ishlab chiqilgan Ansi kodlash deb nomlangan. Kirillning nomi hanuzgacha rus tilini qo'llab-quvvatlash bilan variantini olish uchun ishlatilgan. Bunday misolning misoli.

Oldindan ishlatiladigan CP866 va Koi8-Ruxsatdan foydalanib, unda rus tilida tipografiyaning yo'qolgan belgilari, shuningdek, rus salaviyasiga yaqin bo'lgan belgilar mavjud edi Tillar (Ukraina, belorus va boshqalar):

Ushbu mo'l-ko'llikning mo'lligi, shriftlar va ishlab chiqaruvchilarning ishlab chiqaruvchilari dasturiy ta'minot U doimo bosh og'rig'i, aziz o'quvchilar, aziz o'quvchilar, ko'pincha eng taniqli bo'lganlardir krakoyabrySardoqlikka chalinganida matnda ishlatiladigan versiya bilan o'rgatilganda.

Ko'pincha ular elektron pochta orqali xabarlarni yuborish va qabul qilishda, aslida bu muammoni hal qilishda ushbu muammoni hal qila olmaydigan va ko'pincha foydalanuvchilar foydalanganda, taniqli krokozzyablarni oldini olish uchun ishlatilgan Rus tilida yozilgan CP866, KOI8-R yoki Windows 1251 o'xshash.

Aslida, "Krakoyorbra" rus matni o'rniga tarqatish kodlashning noto'g'ri ishlatilishi natijasi bo'ldi bu tildanMatnli xabar dastlab kodlanganiga mos kelmadi.

Agar CP866 bilan kodlangan belgilar "Windows 1251" kodi jadvali yordamida displeyni namoyish qilishga harakat qiling va xabar matnini to'liq almashtirishga harakat qiling.

Shunga o'xshash vaziyat ko'pincha, forumlar yoki bloglarda uchraydi, agar rus qahramonlari bo'lsa, xatolar Sebestin kodini qo'shmagan matnli veb-saytda ishlatilmasa, bir xil kodlashda saqlanmaydi yalang'och ko'z bilan ko'rinadi.

Oxir-oqibat, ko'plab kododlar va doimiy ravishda ekinzorlar bo'lgan holatlar, ko'p charchagan holda, yangi universal o'zgarishni yaratish uchun zarur bo'lgan va nihoyat, muammolarning paydo bo'lishi bilan almashtiriladigan yangiversal o'zgarishlarni yaratish uchun zaruriydirlar mavjud edi O'qishli matnlar. Bundan tashqari, shunga o'xshash xitoy tillarida bo'lgan tillar mavjud bo'lib, ularda til belgilari 256 dan oshiq bo'lgan.

Unicode (Unicode) - UTF 8, 16 va 32 Universal kodlari

Janubi-Sharqiy Osiyo til guruhining bu minglab alomatlari aniq ASCII versiyalarida kodlarni kodlash uchun ajratilgan bitta pape ma'lumotlarida tasvirlab berolmaydilar. Natijada, konsorsium deb nomlangan Undosh (Unicode - Unicode konsorsium). Sanoatning ko'plab rahbarlari (Dazmolni kodlaydigan temirni kodlaydigan dasturiy ta'minotni ishlab chiqaradigan dasturiy ta'minot ishlab chiqaradigan dasturiy ta'minotni ishlab chiqaradigan dasturlar).

Unicode konsortsiumining shafeligida birinchi o'zgaruvchanlik edi UTF 32.. Kodlash nomidagi raqam bitta belgini kodlash uchun ishlatiladigan bitlar sonini anglatadi. 32 bit - yangi Universal UTF kodlashida bitta belgini kodlash uchun zarur bo'lgan 4 bayt.

Natijada, matnli ASCII va UTF-32-ning kengaytirilgan versiyasida CECCI-ning kengaytirilgan versiyasida bir xil bo'ladi, ikkinchisida to'rt baravar ko'p bo'ladi. Bu yomon, ammo hozirda biz UTF yordamida ikki-o'ttiz ikkinchi darajaga teng belgilar sonini kodlash imkoniyatiga egamiz ( milliardlab belgilarbu har qanday haqiqiy qiymatni koloslast chegara bilan qoplaydi).

Ammo Evropa guruhining tillari bo'lgan ko'plab davlatlar umuman kodlashda juda ko'p belgilar mavjud va shuning uchun UTF-32-dan foydalanishda, ular to'rt martalik o'sishda qatnashmadi Matnli hujjatlar og'irligida, natijada Internet-trafikning ko'payishi va saqlangan ma'lumotlar hajmi. Bu juda ko'p va hech kim bunday isrofgarchilikka qodir emas.

Unicode rivojlanishi natijasida paydo bo'ldi UTF-16Bu shunchalik muvaffaqiyatli bo'lib, ular biz foydalanadigan barcha belgilar uchun asosiy joy sifatida qabul qilingan. Bir belgini kodlash uchun u ikki baytdan foydalanadi. Keling, bu narsa qanday ko'rinishini ko'rib chiqaylik.

Operatsiya xonasida windows tizimi Siz "Boshlash" - "Dasturlar" - "Standard" - "Xizmat" - "Belgilar jadvali" yo'lidan o'tishingiz mumkin. Natijada, stol sizning shriftingizda o'rnatilgan barcha turdagi vektor shakllari bilan stol ochiladi. Agar siz Unicode belgilari to'plamini "qo'shimcha parametrlar" to'plamini tanlasangiz, har bir shriftni alohida-alohida o'z ichiga olgan barcha shriftlarni alohida-alohida-alohida-ni ko'rishingiz mumkin.

Aytgancha, ularning birortasini bosish, siz uni ikki marta ko'rishingiz mumkin uTF-16 formatidagi kodTo'rt o'n olti raqamdan iborat:

16 bitdan foydalanib, UTF-16-da qancha belgilarni kodlash mumkin? 65 536 (ikki yoshdan o'n olti) va bu raqam Unicodedagi asosiy bo'shliq uchun olindi. Bundan tashqari, u bilan kodlash usullari mavjud, ammo ikki millionga yaqin belgi, ammo million matn belgilarida kengaytirilgan maydon bilan cheklangan.

Ammo Unicode kodlashining ushbu muvaffaqiyatli versiyasi ham, masalan, dasturlarni yozganlar uchun ko'p mamnuniyat keltirmadi ingliz tiliUlar uchun ASCII-16-ning kengaytirilgan versiyasidan keyin UTF-16-ning og'irligi ikki baravar ko'paydi (UTF-16-dagi bir xil belgisidagi bir xil belgi uchun bitta belgidan iborat).

Bu har bir kishini qondirish, va umuman Unicode konsorsiumida hamma narsa bilan kelishishga qaror qilindi kododikaning o'zgaruvchan uzunligi. U utf-8 deb nomlangan. Sakkizta sarlavhaga qaramay, u haqiqatan ham o'zgaruvchan uzunlikdagi, i.e. Har bir matn belgisi bir-olti baytning ketma-ketligini kodlash mumkin.

Amalda, UTF-8 dan to'rtta baytgacha bo'lgan bir qismdan iborat, chunki kodeksning to'rt baytiga har qanday narsani yuborish mumkin emas. Barcha lotin belgilari bitta baytda, shuningdek eski yaxshi ASCII-da kodlanadi.

Natijada, faqat Lotinni kodlash holatida, hatto Unicode tushunmaydigan dasturlar ham UTF-8-da kodlangan narsalarni o'qiydi. Ular. Askastaning asosiy qismi shunchaki uniCode konsorsiumidan o'chirilgan.

UTF-8-da kirill belgilari ikki baytga, masalan, Gruziya - uch baytda. UTF 16 va 8 ni yaratgandan so'ng Unicode konsorsiumi asosiy muammoni hal qildi - endi bizda bor shriftlarda bitta kod maydoni mavjud. Va endi ularning ishlab chiqaruvchilari faqat o'zlarining kuchlari va imkoniyatlari asosida, uni matn belgilarining vektor shakllari bilan to'ldirish uchun. Endi hatto to'plamlarda.

Quyidagi jadvalda turli xil shriftlarni boshqa raqamlarni ishlatishini ko'rish mumkin. Unicode shriftlarining ba'zi belgilari juda yaxshi tortishi mumkin. Ammo endi ular turli kodlar uchun yaratilganligi sababli ajralib turmaydi, ammo shrift ishlab chiqaruvchisi ushbu yoki boshqa vektor shakllarini oxirigacha to'ldirish yoki tugatishmagan.

Rossiya harflari o'rniga krakoyabry - qanday tuzatish kerak

Keling, CRakozzabe Matn matn o'rniga yoki boshqacha qilib aytganda, rus tilida to'g'ri kodlash qanday tanlanganligini ko'raylik. Aslida, siz ushbu matnni yaratadigan yoki tahrirlangan dasturda, matnli bo'laklardan foydalangan holda o'rnatiladi.

Matn fayllarini tahrirlash va yaratish uchun, men o'z fikrimcha, shaxsan juda yaxshi foydalanaman. Biroq, u hali ham yaxshi yuzlab dasturlash va markali sintaksisni ta'kidlashi mumkin, shuningdek plaginlar bilan kengayish qobiliyatiga ega. O'qimoq batafsil ko'rib chiqish Havolani ushbu ajoyib dastur.

Notepad ++ eng yaxshi menyuda, sizda "kodlash" element mavjud, u erda siz o'zingizning standart saytingizda foydalaniladigan bitta variantni o'zgartirish imkoniyatiga ega bo'lasiz:

Joomla 1.5 va undan yuqori bo'lgan saytda, shuningdek WordPress-dagi blogda bo'lgani kabi, siz Krakoyorning paydo bo'lishiga yo'l qo'ymaslik uchun tanlovni tanlashingiz kerak Bomsiz UTF 8. Bom prefiksi nima?

Gap shundaki, ETF-16 Endoding ishlab chiqilganda, negadir bunday ketma-ketlikda, ikkalangizni to'g'ri ketma-ketlikda (masalan, soat 0a15) va teskari (150a) bilan belgilash imkoniyati mavjud. . Va dasturlarni o'qishni o'qishni tushunish uchun va ixtiro qilingan Bom. (Baytda belgi yoki boshqacha aytganda, imzo, imzo qo'yilgan, tasdiqlangan holda, hujjatlarning boshiga uchta qo'shimcha baytni qo'shishda ifodalangan.

UTF-8 kodlashida, Unicode konsorsiumida hech qanday bom yo'q edi va shuning uchun imzo qo'shib, imzolar (bu mashhur qo'shimcha uch uchta bayt) Ba'zi dasturlar shunchaki kodni o'qishga to'sqinlik qiladi. Shuning uchun, biz har doim UTF-da fayllarni tejashda, siz bomsiz (imzosiz) variantni tanlashingiz kerak. Shunday qilib, siz oldindan siz o'zingizni carraredan tortib oling.

Diniyada nima qilishicha, Windows-dagi ba'zi dasturlar buni qanday qilishni bilmaydi (UTF-8-da matnni bomsiz saqlay olmaysiz), masalan, xuddi shu mashhur daftar derazalar. U hujjatni UTF-8-da tejaydi, ammo hali boshiga imzo qo'shadi (uchta qo'shimcha bayt). Bundan tashqari, ushbu baytlar doimo bir xil bo'ladi - to'g'ridan-to'g'ri ketma-ketlikda kodni o'qing. Ammo serverlarda, bu kichik narsalar tufayli muammo bo'lishi mumkin - yoriqlar chiqadi.

Shuning uchun, hech qanday holatda odatdagi daftarlarning derazalarini ishlatmang Agar siz Krakoyorbra paydo bo'lishini xohlasangiz, saytingizdagi hujjatlarni tahrirlash. Men allaqachon kamchilikka ega emas va afzalliklardan biri bo'lmagan notepad ++ muharriri uchun eng so'nggi va eng oson variantni ko'rib chiqaman.

Notepad ++-da kodni tanlashda siz matnni UCS-2 kodlashiga aylantira olasiz, bu UCODOD standartiga juda yaqin. Shuningdek, Ansi, I.E. turida kodlanmagan bo'lishi mumkin. Rus tiliga tayanib, bu siz allaqachon Windows 1251 dan yuqori narxda tasvirlanadi. Bu ma'lumotlar qayerdan keladi?

Windows operatsion tizimining reestrida yozilgan - qaysi kodlash Ansi bo'lsa, OEMda (rus tili uchun) qanday tanlash kerakligini tanlash kerak (rus tilida) cp866 bo'ladi. Agar siz boshqa standart tilni kompyuteringizda o'rnatsangiz, shundan so'ng ushbu kodlarni xuddi shu til uchun ANSI yoki OEM bilan almashtiriladi.

Notepad ++ shahrida bo'lganingizdan so'ng, hujjatni kodlash yoki tahrirlash uchun hujjat oching, so'ngra muharrirning pastki o'ng burchagida siz uning ismini ko'ra olasiz:

Krakoyorbrovning oldini olish uchunYuqorida tavsiflangan harakatlar bundan mustasno, uning kepkasida ro'yxatdan o'tish uchun foydali bo'ladi manba kodi Barcha sayt sahifalarida ushbu kodlash haqida ma'lumot, server yoki mahalliy xost qachon sodir bo'lmaydi.

Umuman olganda, HTMLdan boshqa barcha tillarda Maxsus XML-ning maxsus kodlashini ko'rsatadigan maxsus XML reklama ishlatiladi.

Kodni qismlarga ajratishni boshlashdan oldin, brauzer qaysi versiyani ishlatilishini va ushbu tilning belgilar kodlarini qanday talqin qilishingiz kerakligini bilib oladi. Ammo qanday e'tiborga loyiqki, hujjatni standart Unicode-da saqlasangiz, ushbu XML deklaratsiyasini o'tkazib yuborsangiz, ushbu XML deklaratsiyasini o'tkazib yuborish mumkin (kodlash UTF-8 hisoblansa, agar bom bo'lsa, uTF-8 hisoblanadi).

Hujjatda hTML tili Ishlatilgan kodlashni belgilash uchun meta elementBosh teg ochilish va yopilish o'rtasida buyuriladi:

... ...

Ushbu yozuv qabul qilingan B-dan mutlaqo farq qiladi, ammo HTML 5 standartiga qadar yangi kiritilgan holda to'liq mos keladi va u odatdagidek to'g'ri tushuniladi bu lahzada brauzerlar.

Nazariyda, meml kodlash yordamida meta elementi qo'yish yaxshiroq bo'ladi iloji boricha yuqori darajadagi sarlavhadaShunday qilib, birinchi belgining matni bo'yicha yig'ilish paytida (har doim har doim va har doim o'qiydigan) brauzer allaqachon ushbu belgilarning kodlarini qanday izohlashi haqida ma'lumotga ega bo'lishi kerak.

Omad sizga! Blog sahifalaridagi noaniq uchrashuvlarga

siz davom etishingiz mumkin bo'lgan ko'proq roliklarni ko'ring
");">

Sizni qiziqtirishi mumkin

Sayt uchun mutlaq va nisbiy havolalar o'rtasidagi farq nimadan iborat
Openserer - zamonaviy mahalliy server va undan foydalanishning namunasi wordPress o'rnatmalar kompyuterda
Chmood nima, ular fayllar va papkalarni belgilash huquqi (777, 755, 666) va PHP orqali qanday ishlash kerak
Yanex sayt va onlayn-do'konni qidiring

Office 365 Office 365 Nashr uchun Office 365 Nashr uchun Office 365 so'zi uchun Excel 365 Excel 2019 WaclePoint 2019 OneNavot 2019 Nashr-2019 Visio Professional 2019. Vioo standarti 2019 yil. Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2016 Viio 2013 Visio Professional 2016. Vioo Standard 2016. Excel 2013 Word 2013 Powernpow 2010 Word 2010 Word Matting 2010 Viio 2007 Viio 2017 Word Lavel 2007 Viio 2007 Viio 2007 OneNeotPoint 2007 Viio 2007 OneNote 2007 Office 2017 Vioo Standard 2007 Vioo Standard 2010. Ozroq

Ushbu maqolada

ASCII yoki Unicode belgisini hujjatga joylashtiring

Agar siz faqat bir nechta maxsus belgilar yoki belgilarni kiritishingiz kerak bo'lsa, siz foydalanishingiz yoki yorliq tugmachalari. Ro'yxat aSCII ramzi. Asosiy kombinatsiyalardan foydalangan holda milliy alifbo harflarini keltirib chiqaradigan quyidagi jadvallar yoki maqolaga qarang.

Izohlar:

ASCII belgilar kiritish

ASCII ramzini kiritish uchun alt tugmachasini bosing va tuting, belgi kodini kiritadi. Masalan, darajani (º) kiritish uchun "Alt tugmachasini bosing va ushlab turing, so'ng raqamli klaviaturada 0176-ni kiriting.

Raqamlarni kiritish uchun raqamli klaviaturadan foydalaning, asosiy klaviaturada raqamlar emas. Agar raqamli klaviaturada raqamlarni kiritishingiz kerak bo'lsa, NUC qulfi ko'rsatkichi yoqilganligiga ishonch hosil qiling.

Unicode belgilarini kiritish

Unicode belgisini kiritish uchun belgi kodi kiriting, so'ngra izchil matbuot alt alt. va X. Masalan, bir dollar belgisini ($) kiriting, 0024-ni kiriting va "Alt va X" tugmachalarini ketma-ket bosish. Barcha Unicode belgilar kodlari ko'radi.

Muhim: Biroz microsoft dasturlari PowerPoint va Infopat kabi ofis Unicode kodlarini belgilarga aylantirishni qo'llab-quvvatlamang. Agar siz ushbu dasturlardan birida Unicode belgisini kiritishingiz kerak bo'lsa, foydalaning.

Izohlar:

    Agar Alt + x tugmachalarini bosgan bo'lsa, noto'g'ri direktorning noto'g'ri belgisi ko'rsatiladi, to'g'ri kodni tanlang, so'ngra yana Alt + X tugmasini bosing.

    Bundan tashqari, kod oldida "U +" ni kiritish kerak. Masalan, agar siz "1u + B5" ni kiritsangiz va "Alt + X" tugmachasini bosing va "1 min" ni bosing va "1B5" tugmachasini bosing va "Alt + X" tugmachasini bosing.

Belgi jadvalidan foydalanish

Belgilar jadvali - bu kiritilgan dastur Microsoft Windows.tanlangan shrift uchun mavjud bo'lgan belgilarni ko'rish imkonini beradi.

Belgilar jadvalidan foydalanib, siz individual belgilar yoki belgilar guruhini clipboardga nusxalashingiz va ularni ushbu belgilarning ekranini qo'llab-quvvatlaydigan har qanday dasturga qo'shishingiz mumkin. Belgilar jadvalini ochish

    Windows 10-da. "Belgi" so'zini vazifalar panelidagi qidirish maydonida kiriting va qidiruv natijalari bo'yicha belgilar jadvalini tanlang.

    Windows 8-da. Boshlang'ich ekranda "belgi" so'zini kiriting va qidiruv natijalari bo'yicha belgilar jadvalini tanlang.

    Windows 7-da. Tugmasini bosing BoshlamoqKetma-ket tanlang Barcha dasturlar, Standart, Xizmat qilish va bosish Belgi jadvallari jadvali.

Belgilar shriftda guruhlangan. Belgilangan belgilarni tanlash uchun shriftlar ro'yxatini bosing. Belgini tanlash uchun uni bosing, so'ng bosing Tanlamoq. Hujjatda kerakli joyni kiritish va to'g'ri tugmachani bosing va tanlang Kiritmoq.

Tez-tez ishlatiladigan belgilar kodlari

Belgilarning to'liq ro'yxati uchun to'plamlar tomonidan buyurtma qilingan kompyuter, ASCII belgisi kodlari jadvaliga qarang.

Gliflik

Gliflik

Naqd pullar

Huquqiy belgilar

Matematik belgilar

Drobi.

Tinish belgilari va dialektli belgilar

Shaklning belgilari

Tez-tez ishlatiladigan diazik belgilar kodlari

Gliflar va tegishli kodlarning to'liq ro'yxati, qarang.

Gliflik

Gliflik

ASCII boshqaruv belgilari

Ba'zilarini boshqarish uchun ishlatiladigan belgilar periferik asboblarMasalan, printerlar, ASCII jadvalida 0-31 raqamlari bor. Masalan, sahifa Tarjima / Yangi sahifa 12 raqamiga to'g'ri keladi. Ushbu belgi keyingi sahifaning yuqori qismiga o'tish uchun printerni bildiradi.

ASCII tomonidan olib boriladigan ishlov berilmagan belgilar jadvali

O'nlik raqam

Belgi

O'nlik raqam

Belgi

Ma'lumotlar kanalini ozod qilish

Sarlavha boshlang

Birinchi qurilmaning menejmenti kodi

Matnning boshlanishi

Qurilmaning ikkinchi menejmenti kodi

Matn tugashi

Uchinchi qurilma menejmenti kodi

O'tkazilish tugashi

To'rtinchi qurilma menejmenti kodi

besh chiziqli

Salbiy tasdiq

Tasdiqlash

Sinxron uzatish rejimi

Ovozli signal

O'tkazilgan blokning oxiri

Gorizontal jadval

Tashuvchining oxiri

Satr / yangi qator

Almashtirish belgisi

Vertikal jadval

ortiq bo'lmoq

Sahifa / Yangi sahifa

O'n ikki

Fayl ajratuvchisi

Orqaga qaytish

Ajratuvchi guruhi

Nuqtalarni saqlamasdan siljish

Ajratuvchi yozuvlar

Tushirish siljishi

o'n besh

Ma'lumotlarni ajratuvchi

Kompyuter uni o'zgartirish jarayonini anglatadi, bu sizga ushbu ma'lumotlarni uzatishni yanada qulay uzatishni, saqlash yoki avtomatik qayta ishlashni tashkil etishga imkon beradi. Buning uchun turli xil jadvallar qo'llaniladi. ASCII kodlash, keyinchalik butun dunyo bo'ylab tarqatilgan ingliz tilidagi ingliz tilida ishlash uchun ishlab chiqilgan birinchi tizim. Uning tavsifi, xususiyatlari, xususiyatlari va undan keyingi foydalanish quyida keltirilgan maqolaga bag'ishlangan.

Ma'lumotlarni kompyuterda ko'rsatish va saqlash

Kompyuterning monitorida yoki mobil raqamli gadjetdagi belgilar barcha turdagi belgilar va kodlarning vektor shakllarining strelkalari asosida shakllantiriladi, bu siz ular orasida kerakli joyga kiritmoqchi bo'lgan belgini topishga imkon beradi. Bu biroz ketma-ketlik. Shunday qilib, har bir belgi, albatta, ma'lum bir, o'ziga xos buyurtma asosida turadigan nol va birliklar to'plamiga mos kelishi kerak.

Hammasi boshlandi

Tarixan birinchi kompyuterlar ingliz tilida so'zlashar edi. Ularda ramziy ma'lumotni kodlash uchun faqat 7 ta xotira bitidan foydalanish kifoya, shuning uchun 8 bitdan iborat bo'lgan 1 bayt bor edi. Ushbu holatda kompyuter tomonidan tushunilgan belgilar soni 128 ga teng edi. Bunday belgilar soni tinish belgilari, raqamlari va ba'zi maxsus belgilar bilan ingliz alifboni kiritilgan. Ingliz tilida so'zlashadigan etti kodlangan kodlash 1963 yilda ishlab chiqilgan jadval (Kod sahifasi) bilan ma'lumot almashish uchun Amerikaning standart kodi deb topildi. Odatda, uning belgisi uchun "ASCII kodlash" qisqartirish ishlatilgan va shu kungacha ishlatilgan.

Ko'paytirish uchun o'tish

Vaqt o'tishi bilan kompyuterlar notanish mamlakatlarda keng qo'llaniladi. Shu munosabat bilan, milliy tillardan foydalanishga imkon beradigan kodlarga ehtiyoj bor edi. Velosipedni qayta tiklamadi va assimi asoschisi sifatida qabul qilinmadi. Yangi nashrdagi kodlash jadvali sezilarli darajada kengaydi. 8-bitdan foydalanish kompyuter tiliga tarjima qilish uchun 256 ta belgidan iborat.

Tavsif

ASCII kodlash 2 qismga bo'lingan jadvalga ega. Umumiy qabul qilingan xalqaro standart faqat birinchi yarmida hisoblanadi. Bu quyidagilarni o'z ichiga oladi:

  • 0 dan 31 gacha bo'lgan belgilar sonining belgilari, 00000000 00011111-sonli belgilar bilan kodlangan. Ular chiqish jarayoni ekranga yoki printerga, ovozli signal va boshqalarni ishlab chiqaradigan boshqaruv belgilariga tayinlanadi.
  • 32 dan 127 gacha bo'lgan jadvalda NN bilan belgilar 00100000 dan 0111111 gacha bo'lgan ketma-ketlikda kodlangan jadvalning standart qismidir. Bularga kosmos (n 32), lotin alifbosidagi (kichik harf va katta harflar), 0 dan 9 gacha, tinish belgilari, turli xil yozuv va boshqa belgilar kiradi.
  • 128 tadan 255 gacha bo'lgan belgilar, 10,000,000 dan 1111111111111111111111-sonli belgilar bilan belgilanadi. Bular lotin tilidan tashqari boshqa alfavitlar harflari. Bu ASCII kodlash stolining boshqa ramzlarini kompyuter shaklida aylantirish uchun ishlatiladi.

Ba'zi xususiyatlar

ASCII kodlash xususiyatlari faqat bitta bitli pastki va yuqori registrlarning "A" - "A" - "z" harflari orasidagi farqni o'z ichiga oladi. Ushbu vaziyat reestrni o'zgartirish, shuningdek, belgilangan qiymatlar oralig'iga tegishli ekanligini tekshirish juda jihatdan soddalashtiradi. Bundan tashqari, ASCII kodlash tizimidagi barcha harflar o'zlarining navbatdagi raqamlari bilan ifodalanadi, ular old tomonida, pastki qismida, shuningdek, pastroq ro'yxatga olinganlar uchun 011 2 va yuqori - 010 2.

ASCII kodlash xususiyatlarining xususiyatlari shuningdek, 10 ta raqam - "0" - "9". Ikkinchi raqam tizimida ular 0012 dan boshlanadi va 2 qiymatga ega. Shunday qilib, 0101 2 beshinchi o'nlik raqamga teng, shuning uchun "5" belgisi 001 01012 deb yozilgan. Yuqorida aytib o'tilganlarga tayanish chap bitlar ketma-ketligini qo'shib, ikkilik-o'nlik simlarini asta-sekin yo'naltirishingiz mumkin Har bir MB uchun 00112.

"Unicode"

Ma'lumki, Janubi-Sharqiy Osiyo guruhining tillarida matnlarni namoyish qilish uchun minglab belgilar talab qilinadi. Ushbu miqdor bitta pate ma'lumotlarida hech qanday tarzda tasvirlanmagan, shuning uchun hatto ASCIIning kengaytirilgan versiyalari turli mamlakatlarning foydalanuvchilarning ehtiyojlarini qondira olmaydi.

Shunday qilib, ishlab chiqilgan matnni umumbashariy kodlash yaratish kerak edi, ular dunyoning ko'plab etakchilari bilan hamkorlikda "Unicode" konsorsiumi ishtirok etdi. Uning ekspertlari UTF 32 tizimini yaratdi. Unda 4 baytdan iborat 32 ta yozuv belgisi 1 ni kodlash uchun chiqarildi. Asosiy noqulaylik 4 baravar ko'p talab qilinadigan xotira hajmining keskin ko'payishi edi, bu esa ko'plab muammolarga olib keldi.

Shu bilan birga, hind-evropa guruhiga tegishli bo'lgan rasmiy tillar ko'p bo'lgan ko'plab mamlakatlar uchun 22 ga teng bo'lgan belgilar soni ortiqcha emas.

"Unicode" konsorsiumidan kelgan mutaxassislarning keyingi ishi natijasida UTF-16 Encoding paydo bo'ldi. Bu zarur bo'lgan xotira hajmi bo'yicha va kodlangan belgilar soni bo'yicha har ikkalasi bilan tartibga solingan ramziy ma'lumotni o'zgartirish variantiga aylandi. Shuning uchun UTF-16 standart va unda 2 baytni zaxiralashingiz kerak bo'lgan bitta belgi uchun qabul qilindi.

Hatto "Unicode" ning ilg'or va muvaffaqiyatli versiyasi ham kamchiliklarga olib keldi va ASCII-ning kengaytirilgan versiyasidan so'ng UTF-16-ning kengaytirilgan versiyasidan keyin hujjatning og'irligini ikki marta oshirdi.

Shu munosabat bilan UTF-8 o'zgaruvchan o'zgaruvchan kodlashni ishlatishga qaror qilindi. Bunday holda, har bir manba matn belgisi 1 dan 6 baytning ketma-ketligi bilan kodlanadi.

Axborot almashish uchun Amerika standart kod bilan aloqa

UTF-8 o'zgaruvchan uzunligidagi lotin alifbosining barcha belgilari ASCII kodlash tizimida bo'lgani kabi 1 baytda kodlanadi.

UTF-8 xususiyatidir, bu Latiniyada boshqa belgilardan foydalanmasdan, hatto "Unicode" ni tushunmaydigan dasturlar ham buni o'qishga imkon beradi. Boshqacha qilib aytganda, ASCII matn kodlashining asosiy qismi shunchaki yangi UTF uzunlik o'zgaruvchisiga o'tadi. UTF-8 dagi kirill belgilari 2 baytni va masalan, Gruziya - 3 bayt. UTF-16 va 8-sonli tashkil etish shriftlarda bitta kod maydonini yaratishning asosiy muammosi hal qilindi. O'shandan beri, shriftlar ishlab chiqaruvchilar faqat ularning ehtiyojlariga qarab matn belgilarining stolining vektor shakllarini to'ldirish uchun.

Turli operatsion tizimlarda turli kodlarga nisbatan ustunlik beriladi. Boshqa kodlashda kiritilgan matnlarni o'qiy olish va tahrirlash uchun, Rossiya matnining tranketlash dasturlari qo'llaniladi. Biroz matn muharrirlari O'rnatilgan tokdodlarni o'z ichiga oladi va kodlashdan qat'iy nazar matnni o'qishga imkon beradi.

Endi siz ASCII kodlashida qancha belgilar va u qanday va nima uchun yaratilganligini bilasiz. Albatta, bugun men dunyoda eng katta tarqalishni oldim. Unicode. Biroq, u ASCII asosida yaratilganligini unutish mumkin emas, shuning uchun uning ishlab chiqaruvchilarining hissasi doirasiga minnatdorchilik bildirishi kerak.

ASCII-dan maqsadli foydalanishi uchun ushbu sohada bilimlarni kengaytirish va kodlash imkoniyatlari.

Bu nima?

ASCII - bu bosma belgilarning kodlash jadvali (№1 skrinshotga qarang), ma'lumotlar va ba'zi kodlarni uzatish uchun kompyuter klaviaturasiga terilgan. Boshqacha qilib aytganda, alifbos va o'nlik raqamlar kerakli ma'lumotlarni taqdim etish va amalga oshiradigan belgilarga kodlanadi.

ASCII kodlash Amerikada ishlab chiqilgan, shuning uchun standart kodlash jadvalida odatda 128 belgidan iborat ingliz alifbosini o'z ichiga oladi. Ammo keyin adolatli savol tug'iladi: agar milliy alifboni kodlash kerak bo'lsa, nima qilish kerak?

Bunday muammolarni hal qilish uchun ASCII jadvalining boshqa versiyalari ishlab chiqildi. Masalan, ingliz alifbosidagi harflar, hisob-faktura tuzilishi yoki milliy alifbosi shaklida qo'shimcha belgilar qo'shildi. Shunday qilib, ASCII kodlashda milliy foydalanish uchun rus harflari bo'lishi mumkin (2-skrinshotga qarang).

ASCII kodlash tizimi qayerda qo'llaniladi?

Ushbu kodlash tizimi nafaqat to'plam uchun talab qilinadi matn ma'lumotlari klaviaturada. U shuningdek grafikada ishlatiladi. Masalan, ASCII ARIII Sarer dasturida turli xil kengaytmalarning grafik tasvirlari ASCII kodlash belgisidan iborat (3-skrinshotga qarang).


Qoida tariqasida bunday dasturlarni funktsiyani bajaradiganlarga bo'lish mumkin grafik muharrirlar, Rasmni matnga aylantirish va rasmni ASCII-Martda aylantiradiganlarga. Barcha mashhur elimoton (yoki u ham chaqirilganidek » jilding inson qiyofasi") Shuningdek, kodlash belgisi misolidir.

Ushbu kodlash usuli HTML hujjatini yozayotganda yoki yaratishda ham talabga ega bo'lishi mumkin. Masalan, siz ma'lum bir belgi kiritasiz va sizga belgilar to'plami kerak, va sahifaning o'zi ko'rinishda ushbu kodga mos keladigan belgi ko'rsatiladi.

Boshqa narsalar qatorida bu tur Kodlash ko'p tilli saytni yaratishda zarurdir, chunki bunga yoki ushbu milliy stolni ASCII kodlari bilan almashtirish kerak. Agar o'quvchi to'g'ridan-to'g'ri axborot va kommunikatsion texnologiyalar bilan bog'liq bo'lsa, unda bunday tizimlar bilan tanishish foydali bo'ladi:

  1. Portativ belgisi to'plam;
  2. Boshqarish belgilari;
  3. Ebcdic;
  4. Viskii;
  5. Yusumi;
  6. Unicode;
  7. ASCII san'at;
  8. Koi-8.

ASCII jadvalining xususiyatlari

SETADETALE dasturi singari, ASCII o'zining o'ziga xos xususiyatlariga ega. Masalan, o'nlik kalitko'xli tizim (0 dan 9 gacha bo'lgan raqamlar) ikkilik hisobmuklar tizimiga aylantiriladi (I.E., har bir shisha idly o'roqli ikkilik 288 \u003d 1001000 ga aylantiriladi).

Yuqori va pastki ustunlarda joylashgan harflar bir-biridan faqat bit bilan ajralib turadi, bu esa registrni tekshirish va tahrirlashning murakkabligi darajasini sezilarli darajada kamaytiradi.

Ushbu xususiyatlar bilan, ASCII kodlash ishlari sakkizta, garchi u dastlab etti bitli bo'lsa ham.

ASCII dasturlarda dastur Microsoft Office.:

Zarur hollarda ushbu parametr Axborotni kodlash Microsoft Notepad va Microsoft-da ishlatilishi mumkin Office so'zi.. Ushbu dasturlarda hujjat ASCII formatida saqlanishi mumkin, ammo bu holda, yozishda ba'zi funktsiyalardan foydalanishingiz mumkin.

Xususan, jasur va qalin mavjud emas, chunki kodlash faqat umumiy ko'rinishi va shaklini emas, balki olingan ma'lumotlarning ma'nosini saqlab qoladi. Siz quyidagi kodlarni quyidagi dasturiy ta'minotlardan foydalangan holda hujjatlarga qo'shishingiz mumkin:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft Infopath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Microsoft loyihasi.

Shuni yodda tutish kerakki, ASCII kodini ushbu dasturlarda terish orqali siz "Alt klaviatura" tugmachasini ushlab turishingiz kerak.

Albatta, barcha kerakli kodlar uzoqroq va puxta o'rganishni talab qiladi, ammo bu bizning bugungi maqolamizdan tashqarida bo'ladi. Umid qilamanki, u haqiqatan ham siz uchun foydali edi.

Yangi uchrashuvlarga!

Yaxshi yomon

Bizga ma'lum bo'lgan ba'zi dalillarni eslang:

Matn yozilgan ko'plab belgilar alifbosi deb ataladi.

Alifbodagi belgilar soni uning kuchi hisoblanadi.

Ma'lumot miqdorini aniqlash uchun formula: n \u003d 2 b,

u erda n alifboning kuchi (belgilar soni),

b - bitlar soni (belgilar to'g'risidagi ma'lumotlar).

256 belgidan iborat alifbo deyarli barcha kerakli belgilar joylashtirilishi mumkin. Bunday alifboni etarli deb ataladi.

Chunki 256 \u003d 2 8 , 1 belgisi 8 bitdan iborat.

O'lchov birligi 8 Bits 1 bayt degani:

1 bayt \u003d 8 bit.

Kompyuter matnidagi har bir belgining ikkitomonlama kodi 1 ta xotira baytini oladi.

Kompyuter xotirasida matnli matn ma'lumotlari taqdim etiladimi?

Kodlash shundaki, har bir belgi 0 dan 251111111111111111111111111-gacha bo'lgan noyob o'nlik kodga yoki shu tariqa, odam o'zlarining dizayni va kompyuterga qarab belgilanadi.

Overdan tashqari o'lchov kodlashining qulayligi aniq, chunki bayt - xotiraning eng kichik qismi va shuning uchun protsessor matnni qayta ishlashni amalga oshirish orqali har bir belgiga alohida murojaat qilishi mumkin. Boshqa tomondan, 256 ta belgi eng xilma-xil ramziy ma'lumotlarni ifodalash uchun etarli.

Endi savol har bir belgiga mos keladigan sakkiz bitli ikkilik kodni kiritadi.

Bu shartli materiya, siz ko'plab kodlash usullari bilan kelishingiz mumkinligi aniq.

Kompyuterlar uchun xalqaro standart ASCII jadvaliga aylandi (Aski o'qish) (Axborot almashish uchun Amerika standart kod).

Xalqaro standart - bu stolning birinchi yarmi, I.E. 0 (00000000) raqamli belgilar 127 tagacha (01111111).

Tartib raqami

Belgi

00000000 - 00011111


Ularning funktsiyasi - ekrandagi yoki chop etish, ovozli signal, matnni belgilash va boshqalarni ishlab chiqarish jarayonini boshqarishdir.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


ASCII kod jadvalining ikkinchi yarmi Kod sahifasining (1211111 yil va 111111-ni tugatgan 128 kod), har xil variantning o'z raqamiga ega bo'lishi mumkin.


Sizning e'tiboringizni xatni kodlash stolida (katta va kichik harflar) alifbo tartibida joylashtirilgan va raqamlar ortib borayotganligi sababli sizga e'tibor qarataman. Xayollarni tartibga solishda leksikografik buyurtmaga bunday sodiqlik alifboni ketma-ket kodlash printsipi deb ataladi.


Hozirgi kunda eng keng tarqalgan Microsoft Windows kodlash, CP1251 qisqartirilganligi bilan belgilanadi.

90-yillarning oxiridan boshlab belgilarni kodlashni standartlashtirish muammosi Unicode deb nomlangan yangi xalqaro standartni kiritish bilan hal qilinadi . Bu 16 bitli kodlash, i.e. Unda har bir belgi 2 bayt xotirasiga ega. Albatta, 2 marta bosib olingan xotira miqdori. Ammo ushbu kod jadvalida 65536 belgidan iborat bo'lishi kerak. Unicodod standartining to'liq shakli mavjud, mavjud bo'lgan barcha mavjud, yo'q bo'lib ketgan va sun'iy ravishda yaratilgan alifbalar, shuningdek ko'plab matematik, musiqiy, kimyoviy va boshqa belgilarni o'z ichiga oladi.

Keling, kompyuter xotirasida so'zlarni qanday ko'rinishini tasavvur qilish uchun ASCII jadvalidan foydalanishga harakat qilaylik.

Sozlar

Xotira

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kompyuterga matnli ma'lumotlarni kiritishda, belgilar (harflar, raqamlar, belgilar) Matn ma'lumotlarini kodlash uchun tegishli standartlar to'plamlaridan iborat kod jadvallaridan iborat kod jadvallaridan foydalanib kodlanadi. Bunday jadvallarda, har bir belgi o'n oltilik yoki o'nlik raqamlar tizimida ma'lum bir raqamli kodga tayinlanadi, i.e. kod stollari belgilar va raqamli kodlar tasvirlangan va matnli ma'lumotlarni yozish va dekodlash uchun mo'ljallangan. Kompyuter klaviaturasi yordamida matn ma'lumotlarini kiritishda har bir imzo kodlanadi, ya'ni raqamli ma'lumotlar kompyuterda chiqish moslamasida (displey, printer yoki plastterda) bo'lgan raqamli kodga aylantiriladi, u rasmda o'rnatiladi ramzning raqamli kodi. Muayyan raqamli kodeksning topshirig'i turli mamlakatlarning tegishli tashkilotlar o'rtasidagi kelishuv natijasidir. Hozirgi kunda turli mamlakatlarning milliy alifbolarining milliy alifbo harflarini qondiradigan yagona Universal kodi jadvali mavjud emas.

Zamonaviy kod stollari xalqaro va milliy qismni o'z ichiga oladi, ya'ni lotin va milliy alifbolar, raqamlar, arifmetik operatsiyalar, matematik va boshqarish belgilari, psevdografik belgilar mavjud. Standart asosida kod jadvalining xalqaro qismi ASCII (Axborot almashish uchun Amerika standart kodi),0 dan 7 gacha raqamli kodlar bo'lgan kod jadvalining birinchi yarmini kodlaydi F 16,yoki o'nlik raqamli tizimda 0 dan 127 gacha. Shu bilan birga, 0 dan 20 16 gacha kodlar (0? 32 10) shaxsiy kompyuter klaviaturasi (F1, F2, F3, F3 va boshqalar) . Shaklda. 3.1 standart asosida kod jadvalining xalqaro qismini ko'rsatadi ASCII.Jadval hujayralari mos ravishda o'nlik va HExpermal raqam tizimida ko'rsatilgan.

3.1-rasm. Kod jadvalining xalqaro qismi (Standard) ASCII)hujayralar soni (a) va oltita miqdordagi raqamlar tizimida ko'rsatilgan hujayralar bilan


Kod jadvallarining milliy qismi milliy alifbolar kodlarini o'z ichiga oladi, bu belgi stolini belgilaydi (Fedet).

Hozirgi kunda turli xil operatsion tizimlar tomonidan ishlatiladigan rus alifbo (Kirillcha) harflarini qo'llab-quvvatlash uchun bir nechta kod stollari (kodlar) mavjud va ba'zi hollarda raqamli belgi qiymatlarini aniqlash bilan bog'liq muammolarga olib keladi . Yorliqda. 3.1 Kod sahifalarining ismlari (standartlar) ning ismlari kirill yozuvi joylashtirilgan (kodlash) ko'rsatilgan.

3.1-jadval.

Kompyuterlarda kirilllarni kodlashning birinchi standartlaridan biri Koi8-r standart bo'lgan. Ushbu standart jadvali ushbu standart jadvalida ko'rsatilgan. 3.2.

Anjir. 3.2. Koi8-r kod stolning milliy qismi


Hozirgi vaqtda Operatsion tizimda ishlatiladigan matnli kodlarni kodlash standarti sahifasida kod jadvalida ham qo'llaniladi. Ms dos.yoki ish sessiyasi Ms dos.kirillik kodlash uchun (3.3-rasm, ammo).

Anjir. 3.3. Kod jadvalining milliy qismi CP866 sahifasi (a) sahifasida va SMS ma'lumot kodlash standarti bo'yicha CP1251 sahifasida joylashtirildi


Hozirgi vaqtda oiladagi operatsion tizimlarda ishlatiladigan tegishli standartning CP1251 sahifasida joylashtirilgan kod jadvali - bu kirilllarni kodlash uchun juda keng tarqaldi. Derazalarfirmalar Microsoft.(3.2-rasm, b).Standart stoldan tashqari barcha taqdim etilgan kod jadvallarida Unicode,bir belgini kodlash uchun 8 ta ikkilik bo'shatishlar beriladi (8 bit).

O'tgan asrning oxirida yangi xalqaro standart paydo bo'ldi Unicode,qaysi belgi ikki baytli ikkitomonlama kodi bilan ifodalanadi. Ushbu standartni qo'llash Universal xalqaro standartni rivojlantirishni davom ettirishdir, bu milliy belgilarni kodlashning mosligini hal qilishga imkon beradi. Yordamida ushbu standart 1 16 \u003d 65536 kodlangan bo'lishi mumkin turli xil belgilar. Shaklda. 3.4 standartning 0400 (rus alifbosi) kod jadvalini ko'rsatadi Unicode.

Anjir. 3.4. Unicode standart kodini 0400 jadval


Masalan, matn ma'lumotlarini kodlash borasida nima deganini tushuntirib beramiz.

3.1-misol.

"Kompyuter" so'zini kasr va o'nlik raqamlar ketma-ketligi shaklida kodlash, CP1251 kodlashidan foydalanib, o'nlik va o'nlik raqamlari. CP866 kod stollari va KOI8-P ning natijada olingan koddan foydalanganda qanday belgilar ko'rsatiladi.

CP1251 kodlash stoliga asoslangan "kompyuter" so'zining "kompyuter" so'zining ketma-ketligi (3.3-rasmga qarang) b)shunga o'xshash ko'rinadi:

CP866 kodlari va KOI8-P kod ketma-ketligi quyidagi belgilarga olib keladi:

Matnli ma'lumotlarni matnli ma'lumotlarni boshqasiga kodlash uchun bitta standartdan, maxsus dasturlar - konvertorlar foydalaniladi. Konvertorlar odatda boshqa dasturlarga kiritiladi. Bunga misol brauzer dasturi - Internet Explorer. (Ya'ni),o'rnatilgan konvertorga ega. Brauzer dasturi maxsus dastur Tarkibni ko'rish uchun Veb-sahifalarglobal kompyuter tarmog'i Internet. Biz ushbu dasturdan 3.1-misolda olingan belgilar namoyishining natijalarini tasdiqlash uchun foydalanamiz. Buning uchun quyidagi harakatlarni bajaring.

1. Notepad dasturini boshlang (Notepad).Operatsion tizimda daftar dasturi Windows XP.buyruqni ishlatishni boshlaydi: [tugmani bosing Boshlamoq - standart dasturlar - Notepad]. Notepad dasturining derazasida Hypertext Hujjatlarni belgilash tili sintaksisidan foydalangan holda "kompyuter" so'zini kiriting - HTML (giper matnli markalash tili).Ushbu til Internetdagi hujjatlarni yaratish uchun ishlatiladi. Matn quyidagicha ko'rinishi kerak:

Kompyuter

qayerda

va

Teglar (maxsus dizaynlar) tili Htmlsarlavhalarni belgilash uchun. Shaklda. 3.5 Ushbu harakatlarning natijasini taqdim etdi.

Anjir. 3.5. Notepad oynasida matnli displey


Ushbu matnni buyruqni bajarib tejang: [Fayl - Saqlash ...] Kompyuterning tegishli papkasida, siz matn faylini saqlaganingizda, siz nomni kengaytirish bilan tayinlaysiz. HTML.

2. Dasturni ishga tushiring Internet Explorer,buyruqni buyurish orqali: [tugmani bosing Boshlamoq - Dasturlar - Internet Explorer].Dasturni ishga tushirganingizda, deraza ko'rinadi. 3.6.

Anjir. 3.6. Oflayn kirish oynasi


Tugmani tanlang va yoqing Oflaynbu kompyuterni global Internetga ulamaydi. Dasturning asosiy oynasi paydo bo'ladi. Microsoft Internet Explorer,anjirda taqdim etilgan. 3.7.

Anjir. 3.7. Asosiy oyna Microsoft Internet Explorer


Quyidagi buyruqni bajaring: [Fayl - ochiq], deraza paydo bo'ladi (3.8-rasm), siz fayl nomini spetsifikatsiya va tugmachani bosing OK Yoki tugmachani bosing Umumiy sharh ...va faylni taxmin qiling.html.

Anjir. 3.8. Deraza "Ochiq"


Internet Explorer dasturi rasmda ko'rsatilgan ko'rinishni amalga oshiradi. 3.9. "Kompyuter" so'zi derazada paydo bo'ladi. Keyingi, dasturning yuqori menyusidan foydalanish Internet Explorer,biz quyidagi buyruqni bajaramiz: [Ko'rish - kodlash - kirillcha (Dos)]].Ushbu buyruqni dastur oynasida bajargandan so'ng Internet Explorershaklda ko'rsatilgan belgilar ko'rsatiladi. 3.10. Jamoani bajarishda: [Ko'rish - kodlash - kirillcha (Koi8-r)]]dastur oynasida Internet Explorer.shaklda ko'rsatilgan belgilar ko'rsatiladi. 3.11.

Anjir. 3.9. CP1251 kodlash paytida aks ettirilgan belgilar


Anjir. 3.10. CP1251 kodlashiga yuborilgan kod ketma-ketligi uchun CP866 kodlash yoqilganda ko'rsatilgan belgilar


Anjir. 3.11. CP1251 kodlashiga yuborilgan kod ketma-ketligi uchun Koo8-p kodeksi yoqilganda aks ettirilgan belgilar


Shunday qilib, dasturdan foydalangan holda olingan Internet Explorer.belgilarning ketma-ketligi 31-misolda CP866 kod stollari va KOI8-P-da olingan belgilar ketma-ketligi bilan bir-biriga mos keladi.

3.2. Grafik ma'lumotlarni kodlash

Grafik ma'lumotlar rasmlar, fotosuratlar, slaydlar, harakatlanuvchi rasmlar shaklida keltirilgan (animatsiya, video), sxemalar, rasmlar, kompyuterdan foydalanish, u mos ravishda kodlangan holda yaratilishi va tahrirlanishi mumkin. Hozirgi kunda grafik ma'lumotlarni qayta ishlash uchun etarli miqdordagi dasturiy dasturlar mavjud, ammo ularning barchasi uchta kompyuter grafikasi: Raster, vektor va fraktal.

Agar siz kompyuter monitorining ekranidagi grafik tasvirni diqqat bilan ko'rib chiqsangiz, ko'rishingiz mumkin katta miqdorda Ko'p rangli nuqta (piksel - ingliz tilidan. piksel,ma'lumotli OT rasm elementi -rasmning elementi), u to'plangan va ushbu grafik tasvirni shakllantiradi. Shundan biz xulosa qilishimiz mumkin: kompyuterdagi grafik tasvir aniq kodlangan va grafik fayl sifatida tasvirlangan bo'lishi kerak. Fayl Kompyuterdagi tashkilotning asosiy tarkibiy qismi bo'lib, bu holda monitor ekranida ushbu ballarni qanday topshirish to'g'risida ma'lumot bo'lishi kerak.

Vektorli grafikalar asosida yaratilgan fayllar tarkibida matematik bog'liqliklar shaklida ma'lumotlar mavjud (vektorlar) uni kompyuter monitoriga chiqarganda, chiziq segmentlari (vektorlar) yordamida ob'ektning tasvirini yaratish bo'yicha ma'lumotlar ekran.

Raster grafikasi asosida yaratilgan fayllar har bir insapt insapt-dagi ma'lumotlarni saqlaydi. Raster grafikalarini aks ettirish uchun murakkab matematik hisob-kitoblar talab qilinadi, har bir rasm nuqtasi (uning koordinatalari va ranglari) haqida ma'lumot olish va ularni kompyuter monitorini ekranda namoyish etish kifoya.

Rasmni kodlash jarayonida uning fazoviy tanlanishi amalga oshiriladi, i.e. rasm alohida joylarga bo'linadi va har bir nuqta ranglar kodiga (sariq, qizil, ko'k va boshqalar) o'rnatiladi. Har bir rang grafik tasvirining har bir nuqtasini kodlash uchun, uning asosiy tarkibiy qismlarida o'zboshimchalik bo'lganining asosiy tarkibiy qismlarida o'zboshimchalik bilan ajralib chiqish printsipi ishlatiladi: qizil (inglizcha so'z) Qizilxatni belgilaydi Uchun),yashil rang (Yashil,xatni belgilaydi G)ko'k (Ko'k,beech Beech Ichida).Odam ko'z bilan qabul qilingan nuqtaning har qanday rangi uchta asosiy rangdagi - qizil, yashil va ko'k ranglarni qo'shimcha (mutanosib) (aralashtirish) bilan olish mumkin. Bunday kodlash tizimi ranglar tizimiga aylanadi RGB.Fayllar grafik tasvirlarunda rang tizimi qo'llaniladi RGB,rasmning har bir nuqtasini rolli uchlik shaklida ifodalang - uchta raqamli qiymat R, g.va Ichidaqizil, yashil va ko'kning intensivligiga mos keladi. Grafik tasvirni kodlash jarayoni turli xil foydalanish amalga oshiriladi texnik vositalar (Skaner, raqamli kamera, raqamli videokamera va boshqalar); Natijada, Raster tasviri olinadi. Rang grafikasi o'ynashni rangli ekranda o'ynashda ushbu rasmning har bir nuqtali (piksel) ning rangi uchta asosiy rangni aralashtirish orqali olinadi R, g. va B.

Sifat raster tasviri Ikkita asosiy parametr bilan belgilanadi (gorizontal va vertikal nuqtalar soni bo'yicha) va ishlatiladigan ranglar palitrasi (rasmning har bir nuqtasi uchun belgilangan ranglar soni bo'yicha). Qaror gorizontal va vertikal jihatdan, masalan 800 ballga mo'ljallangan ballar sonini ko'rsatadi.

Raster tasvir punkti tomonidan belgilangan ranglar soni va nuqta rangiga ajratilishi kerak bo'lgan ma'lumotlar miqdori (formula r. Xarli) quyidagilar mavjud:

qayerda I. - ma'lumotlar hajmi; N - n -o'rnatilgan ranglar soni.

Nuqta rangini saqlash uchun zarur bo'lgan ma'lumotlar miqdori, shuningdek rang chuqurligi yoki rang sifati deb ataladi.

Shunday qilib, agar rasm punkti uchun ranglar soni aniqlansa, N \u003d256, keyin uni saqlash uchun zarur bo'lgan ma'lumot (3.1) ga muvofiq (3.1) ga muvofiq teng bo'ladi I. \u003d 8 bit.

Displeyda kompyuterlarda grafik ma'lumot Har xil grafik monitorning ishlash rejimlaridan foydalaniladi. Shuni ta'kidlash kerakki, monitorning grafik rejimidan tashqari, shuningdek, monitor ekranida satrda 80 ta belgidan iborat bo'lgan matn rejimi mavjud. Ushbu grafik rejimlar monitor ekranining qarori va rangni ko'paytirish sifati (rang chuqurligi) bilan tavsiflanadi. Grafik monitor ekran rejimini operatsion tizimda o'rnatish Windows XP mssiz buyruqni bajarishingiz kerak: [tugmasi Boshlamoq - O'rnatish - Boshqarish paneli - ekran]. "Xususiyatlar: Ekran" dialog oynasida (3.12-rasm) Siz "600 ballga 800 ballga 800" ni (800) tanlash uchun "parametrlar" yorlig'ini tanlashingiz kerak. Rang ko'rsatilgan ro'yxatidan foydalanib, rang chuqurligini tanlashingiz mumkin - "eng yuqori (32 bit)", "o'rtacha (16 bit) va boshqalar, mos ravishda 2 ga teng bo'ladi 32 (4294967296), 2 16 (65536) va boshqalar

Anjir. 3.12. Dialog oynasi "Xususiyatlar: ekran"


Con grafik rejimlarini amalga oshirish uchun monitor ekranida kompyuter video xotirasining ma'lum bir ma'lumotini talab qiladi. Kerakli ma'lumotlar hajmi (V)munosabatlardan qat'iyan

qayerda ...monitor ekranida tasvir ballari (K \u003d B); Ammo -monitor ekranidagi gorizontal nuqtalar soni; Ichida -monitor ekranida vertikal nuqtalar soni; I. - ma'lumotlar miqdori (rang chuqurligi).

monitor ekrani 1024 768 uchun ball qaror va 65.536 rangdagi iborat sxemasidan, formula (3.1) muvofiq rangi chuqur bo'lsa, Shunday ekan, men bo'lishi \u003d 2 65 538 \u003d 16-bit, tasvir nuqtalarining soni log qiladi bo'ladi: K \u003d.1024 x 768 \u003d 786432 va kerakli ma'lumotlar hajmi (3.2) ga muvofiq

V \u003d.786432 · \u003d 12582912 BIT \u003d 1572864 bayt \u003d 1536 KB \u003d 1.5 MB 16 bit.

Xulosa qilib aytganda, shuni ta'kidlash kerakki, ular ro'yxatga olingan matnlar ro'yxatga olingan eng muhim xususiyatlar Monitor - bu ekranning geometrik o'lchamlari va tasvir punkti. Ekranning geometrik o'lchamlari diagonali diagonal qiymati bilan belgilanadi. mumkin monitor ishlab chiqarish uchun, 21 "va hokazo zamonaviy texnologiyalar, 15", 17 ": monitorlari diagonal dyuym o'rnatiladi (1 dyuym \u003d 1" 14 \u003d 25,4 mm) va qiymatlar teng olishi mumkin " tasvir nuqta hajmi 0.22 mm teng.

Shunday qilib, har bir monitor uchun ekranning maksimal maksimal darajada yalang'ochligi, uning diagonali o'lchami va tasvir punkti hajmi bilan belgilanadi.

O'z-o'zini bajarish uchun mashqlar

1. Dasturdan foydalanish Ms ExcelcHECT KOSERT SHAXSIY TARMOQLARI ASCII, CP1251, KOI8-P - stollarning birinchi ustuni joylashgan: alifbo tartibida yozing, ikkinchisidagi lotin va kirilliyning kichik harflari ustun - o'nlik raqam tizimida harflar kodlari mos, hujayra ichida uchinchi ustun bir hexadecimal soni tizimida tegishli kodlari bo'ladi. Kodlar tegishli kod jadvallaridan tanlanishi kerak.

2. Kodlash va yozuv o'nlik va o'nlik raqamlardagi raqamlar ketma-ketligi sifatida quyidagi so'zlarni kiriting:

a) Internet Explorer,b) Microsoft Office;ichida) Coreldrat.

Oldingi mashqda olingan ASCII kodlash jadvalidan foydalanib mahsulotni kodlash.

3. Yangilangan kodlash stolidan foydalanib, Koi8-p raqami tizimida qayd etilgan raqamlarning ketma-ketligi:

a) CB CB DA C9 D3 D1 C5 D1;

b) rent CF CF CF D2 CD C9 da CD;

c) Fc CB D3 D0 D2 C5 D3 C9de CF CE C9de DA CD.

4. Qanday bo'ladi CP866 kodlamalar va KOI8-p foydalanganda CP1251 shifrlashda, yozib "kibernetika» so'zi,? Natijalarni dastur bilan tekshiring Internet Explorer.

5. Shaklda ko'rsatilgan kod jadvalidan foydalanish. 3.1 ammoikkilik raqamlar tizimida qayd etilgan quyidagi kod ketma-ketligini dekodlang:

a) 0101111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01101100;

c) 01000001 0110001 01100011 0110011 01110011 01110011.

6. CP866 kod stollari, CP1251, Unicode va Koi8-p yordamida kodlangan "Iqtisodiyot" so'zining axborot hajmini aniqlang.

7. 12x12 rangli tasvirni skanerlash natijasida olingan faylning ma'lumot hajmini aniqlang, sm. Ushbu rasm 600 dpi bo'lgan skanerning qarori. Skaner 16 bitning tasvir rangini chuqurlashtiradi.

600 dona skanerlash (Dotper dona) -dyuymli nuqta) 1 dyuym uzunligi 600 punktni ajratib turadigan 1 dyuymli segment bo'yicha skanerlash qobiliyatini belgilaydi.

8. A4 rangli rasmini skanerlash natijasida olingan ma'lumotlar faylini aniqlang. Ushbu rasmni skanerlashda ishlatiladigan skanerning qarori 1200 dpi. Skaner 24 bitdan iborat rang nuqtasini rangini o'rnatadi.

9. Paletkadagi ranglar sonini 8, 16, 24 va 32 bitni chuqurlikda aniqlang.

10. Monitorning grafik rejimlarining zarur hajmini 640, 480, 800 dan 600 gacha, 1024 balldan 800 gacha, 1080, 1080 dan 1280 gacha. Jadvalni kamaytirish uchun natijalar. B. Ms Excelhisob-kitoblarni avtomatlashtirish dasturi.

11. Agar kompyuter 2 Kb xotira tasviri ostida ko'rsatilgan bo'lsa, rasmni 32 dan 32 ballgacha saqlash uchun ishlatiladigan ranglarning maksimal sonini aniqlang.

12. Diagonal uzunligi 15 "monitor ekranining imkoniyatini aniqlang" va tasvir punkti hajmi 0,28 mm.

13. Mintaqaning grafik rejimlari 64 MB hajmli video xotirasini qanday taqdim etishi mumkin?

Ko'mish

I. Axborot kodlash tarixi ..................................3

II. Kodlash ma'lumotlari ................................. 4

III. Matn ma'lumotlarini kodlash ............................. 4

IV. Kodlash jadvallarining turlari ............................... .... ... 6

V. Matnli ma'lumotlarning sonini hisoblash ...................

Adabiy adabiyotlar ro'yxati ...........................................

I. . Axborotni kodlash tarixi

Birinchi navbatda, insoniyat shifrlash (kodlash) dan foydalanadi maxfiy ma'lumotlar. Mana, matnni rivojlantirishning turli bosqichlarida ixtiro qilingan matnni kodlash uchun bir nechta usullar:

Kriptografiya - bu matnni tushunarsiz deb tushunib bo'lmaydigan shaxsga aylantirmaslik uchun gradyan, harf o'zgarishi tizimi;

Har bir harf yoki belgi uning qisqa boshlang'ich posilkalarining kombinatsiyasi bilan ifodalangan Morse approset yoki notekis telegraf kodi taqdim etiladi elektr toki (ballar) va uch baravar ko'payish (DASH) boshlang'ich pertellari;

abortlar - eshitish qobiliyati zaif bo'lgan odamlar tomonidan ishlatiladigan imo-ishora tili.

Shifrlashning birinchi birinchi taniqli usullaridan biri bu Rim imperatorining ismi Yuliya Qaysar (I asrda). Ushbu usul shifrlangan matnning har bir harfini boshqasiga almashtirishga asoslanadi, asl harfni belgilab qo'yilgan belgilar sonidan boshqa va alifboda icda, i harfdan keyin o'qiladi a hisoblanaman. Shunday qilib, "bayt" so'zi "GVF" so'zi tomonidan kodlangan "bayt" so'zi. Ushbu so'zni aniqlashning teskari jarayoni har bir shifrlangan xatni ikkinchi tomonga almashtirish kerak.

II. Axborotni kodlash

kodi, ba'zi oldindan belgilangan tushunchalar rekord (yoki uzatish) uchun shartli belgilar (yoki signallari) to'plamidir.

Axborotni kodlash - bu ma'lumotlarning ma'lum taqdimnomasini tuzish jarayoni. Tekshiruvda, "kodlash" atamasi ko'pincha axborot taqdimotining bir shaklidan boshqasiga, uzatish yoki qayta ishlash uchun qulayroq ekanligini, uni boshqa raqamga, uzatish yoki qayta ishlash uchun qulayligini tushunadi.

Odatda, kodlash paytida har bir rasm (ba'zan aytganlar - shifrlangan) alohida belgisini anglatadi.

Belgisi - bu bir-biridan boshqa elementlarning oxirgi to'plamining elementi.

Tekshiruvda, "kodlash" atamasi ko'pincha ma'lumotlarning bir shaklidan boshqasiga, saqlash, uzatish yoki qayta ishlash uchun qulayroq ekanligini, boshqa raqamdan boshqa raqamga o'tishni tushunadi.

Kompyuterda siz matn ma'lumotlarini qayta ishlashingiz mumkin. Kompyuterga kirishda har bir harf ma'lum bir raqam bilan kodlanadi va tashqi qurilma (ekran yoki bosib chiqarish), harflarning rasmlari bu raqamlarni idrok etish uchun qurilgan. Harflar va raqamlar to'plami o'rtasidagi yozishmalar belgilar kodlash deb ataladi.

Qoida tariqasida, kompyuterdagi barcha raqamlar nol va birliklar (va odamlarga tanish bo'lganligi sababli, o'nta raqam) yordamida taqdim etiladi. Boshqacha qilib aytganda, kompyuterlar odatda ikkilik raqamlar tizimida ishlaydi, chunki ishlov berish moslamalari ancha osonlashadi. Kompyuterga raqamlarni kiritish va ularni o'qitish uchun ularni olib qo'yish odatdagi kasr shaklida amalga oshirilishi mumkin va barcha kerakli o'zgarishlar kompyuterda ishlaydigan dasturlarni amalga oshirishi mumkin.

III. Matn ma'lumotlarini kodlash

Xuddi shu ma'lumotni bir necha shaklda taqdim etish mumkin (kodlangan). kompyuterlar paydo bo'lishi bilan, bu ma'lumotlar barcha turdagi kodlash uchun zarur bo'lgan bir butun sifatida alohida shaxs va insoniyat bilan. Ammo kodlash vazifasini hal qilish uchun insoniyat kompyuterlardan ancha oldin boshlangan. Insoniyatning buyuk yutuqlari - yozish va arifmetika - nutq kodlash tizimi va raqamli ma'lumotlar mavjud. Axborot hech qachon u har doim qandaydir kodlangan negadir, keltirilgan, uning sof shaklida ko'rinadi.

Ikkilik kodlash - bu ma'lumotlarning umumiy usullaridan biri. Hisoblash mashinalarida, robotlar va raqamli boshqaruv mashinalarida, qoida tariqasida, qurilmaning ishi bo'lgan barcha ma'lumotlar ikkilik alifbosining so'zlari sifatida kodlangan barcha ma'lumotlar.

60-yillarning oxiridan boshlab kompyuterlar matn ma'lumotlarini boshqarish uchun tobora ko'proq foydalanilmoqda, endi dunyodagi shaxsiy kompyuterlarning asosiy ulushi aniq matnli ma'lumotlarni qayta ishlash bilan shug'ullanadi. Kompyuterdagi barcha ma'lumotlar Ikkilik kodda taqdim etiladi, i.e., alifboni ikkita quvvat bilan ishlatiladi (faqat ikkita belgi va 1 belgi). Buning sababi shundaki, ma'lumotni elektr pulseslar ketma-ketligi shaklida taqdim etish qulayligi sababli: puls etishmayotgan (0), spetuls (1).

Bunday kodlash ikkilik deb ataladi va nol va birliklarning mantiqiy ketma-ketligi - bu mashina tili.

Kompyuter nuqtai nazaridan, matn individual qahramonlardan iborat. Nafaqat harflar (kapital yoki kichik harflar, Lotin yoki rus), balki raqamlari, tinish belgilari, "\u003d" kabi maxsus qorishmalar, "(", ", va hokazo va hatto (to'lov alohida e'tibor!) So'zlar orasida bo'sh joy.

Sifatlar klaviatura yordamida kompyuter xotirasiga kiritiladi. Harflar, raqamlar, tinish belgilari va boshqa belgilar kalitlarda yoziladi. Ichida ram Ular ikkilik kod bilan tushishadi. Bu shuni anglatadiki, har bir belgisi 8-bitli ikkilik kodga o'xshaydi.

An'anaga ko'ra, bir belgi kodlash uchun, axborot miqdori 1 bayt, ya'ni i \u003d 1 bayt \u003d 8 bit teng ishlatiladi. Agar formula yordamida bu bilan bog'laydi mumkin voqealar soni va (ramzlar mumkin voqealar, deb hisoblash) i, siz kodlangan mumkin qancha turli belgilar hisoblash mumkin ma'lumotlarning miqdori: K \u003d 2 i 2 8 \u003d 256 \u003d, ya'ni Matnlarni axborot taqdimoti uchun Siz 256 belgilar bir kuch bilan alifbosi foydalanishingiz mumkin.

Bunday bir qator belgilar matn ma'lumotlarini, shu jumladan rus va lotin alifbosidagi katta va kichik harflar, raqamlar, belgilar, grafik belgilar va boshqa belgilar mavjud.

Kodlash shundaki, har bir belgi 0 dan 251111111111111111111111111-gacha bo'lgan noyob o'nlik kodga yoki shu tariqa, odam o'zlarining dizayni va kompyuterga qarab belgilanadi.

Overdan tashqari o'lchov kodlashining qulayligi aniq, chunki bayt - xotiraning eng kichik qismi va shuning uchun protsessor matnni qayta ishlashni amalga oshirish orqali har bir belgiga alohida murojaat qilishi mumkin. Boshqa tomondan, 256 ta belgi eng xilma-xil ramziy ma'lumotlarni ifodalash uchun etarli.

Kompyuter ekranidagi belgi chiqish paytida teskari jarayoni - dekodlash, ya'ni, uning rasmiga aylantirilgan belgi kodini o'zgartirish. Bu belgi tayinlash juda muhimdir muayyan kod - Kod jadvalida tuzatilgan kelishuv masalasi.

Endi savol har bir belgiga mos keladigan sakkiz bitli ikkilik kodni kiritadi. Bu shartli materiya, siz ko'plab kodlash usullari bilan kelishingiz mumkinligi aniq.

Kompyuter alifbosining barcha belgilari 0 dan 255 gacha raqamlangan. Hatto raqam sakkiz-bitli ikkilik kodga to'g'ri keladi. Ushbu Kodyce - bu ikkilik raqam tizimidagi belgilar sonining ketma-ketligi.

Iv . Kodlash jadvallarining turlari

Kompyuter alifbosining barcha belgilari ketma-ketlik raqamlariga muvofiq ravishda amalga oshiriladigan stol deb ataladi.

Uchun turli xil turlar Eum turli kodlash jadvallaridan foydalanadi.

Xalqaro standart sifatida ASCII kod jadvali qabul qilinadi (Axborot almashish uchun Axborot almashish bo'yicha Axborot almashish uchun Amerikaning standart kodi), 0 dan 127 gacha bo'lgan belgilar va 0 dan 3 gacha kodlar o'rnatilmagan belgilar, ammo funktsiya kalitlari).

ASCII kod jadvali ikki qismga bo'linadi.

Xalqaro standart - bu stolning birinchi yarmi, I.E. 0 (00000000) raqamli belgilar 127 tagacha (01111111).

ASCII kodlash stoli tuzilishi

Tartib raqami Kod Belgi
0 - 31 00000000 - 00011111

0 dan 31 gacha bo'lgan belgilar menejerlar deb nomlanadi.

Ularning funktsiyasi - ekrandagi yoki chop etish, ovozli signal, matnni belgilash va boshqalarni ishlab chiqarish jarayonini boshqarishdir.

32 - 127 0100000 - 01111111

Jadvalning standart qismi (Ingliz tili). Bunga lotin alifbosining kichik harflari, o'nlik raqamlar, tinish belgilari, barcha turdagi qavslar, tijorat va boshqa belgilar kiradi.

32-oyat - bo'sh joy, i.e. Matnda bo'sh joy.

Boshqalar ba'zi belgilar bilan aks ettirilgan.

128 - 255 10000000 - 11111111

Jadvalning alternativ qismi (rus).

ASCII kod jadvalining ikkinchi yarmi Kod sahifasining (1211111 yil va 111111-ni tugatgan 128 kod), har xil variantning o'z raqamiga ega bo'lishi mumkin.

Kod sahifasi birinchi navbatda lotindan tashqari milliy alifbolarni joylashtirish uchun ishlatiladi. Rossiya milliy kodlari, rus alifbosining ramzlari jadvalning ushbu qismida joylashtirilgan.

ASCII kod jadvalining birinchi yarmi

Kodlash jadvalida harflar (katta va kichik harflar) alifbo tartibida joylashtirilgan va raqamlar ortib boraveradi. Xayollarni tartibga solishda leksikografik buyurtmaga bunday sodiqlik alifboni ketma-ket kodlash printsipi deb ataladi.

Rus alifbosining harflari uchun seriyani kodlash printsipi ham kuzatilmoqda.

ASCII kod jadvalining ikkinchi yarmi

Afsuski, hozirgi vaqtda besh xil kirill kodlari (koi8-p, Windows. MS-DOS, Macintosh va ISO) mavjud. Shu sababli, muammolar ko'pincha rus tilidagi matnni bitta kompyuterdan ikkinchisidan boshqasiga o'tkazish bilan bog'liq dasturiy ta'minot tizimi boshqasiga.

Xronologik jihatdan kompyuterlarda rus harflarini kodlashning birinchi standartlaridan biri Koi8 ("Axborot almashinuvi kodi, 8 bit") bo'lgan. Ushbu kodlash 70-yillarda Evropa Ittifoqi Evropa Ittifoqi Evropa Ittifoqi Evropa Ittifoqi va 80-yillarning o'rtalaridan boshlab UNIP operatsion tizimining birinchi ayon-versiyalarida foydalanila boshlandi.

90-yillarning boshidan boshlab DOS operatsion tizimining "Operatsion tizimining" DOCTE "MS operatsion tizimining qolishi vaqti (" CP "" Kod sahifasi "," Kod sahifasi "," Kod sahifasi "degan ma'noni anglatadi.

Mac OT operatsion tizimida ishlaydigan Apple kompyuterlari o'zlarining mac kodlashlaridan foydalanadilar.

Bundan tashqari, xalqaro standartlar tashkiloti, ISO) ISO 8859-5 deb nomlangan yana bir kodni rus tili uchun standart deb tasdiqladi.

Hozirgi kunda eng keng tarqalgan Microsoft Windows kodlash, CP1251 qisqartirilganligi bilan belgilanadi. Microsoft tomonidan kiritilgan; Rossiya Federatsiyasida operatsion tizimlar (OS) va boshqa dasturiy mahsulotlarning keng tarqalganini hisobga olgan holda, u keng tarqalgan.

90-yillarning oxiridan boshlab ramziy kodlashni standartlashtirish muammosi Unicode deb nomlangan yangi xalqaro standartni kiritish orqali hal qilinadi.

Bu 16 bitli kodlash, i.e. Unda har bir belgi 2 bayt xotirasiga ega. Albatta, 2 marta bosib olingan xotira miqdori. Ammo ushbu kod jadvalida 65536 belgidan iborat bo'lishi kerak. Unicodod standartining to'liq shakli mavjud, mavjud bo'lgan barcha mavjud, yo'q bo'lib ketgan va sun'iy ravishda yaratilgan alifbalar, shuningdek ko'plab matematik, musiqiy, kimyoviy va boshqa belgilarni o'z ichiga oladi.

Kompyuter xotirasida ichki so'z ko'rinishi

aSCII jadvalidan foydalanish

Ba'zida bu boshqa kompyuterdan olingan rus alifbosining harflaridan iborat matnni o'qib bo'lmaydi - Monitor ekranida ba'zi "Abrakadabra" ko'rinishi mumkin. Bu, kompyuterlar rus tilining turli xil belgilarini turli kodlashni ishlatganligi sababli sodir bo'ladi.

Shunday qilib, har bir kodlash o'z kod jadvalida belgilanadi. Jadvaldan ko'rinib turibdiki, turli kodlarda bir xil ikkilik kodi turli xil belgilarga muvofiq amalga oshiriladi.

Masalan, CP1251-da kodlashda raqamli kodlar ketma-ketligi, kodlash "kompyuter" so'zini shakllantiradi, boshqa kodlar ma'nosiz belgilar to'plamidir.

Yaxshiyamki, aksariyat hollarda, foydalanuvchi matn hujjatlarini tranzonlash haqida qayg'urmasligi kerak, chunki ular ilovalarga asoslangan maxsus konvertor dasturlarini amalga oshiradilar.

V. . Matn ma'lumotlari sonini hisoblash

1-vazifa: Koo8-P va CP1251 kodlash jadvallaridan foydalanib, "Rim" so'zini tozalang.

Qaror:

2-vazifa: Har bir belgi bir bayt bilan kodlanganligini hisobga olib, quyidagi jumlani axborot hajmini qadrlang:

"Eng halol qoidalarning amakim,

Qachon hazil qilmasa,

O'zini majbur qildi

Va ixtiro qilolmaslik yaxshiroq edi. "

Qaror: Ushbu iborada, tinish belgilari, tirnoq va bo'shliqlarni hisobga olgan holda 108 ta belgidan iborat. Ushbu miqdorni 8 bitga ko'paytiring. Biz 108 * 8 \u003d 864 bitni olamiz.

3-vazifa: Ikkita matnda bir xil miqdordagi belgilar mavjud. Birinchi matn rus tilida va Naguri qabilasining tilida yozilgan, uning 16 belgidan iborat alifbo. Kimning matni ko'proq ma'lumotga ega?

Qaror:

1) i \u003d k * a (matnning ma'lumot hajmi bitta belgining ma'lumot og'irligiga belgilar sonining mahsulotiga teng).

2) Chunki Ikkala matn ham bir xil belgilar (k) ga ega, keyin farq bitta alifbo ramzi (a) ning axborot zimmasiga bog'liq.

3) 2 A1 \u003d 32, i.e. A 1 \u003d 5 bit, 2 A2 \u003d 16, i.e. A 2 \u003d 4 bit.

4) i 1 \u003d k * 5 bit, i 2 \u003d k * 4 bit.

5) Shunday qilib, rus tilida qayd etilgan matn 5/4 baravar ko'proq ma'lumot.

4-vazifa: 2048 belgidan iborat xabarning hajmi MB 1/512 qismini tashkil etdi. Alifboning kuchini aniqlang.

Qaror:

1) i \u003d 1/512 * 1024 * 1024 * 8 \u003d 16384 bit - Axborot ma'lumotlarini bitlarga o'tkazadi.

2) a \u003d i / k \u003d 16384/1024 \u003d 16 bit - bitta alifbo ramzi uchun hisoblar.

3) 2 * 16 * 2048 \u003d 65536 belgi - ishlatiladigan alifboning kuchi.

5-vazifa: Lazer printeri Canon LBP o'rtacha sekundiga o'rtacha 6,3 kbit / s gacha. Agar 80 ta liniyada o'rtacha bitta sahifada, 70 ta belgidan iborat bo'lgan 8 sahifali hujjatni chop etishingiz kerak (1 belgisi - 1 bayt)?

Qaror:

1) Biz 1 sahifada bo'lgan ma'lumotlar miqdorini topamiz: 45 * 70 * 8 Bits \u003d 25200 bit

2) 8 sahifadagi ma'lumot miqdorini toping: 25200 * 8 \u003d 201600 bit

3) bitta o'lchash birliklariga olib keladi. Ushbu MBULLIK uchun biz bitlarni tarjima qilamiz: 6.3 * 1024 \u003d 6451.2 Bits / s.

4) Chop etish vaqtini toping: 201600: 6451.2 \u003d 31 soniya.

Bibliografiya

1. V.M. Ma'lumot va kodlash nazariyasi: O'lchash va o'lchash ma'lumotlarini tanlab olish va kodlash. - m .: May, May, 777.

2. Kuzmin I.V., Kedrus V.A. Axborot va kodlash nazariyasi asoslari. - Kiev, 1986 yil, Vitse-maktab.

3. Matnni shifrlash / D.M-ning eng oddiy usullari. Zloatropskiy. - m .: 2007 - 32 p suv havzalarida toza hovuzlar

4. Ugropovich N.D. Informatika I. axborot texnologiyalari. 10-11 sinflar uchun qo'llanma / N.D. VugRinovich. - m. Bilim laboratoriyasi, 2003 yil. - 512 p.

5. http://school497. vspb.edu.ru/upinsil002/55.htht1html#n.

Ma'ruza bo'yicha o'z-o'zini o'rganish uchun materiallar 2

Kodlash ASCII.

ASCII kodlash stoli (ASCII - Axborot almashish uchun Amerikaning ma'lumotlari uchun Amerikaning standart kodi).

Umuman olganda, ASCII kodlash stolidan foydalangan holda (1-rasm), siz 256 xil belgilarni tezroq kodlashingiz mumkin. Ushbu jadval ikki qismga bo'linadi: asosiy (OOH kodlari) va qo'shimcha (80 soatdan boshlab) qo'shimcha (X harflar kodlarni Xekadulimal raqam tizimiga kiritadi).

1-rasm

Biror narsani stoldan kodlash uchun 8 bit (1 bayt) beriladi. Matn ma'lumotlarini qayta ishlashda bir baytda ba'zi belgilar - harflar, raqamlar, tinish belgilari, harakatlar belgisi va boshqalar bo'lishi mumkin. Har bir belgi o'z kodiga butun son shaklida mos keladi. Shu bilan birga, barcha kodlar kodlash deb nomlangan maxsus jadvallarda to'planadi. Ularning yordami bilan belgi kodi monitor ekranida ko'rinadigan ko'rinishini o'zgartiradi. Natijada, kompyuter xotirasida biron bir matn belgidan iborat baytlar ketma-ketligi sifatida tasvirlangan.

Masalan, salom so'zi! quyidagicha kodlanadi (1-jadval).

1-jadval

Ikkilik kod

Kod o'nlik

1-rasmda standart (ingliz tilida) bo'lgan belgilar ko'rsatilgan va (rus) kodlash ASCII.

ASCII jadvalining birinchi yarmi standartlashtirilgan. Unda boshqaruv kodlari (00h 20 soatdan 20 soatgacha). Jadvaldan olingan ushbu kodlar musodara qilinadi, chunki ular matn elementlariga tegishli emas. Tinish va Matematik belgilar belgilari mavjud: 2 va 26 soat - & 28h - & 28h - & 28h - (28H - + 28h - a, 61h - a.

Stolning ikkinchi yarmi tarkibida milliy shriftlar, psevdografik, qaysi jadvallar, maxsus matematik belgilar qurilishi mumkin. Kodlash stolining pastki qismi tegishli haydovchilar - boshqaruv yordamchi dasturlari yordamida almashtirilishi mumkin. Ushbu usul sizga bir nechta shriftlarni va ularning boshlarini qo'llash imkonini beradi.

Har bir belgi kodi uchun displey shunchaki raqamli kodni aks ettirishi kerak, balki mos keladigan rasmni aks ettirishi kerak, chunki har bir belgi o'z shakliga ega. Har bir belgi shaklining shakli maxsus displey xotirasida saqlanadi - imzolash signagi. Ko'rgazma ekranidagi belgi IBM PC-da, masalan, ramziy matritsani shakllantirish ballaridan foydalangan holda amalga oshiriladi. Bunday matritsadagi har bir piksel tasvir elementidir va yorqin yoki qorong'i bo'lishi mumkin. Qorong'u nuqta 0, yorqin (yorqin) - 1. Matritsa konining matritsasi maydonidagi quyuq piksellarni va yorqin-yulduzchani tasvirlab bersangiz, siz ramz shaklini grafrok bilan tasvirlab berishingiz mumkin.

Turli mamlakatlardagi odamlar o'zlarining tabiiy Zikovning so'zlarini yozib olish uchun ramzlardan foydalanadilar. Hozirgi kunda, aksariyat dasturlar, shu jumladan tizimlar elektron pochta va veb-brauzerlar 8-bitli, ya'ni ular 8-bitli belgilarni ko'rsatishi va to'g'ri aniqlashlari mumkin, deya xabar beradi ISO-8859-1.

Dunyoda 256 tadan ortiq belgilar mavjud (agar siz kirill, arab, xitoy, yapon, koreys va Tayland tillari) va yangi va yangi ramzlar paydo bo'ladi. Va ko'p foydalanuvchilar uchun quyidagi bo'shliqlarni yaratadi:

Xuddi shu hujjatda turli kodlash to'plamlarining belgilaridan foydalanish mumkin emas. Har bir matn hujjati o'zining shaxsiy kodlarini ishlatganligi sababli, avtomatik matnni aniqlashda katta qiyinchiliklar mavjud.

Yangi belgilar paydo bo'ldi (masalan: evro), natijada ISO-8859-15 standartlariga o'xshash. Farq quyidagicha: Eski valyutalarning belgisi ISO-8859-1 kodshohi jadvalidan olib tashlanadi, ular hozir yangi paydo bo'lgan belgilar (masalan, evro) uchun joy ajratish uchun foydalanilmaydi. Natijada, disklardagi foydalanuvchilar bir xil hujjatlarni, balki turli kodlarda yotishi mumkin. Ushbu muammolarni hal qilish yagona xalqaro kodlarni universal kodlash yoki Unicody deb ataladigan yagona xalqaro kodlarni qabul qilishdir.

Kodlash Unicode.

Standart 1991 yilda "Unicode konsorsium" notijorat tashkiloti tomonidan taklif qilindi (Eng. Unicode Kontsortsium, Unicode Inc.). Ushbu standartni qo'llash sizga juda qaynatishga imkon beradi katta raqam Turli xil yozma yozuvlarning belgilari: Xitoy belgilari, matematik belgilar, yunon alifbosi, lotin va kirillcha va kirillcha harflar UNICode hujjatlarida ulashgan bo'lishi mumkin va u keraksiz kommutatsiya kodlari sahifalari bo'ladi.

Standart ikkita asosiy bo'limdan iborat: Umumjahon belgilar to'plamidan iborat (UCS, universal belgilar to'plami) va kodlash oilasi (ingliz UTF, Unicode Contmetatsiya formati) oilasi. Harbiy belgilar to'plami belgilar - salbiy bo'lmagan butun sonlarni ifodalovchi kod kosmikining elementlari bo'lgan belgilarning aniq muvofiqligini o'rnatadi. Kodlash oila UCS kodlari ketma-ketligining mashinasozligini aniqlaydi.

Unicode standarti barcha zamonaviy va qadimgi yozma tillarning yagona kodini yaratish uchun yaratilgan. Ushbu standartdagi har bir belgi 16 bit bilan kodlangan, bu esa ilgari olingan 8 bitli kodlarni qoplash uchun bemalol ko'proq belgilarni qoplashga imkon beradi. Boshqa kodlash tizimlaridan boshqa muhim ahamiyatga ega emas, balki har bir belgi uchun atribut. noyob kod, lekin ushbu ramzning turli xil xususiyatlarini ham, masalan:

    belgi turlari (katta harf, kichik harf, o'lchamdagi, tinish belgilari va boshqalar);

    belgi belgilari (chapdan o'ngga yoki o'ngdan o'ngga, bo'sh joy, satrni va boshqalar);

    tegishli katta yoki kichik harflar (kichik harflar va katta harflar uchun);

    tegishli raqamli qiymat (raqamli belgilar uchun).

0 FFFFFFFFFFFFFI-dan eng ko'p kodlar bir nechta standart to'plamlarga bo'linadi, ularning har biri ba'zi bir til yoki uning funktsiyalariga o'xshash bir guruh maxsus belgilar bilan mos keladi. Quyidagi sxemada UCODODE umumiy ro'yxati mavjud (2-rasm).

2-rasm.

Unicode Standard ko'plab zamonaviy kompyuter tizimlarida saqlash va matnlar uchun asosdir. Biroq, u aksariyat Internet protokollariga mos kelmaydi, chunki uning kodlari har qanday bayt qiymatlari bo'lishi mumkin va protokollar xizmat sifatida 00 - 1F va FF fff-FF-dan foydalanadilar. Tuzilmaslik uchun bir nechta Unicode konversiyasining bir nechta formatlari ishlab chiqildi (UTFS, Unicod Corcatsion formatlar), ulardan boshlab uTF-8 eng keng tarqalgan. Ushbu format har bir Unicod kodini (biridan uchgacha) Internet protokollarini tashish uchun mos keladigan baytlar to'plamiga aylantirish uchun quyidagi qoidalarni belgilaydi.

Bu erda x, y, z kichik kodning bitlarini anglatadi va natijalar barcha belgilangan pozitsiyalar to'ldirilgunga qadar o'ng tomonga chapga chapga chapga chapga joylashtiring.

Unicode standartining yanada rivojlanishi yangi til plantezi, i.e. Yuqoridagi stolga tushib qolmagan mardlash uchun kodlash uchun kodlash uchun kodlash kiritish kerak bo'lgan 10,000 - 2 - 2 --6 --6 --6 --6 --6 --6-sonli ramzlar. Ushbu qo'shimcha belgilarni kodlash uchun UTF-16 formati ishlab chiqilgan.

Shunday qilib, Unicode formatida baytlarni kodlashning 4 ta asosiy usuli mavjud:

UTF-8: 128 belgi bitta bayt (ASCII formati) tomonidan kodlanadi (ASCII formatida), 1920 belgidan iborat ((Rim, yunillikni, arman, arman, arman, armanlar, arab ramzlari), arab belgilari (xitoycha). , Yapon va boshqalar. Qolgan 2 147 418 112 belgilar 4, 5 yoki 6 bayt bilan kodlanishi mumkin.

UCS-2: Har bir belgi 2 baytdan iborat. Ushbu kodlash Unicode formatidan faqat birinchi 65,535 belgidan iborat.

UTF-16: Bu UCS-2 kengayishi, 1 114 111 112 Unicode formatidagi belgilarni o'z ichiga oladi. Dastlabki 65,535 belgi 2 bayt, qolganlari esa 4 baytdan iborat.

USC-4: Har bir belgi 4 baytga kodlanadi.