کد 32 127. کدگذاری اطلاعات متن

سلام، وب سایت خوانندگان وبلاگ عزیز. امروز ما با شما صحبت خواهیم کرد که Krakoyarbra از برنامه ها و در برنامه ها می آید، کدام کدگذاری های متن وجود دارد و کدام یک از آنها باید استفاده شود. اجازه دهید جزئیات تاریخ توسعه آنها را در نظر بگیریم، از پایگاه های اولیه ASCII، و همچنین نسخه های توسعه یافته آن CP866، KOI8-R، ویندوز 1251 و پایان دادن به کدهای مدرن UNICDE UTF 16 و 8 کنسرسیوم.

کسی که این اطلاعات ممکن است غیر ضروری باشد، اما شما می دانید که چگونه سوالات به من دقیقا مربوط به ترک ها (نه خواندن مجموعه ای از شخصیت ها). حالا من فرصتی برای ارسال همه به متن این مقاله خواهم داشت و به طور مستقل برای Shoals خود جستجو می کنم. خوب، آماده باشید تا اطلاعات را جذب کنید و سعی کنید روایت را نظارت کنید.

ASCII - کدگذاری پایه Latiza پایه

توسعه رمزگذاری های متن به طور همزمان با تشکیل صنعت فناوری اطلاعات اتفاق می افتد، و در طول این مدت آنها زمان را به طور کامل تغییر کرده اند. از لحاظ تاریخی، این همه با یک نسبتا مضر در تلفظ روسی EBCDIC آغاز شد، که امکان رمزگذاری حروف الفبا لاتین، اعداد عربی و علائم نقطه گذاری را با نمادهای کنترل را رمزگذاری می کند.

اما هنوز نقطه شروع برای توسعه رمزگذاری متن مدرن باید معروف باشد ASCII استاندارد آمریکایی کد برای تبادل اطلاعات، که در روسیه معمولا به عنوان "Aski" تلفظ می شود). این 128 کاراکتر اول از کاربران رایج ترین زبان انگلیسی را توصیف می کند - نامه های لاتین، اعداد عربی و علائم نقطه گذاری.

حتی در این 128 کاراکتر که در ASCII شرح داده شده اند، برخی از نمادهای خدماتی توسط براکت ها، شبکه ها، ستاره ها و غیره خرد شده اند. در واقع، شما خودتان می توانید آنها را ببینید:

این 128 کاراکتر از نسخه اولیه ASCII به استاندارد تبدیل شده است، و در هر کدگذاری دیگر شما قطعا ملاقات خواهید کرد و ایستاده است که آنها به گونه ای هستند.

اما واقعیت این است که با کمک یک بایت اطلاعات، شما می توانید 128 را رمزگذاری کنید، اما 256 مقدار مختلف (دو بار به درجه هشت برابر 256)، بنابراین یک کل محدوده پس از نسخه اولیه ظاهر شد aska رمزگذاری پیشرفته ASCIIعلاوه بر 128 نشانه اصلی، همچنین ممکن بود که نمادهای ملی رمزگذاری را رمزگذاری کنیم (به عنوان مثال، روسی).

در اینجا، احتمالا، ارزش کمی در مورد سیستم شماره ای است که در توضیحات استفاده می شود. اول، همانطور که همه چیز را می دانید، کامپیوتر تنها با اعداد در یک سیستم باینری، یعنی صفر و واحدها ("Boulev Algebra" کار می کند، اگر کسی در موسسه یا در مدرسه برگزار شود). هر کدام از آنها به یک درجه کمک می کند، از صفر شروع می شود و در هفتم به دو برابر می شود:

دشوار است بدانید که تمام ترکیبات احتمالی صفر و واحدهای در چنین طراحی تنها می تواند 256 باشد. ترجمه شماره از سیستم باینری در دهدهی کاملا ساده است. لازم است که به سادگی تمام سطوح twos بالاتر از آن را از دست بدهد.

به عنوان مثال، 1 (2 تا درجه صفر) به علاوه 8 (دو تا درجه 3)، به علاوه 32 (دو بار در درجه پنجم)، به علاوه 64 (در ششم)، به علاوه 128 (در هفتم) معلوم می شود . مجموع 233 را در یک سیستم شماره دهدهی دریافت می کند. همانطور که می بینید، همه چیز بسیار ساده است.

اما اگر به میز نگاه کنید نمادها ASCII.شما خواهید دید که آنها در رمزگذاری هگزادسیمال ارائه می شوند. به عنوان مثال، "ستاره" مربوط به بهشت \u200b\u200bیک شماره هگزادسیمال 2A است. احتمالا شما می دانید که در یک سیستم شماره هگزادسیمال، حروف لاتین از یک (میانگین ده) به F (به معنی پانزده) در یک سیستم شماره هگزادسیمال استفاده می شود.

خوب، برای منتقل کردن اعداد دودویی در هگزادسیمال به روش ساده و بصری بعدی بروید. هر بایت اطلاعات به دو قسمت از چهار بیت تقسیم می شود، همانطور که در تصویر بالا نشان داده شده است. بنابراین در هر نیمی از بایت، کد باینری تنها می تواند برای شانزده ارزش (دو در درجه چهارم) رمزگذاری شود، که می تواند به راحتی توسط هگزادسیمال نشان داده شود.

علاوه بر این، در نیمه چپ بایت، لازم است که دوباره از صفر در نظر گرفته شود و نه به عنوان نشان داده شده در تصویر. به عنوان یک نتیجه، توسط محاسبات غیر خوب، ما دریافت می کنیم که شماره E9 در تصویر کدگذاری شده است. من امیدوارم که دوره استدلال من و جامع بودن این ربات شما قابل فهم بود. خوب، حالا ما ادامه خواهیم داد، در واقع در مورد رمزگذاری متن صحبت می کنیم.

نسخه های گسترده از Aski - CP866 و KOI8-R کدگذاری با pseudograph

بنابراین، ما شروع به صحبت در مورد ASCII، که مانند نقطه شروع برای توسعه تمام رمزگذاری های مدرن بود (ویندوز 1251، یونیکد، UTF 8).

در ابتدا، تنها 128 نشانه از الفبای لاتین، اعداد عربی و چیز دیگری وجود داشت، اما در نسخه پیشرفته، امکان استفاده از تمام 256 ارزش را که می توان در یک اطلاعات ضعیف رمزگذاری کرد، استفاده کرد. کسانی که. یک فرصت برای اضافه کردن نمادهای نامه های زبان خود را به Aska.

در اینجا لازم است که یک بار دیگر برای روشن شدن پودر شود - چرا شما نیاز به رمزگذاری دارید؟ متون و چرا این بسیار مهم است. کاراکترهای روی صفحه نمایش کامپیوتر شما بر اساس دو چیز شکل می گیرند - مجموعه ای از فرم های بردار (نمایندگی ها) انواع کاراکترها (آنها در فایل های شرکت) و کد هستند که به شما اجازه می دهد تا این مجموعه از اشکال بردار را بیرون بکشید Font File) این شخصیت است که به جای درست قرار می گیرد.

واضح است که فونت ها مسئول فرم های بردار هستند، اما سیستم عامل و برنامه های مورد استفاده در آن مسئول رمزگذاری هستند. کسانی که. هر متن بر روی رایانه شما مجموعه ای از بایت ها خواهد بود که در هر کدام یک نماد تک این متن رمزگذاری می شود.

این برنامه که این متن را روی صفحه نمایش (ویرایشگر متن، مرورگر و غیره) نمایش می دهد، هنگام تجزیه کد، رمزگذاری علامت بعدی را می خواند و برای فرم بردار مربوطه جستجو می کند فایل مورد نظر فونت که برای نمایش این سند متن متصل است. همه چیز ساده و تلنگر است.

بنابراین، برای رمزگذاری هر نمادی که ما نیاز داریم (به عنوان مثال از الفبای ملی)، دو شرایط باید تکمیل شود - فرم بردار این علامت باید در فونت مورد استفاده قرار گیرد و این نماد را می توان در رمزگذاری Extended ASCII به یک بایت رمزگذاری کرد . بنابراین، مجموعه ای از این گزینه ها وجود دارد. فقط برای کدگذاری نمادهای زبان روسی، انواع مختلفی از الاغ های پیشرفته وجود دارد.

به عنوان مثال، در ابتدا ظاهر شد CP866.در آن امکان استفاده از نمادهای الفبای روسی وجود داشت و نسخه گسترده ای از ASCII بود.

کسانی که. بخش فوقانی آن به طور کامل با نسخه اصلی Aska (128 علامت لاتین، اعداد و هر کس دیگری)، که بر روی تصویر ارائه شده است، با توجه به کمی بالاتر، اما در حال حاضر ارائه شده است قسمت پایین جداول رمزگذاری CP866 دارای مشخص شده در تصویر کمی پایین تر بود و مجاز به رمزگذاری 128 کاراکتر دیگر (نامه های روسی و هر شبه پاتوگرافی):

مشاهده کنید، در ستون سمت راست، اعداد با 8 شروع می شوند، زیرا اعداد از 0 تا 7 به قسمت پایه ASCII مراجعه کنید (اولین تصویر را ببینید). بنابراین نامه روسی "M" در CP866 کد 9C را دارد (آن را در تقاطع ردیف های مربوطه با 9 و ستون با تعداد C در یک سیستم شماره هگزادسیمال)، که می تواند در یک بایت اطلاعات نوشته شده، و اگر فونت مناسب با شخصیت های روسی وجود دارد، این نامه بدون مشکل در متن نمایش داده خواهد شد.

این مقدار از کجا آمده است سودوگرافیان در CP866.؟ در اینجا این چیزی است که این رمزگذاری برای متن روسی در آن سالهای روشن توسعه یافت، زمانی که چنین توزیع گرافیک وجود نداشت سیستم های عامل مثل الان. و در داعش، و عملیات متن مشابه، Pseudographic اجازه داد تا حداقل به نوعی متنوع را متنوع سازد و بنابراین با CP866 و تمام ردیف های دیگر آن از تخلیه نسخه های گسترده Aska فراوان است.

CP866 توزیع شرکت IBM، اما علاوه بر این، تعدادی از رمزگذاری ها برای نمادهای زبان روسی توسعه داده شد، به عنوان مثال، همان نوع (Extended ASCII) را می توان نسبت داد koi8-r:

اصل کار آن همچنان همانند CP866 بود که بعدا شرح داد - هر نماد متن توسط یک بایت واحد کدگذاری می شود. صفحه نمایش نیمه دوم جدول KOI8-R را نشان می دهد، زیرا نیمه اول به طور کامل با پایه ASUS سازگار است، که در اولین تصویری در این مقاله نشان داده شده است.

در میان ویژگی های کدگذاری KOI8-R، می توان اشاره کرد که نامه های روسی در جدول خود به ترتیب حروف الفبا نیستند، مانند این، به عنوان مثال، ساخته شده در CP866.

اگر به اولین تصویر (قسمت پایه، که وارد تمام رمزهای گسترش یافته است، نگاه کنید)، متوجه می شوید که در KOI8-R، نامه های روسی در همان جداول جدول به عنوان حروف الفبا لاتین از قسمت اول قرار دارند میز. این کار برای راحتی تعویض از نمادهای روسی به لاتین انجام شد و تنها یک بیت را از بین برد (دو نفر در درجه هفتم یا 128).

ویندوز 1251 - نسخه مدرن ASCII و چرا Crackels خارج می شود

توسعه بیشتر رمزگذاری های متن به دلیل این واقعیت بود که سیستم عامل های گرافیکی و نیاز به استفاده از pseudographics در آنها محبوبیت به دست آمد. در نتیجه، یک گروه کامل به وجود آمد، که در ماهیت خود، هنوز نسخه های پیشرفته Aski بود (یک نماد متن تنها با یک اطلاعات از یک اطلاعات) کدگذاری شده است، اما بدون استفاده از کاراکترهای پوسیدوگرافی.

آنها به اصطلاح Coding به اصطلاح ANSI، که توسط موسسه استاندارد آمریكا توسعه داده شد، تحت درمان قرار گرفتند. نام سیریلیک هنوز در مسابقات قهرمانی برای حمایت از زبان روسی استفاده می شود. یک مثال از این مثال.

این کاملا متفاوت از CP866 و KOI8-R بود که در آن محل شخصیت های پوسیدوگرافی در آن، نمادهای گمشده تایپوگرافی روسیه (علامت کاهش)، و همچنین نمادهای مورد استفاده در نزدیکی اسلاوی روسی را به دست آوردند زبانها (اوکراین، بلاروس، و غیره):

به دلیل این فراوانی از کد های زبان روسی، تولید کنندگان فونت ها و تولید کنندگان نرم افزار او به طور مداوم یک سردرد داشت، و با شما، خوانندگان عزیز، اغلب کسانی که بدترین هستند krakoyabryهنگامی که سردرگمی با نسخه مورد استفاده در متن تدریس شد.

اغلب آنها هنگام ارسال و دریافت پیام ها از طریق ایمیل بیرون آمدند، که منجر به ایجاد جداول بسیار پیچیده ترانسکودینگ شد، که در واقع این مشکل را در ریشه حل نمی کرد، و اغلب کاربران برای مکاتبات برای جلوگیری از استفاده از Krakozyabs بدنام استفاده می شود رمزگشایی های روسی CP866، KOI8-R یا ویندوز 1251 مشابه است.

در اصل، Krakoyarbra، به جای متن روسی، به جای استفاده نادرست رمزگذاری بود از این زبانکه مطابق با آن نیست که در آن پیام متنی در ابتدا کدگذاری شد.

فرض کنید که نمادها با CP866 کدگذاری شده اند، سعی کنید با استفاده از جدول کد ویندوز 1251 نمایش داده شوند، سپس این بیشتر ترک خورده (مجموعه بی معنی از شخصیت ها) و خارج شدن، به طور کامل متن پیام را جایگزین کنید.

وضعیت مشابهی در، انجمن ها یا وبلاگ ها بسیار اتفاق می افتد، زمانی که متن با شخصیت های روسی به اشتباه در همان رمزگذاری ذخیره نمی شود که در وب سایت پیش فرض استفاده می شود یا نه در ویرایشگر متن، که به کد Sebestin اضافه می شود قابل مشاهده به چشم غیر مسلح است.

در نهایت، چنین وضعیتی با بسیاری از رمزگذاری ها و به طور مداوم خزنده خزنده، بسیاری از خسته، پیش نیازها برای ایجاد تغییرات جهانی جدید، که تمام موجودات موجود را جایگزین کرده بودند، در نهایت، به ریشه های مشکل مواجه شد متون قابل خواندن علاوه بر این، مشکلی از زبان های مشابه چینی وجود داشت، جایی که نمادهای زبان بسیار بیش از 256 بود.

Unicode (یونیکد) - کد جهانی UTF 8، 16 و 32

این هزاران نشانه از گروه زبان جنوب شرقی آسیا نمی توانست در یک اطلاعات پاپ که برای رمزگذاری کاراکترها در نسخه های پیشرفته ASCII اختصاص داده شود، توصیف نمی شود. در نتیجه، یک کنسرسیوم ایجاد شد یونیکد (Unicode - کنسرسیوم یونیکد) در همکاری بسیاری از رهبران فناوری اطلاعات صنعت (کسانی که نرم افزاری را تولید می کنند که آهن را که فونت ها را ایجاد می کند) را ایجاد می کند) که علاقه مند به ظاهر یک رمزگذاری متن جهانی بودند.

اولین تنوع منتشر شده تحت حمایت کنسرسیوم یونیکد بود UTF 32.. رقم به نام رمزگذاری به معنای تعداد بیت هایی است که برای رمزگذاری یک نماد استفاده می شود. 32 بیت 4 بایت اطلاعاتی هستند که برای رمزگذاری یک علامت واحد در کدامیک جدید UTF UTF مورد نیاز است.

به عنوان یک نتیجه، همان فایل با متن کدگذاری شده در نسخه پیشرفته ASCII و UTF-32 در مورد دوم، اندازه (وزن) چهار برابر بیشتر خواهد بود. بد است، اما اکنون ما فرصتی برای رمزگذاری تعداد علائم برابر با دو تا سی درجه دوم با کمک UTF داریم ( میلیاردها شخصیتکه هر ارزش واقعی را با حاشیه عظیم پوشش می دهد).

اما بسیاری از کشورها با زبان های گروه اروپایی چنین تعداد زیادی از نشانه هایی را برای استفاده در کدگذاری دارند و نیازی به استفاده از UTF-32 وجود نداشت، آنها چهار بار افزایش یافتند در وزن اسناد متن، و در نتیجه، افزایش ترافیک اینترنت و حجم اطلاعات ذخیره شده است. این خیلی زیاد است و هیچ کس نمی تواند چنین زباله ای را بپردازد.

به عنوان یک نتیجه از توسعه یونیکد ظاهر شد UTF-16که به طرز موفقیت آمیز تبدیل شد که به طور پیش فرض به عنوان یک فضای پایه برای تمام کاراکترهایی که ما استفاده می کنیم، به طور پیش فرض تصویب شد. از دو بایت برای رمزگذاری یک نشانه استفاده می کند. بیایید ببینیم چطور این چیز به نظر می رسد.

در اتاق عمل سیستم ویندوز شما می توانید در امتداد مسیر "شروع" - "برنامه ها" - "استاندارد" - "سرویس" - "جدول" - "جدول شخصیت". به عنوان یک نتیجه، یک جدول با فرم های بردار همه نصب شده در فونت های شما باز می شود. اگر شما در "پارامترهای اضافی" مجموعه ای از کاراکترهای یونیکد را انتخاب کنید، می توانید برای هر فونت به طور جداگانه تمام طیف وسیعی از کاراکترهای موجود در آن را ببینید.

به هر حال، با کلیک بر روی هر یک از آنها، شما می توانید آن را دو تا کد در فرمت UTF-16متشکل از چهار رقم هگزادسیمال:

چند کاراکتر را می توان در UTF-16 با استفاده از 16 بیت رمزگذاری کرد؟ 65 536 (دو تا شانزده)، و این تعداد برای فضای پایه در یونیکد گرفته شد. علاوه بر این، راه هایی برای رمزگذاری با آن و حدود دو میلیون کاراکتر وجود دارد، اما محدود به فضای گسترش یافته در یک میلیون نماد متن است.

اما حتی این نسخه موفقیت آمیز رمزگذاری یونیکد، رضایت زیادی به کسانی که نوشتند، به عنوان مثال، برنامه ها تنها در مورد زبان انگلیسیبرای آنها، پس از انتقال از نسخه پیشرفته ASCII به UTF-16، وزن اسناد دو بار افزایش یافت (یک بایت در هر نماد در Aski و دو بایت در همان نماد در UTF-16).

این دقیقا برای برآورده شدن همه است و همه در کنسرسیوم یونیکد تصمیم گرفت تا با آن کنار بیایند رمزگذاری طول متغیر. او UTF-8 نامیده شد. با وجود هشت عنوان، این واقعا طول متغیر دارد، I.E. هر نماد متن را می توان به یک دنباله از یک تا شش بایت کدگذاری کرد.

در عمل، UTF-8 تنها از یک محدوده از یک تا چهار بایت استفاده می کند، زیرا هیچ چیز حتی از لحاظ نظری امکان ارائه هر چیزی را به چهار بایت کد وجود ندارد. تمام نشانه های لاتین در یک بایت و همچنین در ASCII قدیمی خوب کدگذاری شده اند.

قابل توجه است، در مورد برنامه نویسی تنها لاتین، حتی این برنامه هایی که Unicode را درک نمی کنند، هنوز خواندن آنچه در UTF-8 کدگذاری شده است. کسانی که. بخش اصلی Aska به سادگی به این کنسرسیوم یونیکد تبدیل شده است.

نشانه های سیریلیک در UTF-8 به دو بایت کدگذاری شده اند و به عنوان مثال، گرجستان - در سه بایت. کنسرسیوم یونیکد پس از ایجاد UTF 16 و 8 تصمیم اصلی را حل کرد - حالا ما داریم در فونت ها یک فضای تک کد وجود دارد. و در حال حاضر تولید کنندگان آنها تنها بر اساس نیروهای و فرصت های خود برای پر کردن آن با اشکال بردار نمادهای متن باقی می ماند. در حال حاضر در مجموعه ها حتی.

در جدول نماد زیر، می توان دید که فونت های مختلف تعداد مختلفی از شخصیت ها را پشتیبانی می کنند. برخی از نمادهای فونت های یونیکد می توانند به خوبی وزن کنند. اما اکنون آنها از این واقعیت متمایز نیستند که آنها برای کدگذاری های مختلف ایجاد شده اند، اما با این واقعیت که تولید کننده فونت را پر کرده یا فضای تک کد را با آن ها یا سایر فرم های بردار به پایان رسانده است.

Krakoyabry به جای نامه های روسی - چگونه به تعمیر

بگذارید ببینیم که چگونه متن Crakozyabe به جای متن ظاهر می شود یا به عبارت دیگر، چگونه رمزگذاری صحیح برای متن روسی انتخاب شده است. در واقع، آن را در برنامه تنظیم شده است که در آن شما ایجاد و یا ویرایش این متن همان، و یا کد استفاده از قطعات متن.

برای ویرایش و ایجاد فایل های متنی، به نظر من شخصا بسیار خوب استفاده می کنم. با این حال، می تواند نحو را برجسته کند که هنوز صدها زبان برنامه نویسی و نشانه گذاری را برجسته می کند و همچنین توانایی گسترش پلاگین ها را دارد. خواندن بررسی دقیق این برنامه فوق العاده با توجه به لینک.

در دفترچه یادداشت ++ بالا، یک آیتم "رمزگذاری" وجود دارد، جایی که شما توانایی تبدیل گزینه موجود را به یکی که در سایت پیش فرض شما استفاده می شود، وجود دارد:

در مورد یک سایت در جوملا 1.5 و بالاتر، و همچنین در مورد یک وبلاگ در وردپرس، باید گزینه را انتخاب کنید تا از ظاهر Krakoyar جلوگیری شود UTF 8 بدون BOM. پیشوند BOM چیست؟

واقعیت این است که زمانی که رمزگذاری ETF-16 توسعه یافت، به دلایلی تصمیم گرفت چنین چیزی را به عنوان توانایی ضبط یک کد نماد، هر دو در دنباله مستقیم (به عنوان مثال، 0A15) و در معکوس (150A) . و به منظور برنامه هایی که می دانستند کدام کد خواندن را دنبال می کنند و اختراع شد بمب (علامت سفارش بایت یا، به عبارت دیگر، امضا)، که در اضافه کردن سه بایت اضافی به همان ابتدای اسناد بیان شد.

در کدگذاری UTF-8، در کنسرسیوم یونیکد هیچ BOM وجود نداشت و بنابراین امضای (این سه بایت اضافی بیشتر را به ابتدای سند اضافه می کرد) برخی از برنامه ها به سادگی از خواندن کد جلوگیری می کردند. بنابراین، ما همیشه، زمانی که صرفه جویی در فایل ها در UTF، شما باید یک گزینه بدون BOM (بدون امضا) را انتخاب کنید. بنابراین شما پیش هستید موسیقی خود را از خراش دادن.

چه قابل توجه است، برخی از برنامه ها در ویندوز نمی دانند که چگونه این کار را انجام دهند (قادر به ذخیره متن در UTF-8 بدون BOM نیست)، به عنوان مثال، یک پنجره نوت بوک مشهور. این سند را در UTF-8 ذخیره می کند، اما هنوز امضا را به ابتدا (سه بایت اضافی) اضافه می کند. علاوه بر این، این بایت ها همیشه یکسان هستند - کد را در دنباله مستقیم بخوانید. اما در سرورها، به دلیل این چیزهای کوچک، ممکن است یک مشکل وجود داشته باشد - Crackels خارج خواهد شد.

بنابراین، در هیچ مورد از پنجره های نوت بوک معمولی استفاده نکنید برای ویرایش اسناد سایت خود، اگر شما نمی خواهید ظاهر Krakoyarbra. من آخرین و ساده ترین گزینه برای ویرایشگر Notepad ++ در حال حاضر ذکر شده را در نظر می گیرم که عملا نقایص ندارد و شامل یکی از مزایای است.

در Notepad ++ هنگام انتخاب رمزگذاری، شما توانایی تبدیل متن را به رمزگذاری UCS-2 خواهید داشت که بسیار نزدیک به استاندارد یونیکد در اصل است. همچنین در یک نوع غیر فعال می تواند در ANSI کدگذاری شود، I.E. با اشاره به زبان روسی، این در حال حاضر توسط ما فقط از ویندوز 1251 توصیف شده است. این اطلاعات از کجا آمده است؟

این در رجیستری سیستم عامل ویندوز شما نوشته شده است - که کدگذاری این است که در مورد ANSI انتخاب کنید، چه چیزی را انتخاب کنید در مورد OEM (برای زبان روسی آن CP866 خواهد بود). اگر یک زبان پیش فرض دیگری را در رایانه خود نصب کنید، این کد ها با همان انسداد ANSI یا OEM برای همان زبان جایگزین می شوند.

پس از شما در Notepad ++، سند را در کدگذاری ذخیره کنید یا یک سند را از سایت باز کنید تا ویرایش کنید، سپس در گوشه پایین سمت راست ویرایشگر، می توانید نام آن را ببینید:

برای جلوگیری از krakoyarbrovبه جز اقداماتی که در بالا توضیح داده شد مفید خواهد بود برای ثبت نام در کلاه خود کد منبع تمام صفحات سایت اطلاعات در مورد این کدگذاری، به طوری که سرور یا میزبان محلی رخ نمی دهد.

به طور کلی، در تمام زبانهای Hypertext علامت گذاری به غیر از HTML، یک آگهی XML ویژه مورد استفاده قرار می گیرد، که رمزگذاری متن را مشخص می کند.

قبل از شروع به جدا کردن کد، مرورگر متوجه خواهد شد که کدام نسخه مورد استفاده قرار می گیرد و دقیقا دقیقا باید کد های شخصیت های این زبان را تفسیر کنید. اما آنچه قابل توجه است، در صورتی که سند را در یونیکد پیش فرض ذخیره کنید، این اعلامیه XML را می توان حذف کرد (کدگذاری UTF-8 در نظر گرفته خواهد شد، اگر BOM یا UTF-16 وجود نداشته باشد).

در مورد یک سند زبان HTML برای مشخص کردن کدگذاری استفاده شده عنصر متاکه بین تگ باز و بسته بندی تجویز شده است:

... ...

این مطلب کاملا متفاوت از پذیرفته شده B است، اما به طور کامل با استفاده از استاندارد HTML 5 به آرامی معرفی می شود و به طور کامل توسط هر کسی که استفاده می شود کاملا به درستی درک می شود این لحظه مرورگرها

در تئوری، عنصر متا با نشانه ای از کدگذاری HTML از سند بهتر خواهد بود تا آنجا که ممکن است در هدر حوضچهبه طوری که در زمان جلسه در متن اولین علامت از Ansi اصلی نیست (که همیشه همیشه خواندن و در هر گونه تغییر) مرورگر باید در حال حاضر اطلاعات در مورد چگونگی تفسیر کدهای این شخصیت ها داشته باشد.

موفق باشی! به جلسات مبهم در وب سایت وب سایت وبلاگ

غلتک های بیشتری را می توانید ادامه دهید

");">

ممکن است علاقه مند باشید

آدرس های URL از تفاوت بین لینک های مطلق و نسبی برای سایت چیست؟
OpenServer - مدرن سرور محلی و نمونه ای از استفاده از آن تاسیسات وردپرس بر روی کامپیوتر
Chmod، که دسترسی به حقوق برای اختصاص فایل ها و پوشه ها (777، 755، 666) و نحوه انجام از طریق PHP چیست؟
جستجو Yandex در سایت و فروشگاه آنلاین

پوشش نماد

با تشکر از نماد BS (بازگشت به مرحله)، یک شخصیت بیش از دیگری می تواند بر روی چاپگر چاپ شود. در ASCII، آن را به منظور اضافه کردن دیاکریتی به نامه ها، به عنوان مثال:

یک BS "→ á
a bs `→ à
یک bs ^ → Â
o bs / → Ø
c BS، → Ç
n bs ~ → Ñ

توجه داشته باشید: در فونت های قدیمی Apostrophe "شیب را به سمت چپ کشیده بود، و تیلدا ~ تغییر کرد، به طوری که آنها فقط به نقش Akut و Tilde از بالا متناسب بود.

اگر همان نماد بر روی نماد قرار گیرد، اثر فونت جسورانه به دست می آید، و اگر تأکید بر روی نماد قرار گیرد، به نظر می رسد که متن را تحت پوشش قرار می دهد.

یک BS A → آ.
یک BS _ → آ.

توجه داشته باشید: این مورد استفاده می شود، به عنوان مثال، در سیستم مرجع مرد.

گزینه های ملی ASCII

استاندارد استاندارد ISO 646 (ECMA-6) امکان قرار دادن شخصیت های ملی را فراهم می کند @ [ \ ] ^ ` { | } ~ . علاوه بر این، در محل # ممکن است قرار داده شود £ ، و در محل $ - ¤ . چنین سیستم به خوبی برای زبان های اروپایی مناسب است، جایی که فقط چند کاراکتر اضافی مورد نیاز است. نسخه ASCII بدون نمادهای ملی به نام US-ASCII یا "نسخه مرجع بین المللی" نامیده می شود.

پس از آن، استفاده راحت تر برای استفاده از رمزگذاری های 8 بیتی (صفحات کد)، جایی که نیمه پایین جدول کد (0-127)، شخصیت های ایالات متحده-ASCII را اشغال می کند و شخصیت های اضافی (128-255) را شامل می شود مجموعه ای از نمادهای ملی. بنابراین، نیمه بالای جدول ASCII به پیاده سازی همه جا Ubiquitous به طور فعال برای نشان دادن نمادهای محلی، نامه های محلی استفاده شد. عدم وجود یک استاندارد واحد برای قرار دادن کاراکترهای سیریلیک در جدول ASCII بسیاری از مشکلات رمزگذاری (KOI-8، Windows-1251 و دیگران) را تحویل داد. زبانهای دیگر با نوشتن غیرقانونی نیز به علت حضور چندین کدگذاری متفاوت رنج می برد.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.a.a	.b	.c.c	.d	.e.e.	.f
0.	نول	سما	eoa	ارمان	eqt	وو	ru	بل	bksp	هت	LF	vt	ff	کر	بنابراین.	si
1.	DC 0	DC 1	DC 2	DC 3	DC 4	اشتباه	همگام سازی	لم	s 0	S 1	S 2	S 3	S 4	s 5	S 6	S 7
2.
3.
4.	جای خالی	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
آ.	@	آ.	ب	C.	D.	E.	F.	G.	H.	من.	ج	K.	L.	M.	n.	O.
ب	پ.	Q.	R.	S.	T.	تو	V.	W.	ایکس.	Y.	Z.	[	\	]		←
C.
D.
E.		آ.	ب	c.	d.	e.	f.	g.	h.	من.	ج	k.	l.	m.	n.	o.
F.	پ.	q.	r.	s.	t.	تو	v.	w.	ایکس.	y	z.				خروج	دل

در آن رایانه ها که در آن واحد حافظه قابل توجهی از حافظه یک کلمه 36 بیتی بود، در ابتدا شخصیت های 6 بیتی استفاده شد (1 کلمه \u003d 6 کاراکتر). پس از سوئیچینگ به ASCII در چنین رایانه ها، 5 شخصیت هفت بیتی شروع به قرار دادن در یک کلمه (1 بیت اضافی بیش از حد) یا 4 شخصیت نهتی بود.

کدهای ASCII نیز برای تعیین کلید تحت برنامه نویسی استفاده می شود. برای استاندارد QWERTY صفحه کلید، جدول کد به نظر می رسد مانند این است:

کامپیوتر به معنای فرآیند تحول آن به یک فرم است که به شما اجازه می دهد تا انتقال راحت تر، ذخیره سازی یا پردازش خودکار این داده ها را سازماندهی کنید. برای این منظور، جداول مختلف استفاده می شود. رمزگذاری ASCII اولین سیستم توسعه یافته در ایالات متحده است تا با متن انگلیسی زبان کار کند، که پس از آن در سراسر جهان توزیع شد. توصیف، ویژگی ها، خواص و استفاده بیشتر آن به مقاله ارائه شده در زیر اختصاص داده شده است.

نمایش و ذخیره اطلاعات در کامپیوتر

نمادها بر روی یک مانیتور کامپیوتر یا یک ابزار دیجیتال تلفن همراه بر اساس مجموعه ای از اشکال بردار انواع علائم و کد تشکیل شده است که به شما اجازه می دهد شخصیت را در میان آنها پیدا کنید که می خواهید به جای مناسب وارد شوید. این توالی کمی است. بنابراین، هر نماد باید قطعا متناسب با مجموعه ای از صفرها و واحدهای است که در یک نظم خاص، منحصر به فرد ایستاده است.

چطور شروع شدند

از لحاظ تاریخی، اولین رایانه های انگلیسی زبان انگلیسی بود. برای رمزگذاری اطلاعات نمادین در آنها، به اندازه کافی برای استفاده از تنها 7 بیت حافظه بود، در حالی که برای این منظور 1 بایت بود که شامل 8 بیت بود. تعداد نشانه هایی که توسط کامپیوتر قابل درک است در این مورد برابر با 128 بود. تعداد این کاراکترها شامل الفبای انگلیسی با علامت های نقطه گذاری، اعداد و برخی از کاراکترهای خاص بود. کدگذاری هفت کد گذاری شده با هفتادانه انگلیسی با جدول مربوطه (صفحه کد)، توسعه یافته در سال 1963، کد استاندارد آمریکایی برای تبادل اطلاعات نامگذاری شد. معمولا برای تعیین آن، اختصار "رمزگذاری ASCII" مورد استفاده قرار گرفت و برای این روز استفاده شد.

انتقال به ضرب

با گذشت زمان، کامپیوترها به طور گسترده ای در کشورهای غیر شرکت کننده استفاده می شود. در این راستا، نیاز به رمزگذاری هایی بود که به ما اجازه می داد از زبان های ملی استفاده کنیم. تصمیم گرفت که دوچرخه را مجددا بازسازی نکنیم و به عنوان پایه ای از ASCII استفاده کنیم. جدول کدگذاری در نسخه جدید به طور قابل توجهی گسترش یافته است. استفاده از بیت هشتم به 256 کاراکتر مجاز به ترجمه به زبان کامپیوتر می شود.

شرح

رمزگذاری ASCII دارای یک جدول است که به 2 قسمت تقسیم می شود. به طور کلی استاندارد بین المللی پذیرفته شده تنها نیمه اول آن است. آن شامل:

نمادها با اعداد توالی از 0 تا 31، کدگذاری شده توسط توالی ها از 00000000 تا 00011111. آنها برای کنترل کاراکترهای پیروی از فرآیند خروجی متن به صفحه یا چاپگر، سیگنال صوتی و غیره اختصاص داده شده اند.
نمادهای NN در جدول از 32 تا 127، کدگذاری شده توسط توالی ها از 00100000 تا 011111111 بخش استاندارد جدول را تشکیل می دهند. این شامل یک فضای (32)، حروف الفبای لاتین (حروف کوچک و حروف بزرگ)، تعداد ده رقمی از 0 تا 9، علائم نقطه گذاری، براکت های مختلف کتیبه و شخصیت های دیگر است.
نمادها با اعداد توالی از 128 تا 255، توسط توالی ها از 10،000،000 تا 11111111 رمزگذاری شده اند. این نامه های الفبای ملی به غیر از لاتین است. این بخش جایگزین جدول کدگذاری ASCII است که برای تبدیل نمادهای روسی به فرم رایانه استفاده می شود.

برخی از خواص

ویژگی های رمزگذاری ASCII شامل تفاوت بین حروف "a" - "z" از ثبت های پایین تر و بالا با تنها یک بیت است. این شرایط به شدت تغییرات ثبت نام را ساده می کند، و همچنین تأیید آن متعلق به محدوده مشخصی از مقادیر است. علاوه بر این، تمام حروف در سیستم رمزگذاری ASCII توسط اعداد توالی خود را در الفبای نشان داده شده است که 5 رقم در یک سیستم شماره دودویی نوشته شده است، در مقابل آن برای نامه های ثبت نام پایین تر 011 2 و بالا - 010 2.

ویژگی های ویژگی های رمزگذاری ASCII همچنین می تواند طبقه بندی و نمایندگی 10 رقم - "0" - "9". در سیستم دوم، آنها با 00112 شروع می شوند و با 2 مقادیر اعداد به پایان می رسد. بنابراین، 0101 2 معادل تعداد دهدهی پنج است، بنابراین نماد "5" به عنوان 0011 01012 نوشته شده است. با تکیه بر بالا، شما به راحتی می توانید اعداد اعشاری باینری را به رشته در کدگذاری ASCII با اضافه کردن توالی بیتی سمت چپ تبدیل کنید 00112 به هر MB.

"یونیکد"

همانطور که می دانید، هزاران نفر از کاراکترها برای نمایش متون در زبان گروه آسیای جنوب شرقی نیاز دارند. این مقدار به هیچ وجه در یک اطلاعات چاپی توصیف نشده است، بنابراین حتی نسخه های پیشرفته ASCII دیگر نمیتوانند نیازهای بیشتری از کاربران از کشورهای مختلف را برآورده کنند.

بنابراین، نیاز به ایجاد یک رمزگذاری جهانی از متن وجود داشت، توسعه آن، با همکاری با بسیاری از رهبران جهان فناوری اطلاعات، یک کنسرسیوم "یونیکد" مشغول به کار بود. کارشناسان آن سیستم UTF 32 را ایجاد کردند. در آن، 32 بیت تشکیل 4 بایت اطلاعات برای کدگذاری 1 نماد منتشر شد. معایب اصلی افزایش شدید میزان حافظه مورد نیاز 4 برابر بود که باعث مشکلات بسیاری شد.

در عین حال، برای اکثر کشورها با زبان های رسمی مربوط به گروه Indo-European، تعداد علائم برابر با 22 32 بیشتر از بیش از حد است.

به عنوان یک نتیجه از کار بیشتر متخصصان از کنسرسیوم "Unicode"، رمزگذاری UTF-16 ظاهر شد. این گزینه تبدیل اطلاعات نمادین است که هر دو از طریق حجم حافظه مورد نیاز و تعداد نمادهای کدگذاری شده را تنظیم کرده است. به همین دلیل UTF-16 به طور پیش فرض پذیرفته شد و در آن برای یک علامت شما نیاز به رزرو 2 بایت دارید.

حتی این نسخه پیشرفته و موفق "Unicode" دارای نقایص بود، و پس از انتقال از نسخه پیشرفته ASCII به UTF-16 وزن سند را دو بار افزایش داد.

در این رابطه، تصمیم گرفت از رمزگذاری متغیر متغیر UTF-8 استفاده کند. در این مورد، هر آیکون متن منبع با یک توالی از 1 تا 6 بایت کدگذاری می شود.

ارتباط با کد استاندارد آمریکایی برای تبادل اطلاعات

تمام نشانه های الفبای لاتین در طول متغیر UTF-8 در 1 بایت کدگذاری شده اند، همانطور که در سیستم رمزگذاری ASCII.

یکی از ویژگی های UTF-8 این است که در مورد متن در Latinia بدون استفاده از شخصیت های دیگر، حتی برنامه هایی که "Unicode" را درک نمی کنند، هنوز هم به شما اجازه می دهد آن را بخوانید. به عبارت دیگر، بخش اصلی رمزگذاری متن ASCII به سادگی به متغیر طول UTF جدید حرکت می کند. نشانه های سیریلیک در UTF-8 اشغال 2 بایت، و به عنوان مثال، گرجستان - 3 بایت. ایجاد UTF-16 و 8 مشکل اصلی ایجاد یک فضای تک کد در فونت ها را حل کرد. از آن به بعد، تولید کنندگان فونت ها تنها برای پر کردن فرم های بردار جدول بر اساس نیازهای آنها باقی می مانند.

در سیستم عامل های مختلف، اولویت به کدگذاری های مختلف داده می شود. برای قادر به خواندن و ویرایش متون در کدگذاری دیگری، برنامه های ترانسکودینگ متن روسی اعمال می شود. مقداری ویراستاران متن شامل ترانزیت های جاسازی شده و اجازه می دهد تا شما را به خواندن متن بدون در نظر گرفتن رمزگذاری.

حالا شما می دانید چند کاراکتر در کدگذاری ASCII و، چگونه و به همین دلیل طراحی شده است. البته، امروز من بزرگترین توزیع در جهان را دریافت کردم. یونیکد با این حال، فراموش نکنید که فراموش نکنید که بر اساس ASCII ایجاد شده است، بنابراین باید با کمک توسعه دهندگان آن به دامنه فناوری اطلاعات، قدردانی شود.

به یاد بیاورید برخی از حقایق شناخته شده به ما:

بسیاری از شخصیت هایی که متن نوشته شده است، الفبای نامیده می شود.

تعداد کاراکترهای حروف الفبا قدرت آن است.

فرمول برای تعیین مقدار اطلاعات: n \u003d 2 b،

جایی که n قدرت الفبای (تعداد کاراکترها) است

ب - تعداد بیت ها (اطلاعات نماد).

الفبای با قدرت 256 کاراکتر می تواند تقریبا تمام شخصیت های لازم قرار گیرد. چنین الفبای کافی است.

زیرا 256 \u003d 2 8 ، وزن 1 نماد 8 بیت است.

واحد اندازه گیری 8 بیت نام اختصاصی 1 بایت:

1 بایت \u003d 8 بیت.

کد دودویی هر نماد در متن کامپیوتر 1 بایت حافظه طول می کشد.

اطلاعات متن در حافظه کامپیوتر چیست؟

کدگذاری این است که هر نماد با یک کد دهدهی منحصر به فرد از 0 تا 255 یا کد باینری مربوط به آن از 00000000 تا 11111111 قرار می گیرد. بنابراین، یک فرد شخصیت های طراحی خود را متمایز می کند و رایانه - با توجه به کد آنها، شخصیت ها را تشخیص می دهد.

راحتی رمزگذاری نماد بیش از حد واضح است، زیرا بایت - کوچکترین بخش قابل توجهی از حافظه و بنابراین، پردازنده می تواند به هر شخصیت به طور جداگانه با انجام پردازش متن اشاره کند. از سوی دیگر، 256 کاراکتر به اندازه کافی برای نشان دادن اطلاعات نمادین متنوع هستند.

در حال حاضر این سوال مطرح می شود که کد دودویی هشت بیتی برای قرار دادن هر نماد.

واضح است که این یک ماده مشروط است، شما می توانید بسیاری از روش های رمزگذاری را مطرح کنید.

استاندارد بین المللی رایانه های شخصی به جدول ASCII تبدیل شده است (aski خواندن) (آمریکایی کد استاندارد برای تبادل اطلاعات)

استاندارد بین المللی تنها نیمه اول جدول است، I.E. نمادها با اعداد از 0 (00000000)، تا 127 (011111111).

شماره سریال		سمبل
	00000000 - 00011111	عملکرد آنها کنترل فرایند خروجی متن بر روی صفحه نمایش یا چاپ، سیگنال صوتی، نشانه گذاری متن و غیره است.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	نیمه دوم جدول کد ASCII، به نام صفحه کد (128 کدهای، با شروع از 10،000،000 و پایان 11111111)، ممکن است گزینه های مختلفی داشته باشد، هر گزینه دارای شماره خاص خود است.

من توجه شما را به این واقعیت که در جدول کدگذاری نامه (حروف بزرگ و کوچک) به ترتیب حروف الفبا مرتب شده اند، جلب می کنم و اعداد با افزایش ارزش ها مرتب می شوند. چنین پایبندی به نظم لغوی در ترتیب نمادها، اصل کدگذاری پیوسته الفبای نامیده می شود.

شایع ترین در حال حاضر رمزگذاری شده است. ویندوز مایکروسافت.با کاهش CP1251 نشان داده شده است.

از پایان دهه 90، مشکل استاندارد سازی کدگذاری نماد با معرفی یک استاندارد جدید بین المللی به نام یونیکد حل می شود . این یک رمزگذاری 16 بیتی است، به عنوان مثال در آن، هر نماد 2 بایت حافظه داده می شود. البته، مقدار حافظه اشغال شده 2 بار. اما این جدول کد به شما امکان می دهد تا حداکثر 65536 کاراکتر را فعال کنید. مشخصات کامل استاندارد Unicode شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان، و همچنین بسیاری از نمادهای ریاضی، موزیکال، شیمیایی و دیگر است.

بیایید سعی کنیم از جدول ASCII استفاده کنیم تا تصور کنیم که چگونه کلمات به حافظه کامپیوتر نگاه می کنند.

کلمات

حافظه

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

هنگام ورود به اطلاعات متن به یک کامپیوتر، کاراکترها (حروف، اعداد، شخصیت ها) با استفاده از سیستم های کد های مختلف که شامل مجموعه ای از جداول کد ارسال شده در صفحات استاندارد مربوطه برای رمزگذاری اطلاعات متن هستند، کدگذاری شده اند. در چنین جداول، هر کاراکتر یک کد عددی خاص را در سیستم شماره هگزادسیمال یا دهدهی اختصاص داده است، I.E. جداول کد منعکس کننده مکاتبات بین تصاویر نمادها و کدهای عددی هستند و برای رمزگذاری و رمزگشایی اطلاعات متن طراحی شده اند. هنگام ورود به اطلاعات متن با استفاده از یک صفحه کلید کامپیوتر، هر شخصیت وارد شده کدگذاری شده است، یعنی آن به یک کد عددی تبدیل می شود، زمانی که اطلاعات متن بر روی دستگاه خروجی کامپیوتر (نمایش، چاپگر یا پلاتر) نمایش داده می شود، تصویر آن بر روی آن ساخته شده است کد عددی نماد. تخصیص یک کد عددی خاص نتیجه توافقنامه بین سازمان های مربوطه کشورهای مختلف است. در حال حاضر هیچ جدول کد جهانی یکنواخت وجود ندارد که حروف الفبای ملی کشورهای مختلف را برآورده سازد.

جداول کد مدرن شامل بخش بین المللی و ملی هستند، یعنی حاوی حروف الفبای لاتین و ملی، اعداد، علائم عملیات ریاضی و نشانه گذاری، نمادهای ریاضی و کنترل، نمادهای شبه فیزیکی است. بخش بین المللی جدول کد بر اساس استاندارد ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات)،نیمی از نمادهای جدول کد را با کد های عددی از 0 تا 7 کدگذاری می کند f 16،یا در یک سیستم شماره دهدهی از 0 تا 127. در همان زمان، کدهای 0 تا 20 16 (0؟ 32 10) با کلیدهای عملکرد (F1، F2، F3، و غیره) از صفحه کلید کامپیوتر شخصی حل می شود . در شکل 3.1 بخش بین المللی جدول کد را بر اساس استاندارد نشان می دهد ASCIIسلول های جداول به ترتیب در یک سیستم عدد دهدهی و هلیگتری شمارش می شوند.

شکل 3.1 بخش بین المللی جدول کد (استاندارد ASCII)با تعداد سلول های ارائه شده در سیستم اعشاری (A) و هگزادسیمال (B) تعداد

بخش ملی جداول کد شامل کدهای الفبای ملی است که همچنین جدول جدول نماد نامیده می شود (charset).

در حال حاضر، جداول کد چندگانه (کدگذاری ها) برای حمایت از حروف الفبا روسی (سیریلیک) وجود دارد که توسط سیستم عامل های مختلف مورد استفاده قرار می گیرند، که یک ضرر قابل توجه است و در بعضی موارد منجر به مشکلات مربوط به عملیات رمزگشایی نماد عددی می شود . در برگه 3.1 نام صفحات کد (استانداردها) نشان داده شده است که کدام جداول کد (کدگذاری) سیریلیک نوشته شده است.

جدول 3.1

یکی از اولین استانداردهای کدگذاری سیریلیک بر روی رایانه، استاندارد KOI8-R بود. بخش ملی جدول کد این استاندارد در شکل نشان داده شده است. 3.2.

شکل. 3.2. بخش ملی جدول جدول استاندارد KOI8-R

در حال حاضر، یک جدول کد نیز بر روی صفحه CP866 استاندارد کدگذاری اطلاعات متن که در سیستم عامل استفاده می شود اعمال می شود. MS DOSیا جلسه کار MS DOSبرای کدگذاری سیلیکی (شکل 3.3، ولی).

شکل. 3.3. بخش ملی جدول کد ارسال شده در صفحه CP866 (A) و صفحه CP1251 (B) استاندارد رمزگذاری اطلاعات متن

در حال حاضر، یک جدول کد نوشته شده در صفحه CP1251 استاندارد مربوطه، که در سیستم عامل های خانواده مورد استفاده قرار می گیرد، به طور گسترده ای برای کدگذاری سیریلیک توزیع شد. پنجره هاشرکت مایکروسافت(شکل 3.2، ب).در تمام جداول کد ارسال شده، به جز جدول استاندارد یونیکد،برای کدگذاری یک نماد، 8 تخلیه دودویی داده می شود (8 بیت).

در پایان قرن گذشته، یک استاندارد جدید بین المللی ظاهر شد یونیکد،که در آن یک شخصیت توسط یک کد باینری دو بایت نشان داده می شود. استفاده از این استاندارد همچنان ادامه توسعه یک استاندارد جهانی جهانی است که باعث می شود مشکل سازگاری سازگاری رمزگذاری های نماد ملی را حل کند. از طريق این استاندارد می توان 2 16 \u003d 65536 را رمزگذاری کرد شخصیت های مختلف. در شکل 3.4 جدول کد 0400 (الفبای روسی) استاندارد را نشان می دهد یونیکد

شکل. 3.4. جدول استاندارد یونیکد جدول 0400

بگذارید توضیح دهیم که در مورد برنامه نویسی اطلاعات متن، به عنوان مثال گفته شده است.

مثال 3.1

رمزگذاری کلمه "کامپیوتر" را به صورت یک دنباله ای از اعداد اعشاری دهدهی و هگزادسیمال با استفاده از رمزگذاری CP1251. چه کاراکترها در جداول CP866 Code و KOI8-P هنگام استفاده از کد حاصل می شود.

دنباله ای از کلمه هگزادسیمال و کد باینری کلمه بر اساس جدول رمزگذاری CP1251 (نگاه کنید به شکل 3.3، ب)به نظر می رسد:

این توالی کد در کدگذاری CP866 و KOI8-P به نمادهای زیر منجر می شود:

برای تبدیل اسناد متن روسی زبان از یک استاندارد برای کدگذاری اطلاعات متن به دیگری، برنامه های ویژه استفاده می شود - مبدل ها. مبدل ها معمولا در برنامه های دیگر جاسازی شده اند. یک مثال برنامه مرورگر است - اینترنت اکسپلورر. (یعنی)که دارای یک مبدل داخلی است. برنامه مرورگر یک برنامه ویژه برای مشاهده محتوا است. صفحات وبدر سراسر جهان شبکه ی کامپیوتری اینترنت. ما از این برنامه برای تایید نتایج نمایش شخصیت های به دست آمده به عنوان مثال 3.1 استفاده می کنیم. برای انجام این کار، مراحل زیر را انجام دهید.

1. برنامه دفترچه یادداشت را شروع کنید (دفترچه یادداشت)برنامه نوت بوک در سیستم عامل ویندوز ایکس پیبا استفاده از دستور شروع می شود: [دکمه شروع کردن - برنامه های استاندارد - دفترچه یادداشت] در پنجره برنامه دفترچه یادداشت باز می شود، کلمه "کامپیوتر" را تایپ کنید با استفاده از نحو زبان نشانه گذاری سند HyperText - HTML (زبان نشانه گذاری متن).این زبان برای ایجاد اسناد در اینترنت استفاده می شود. متن باید به نظر برسد:

کامپیوتر

جایی که

و

برچسب ها (طرح های ویژه) زبان HTMLبرای علامت گذاری به عنوان هدر در شکل 3.5 نتیجه این اقدامات را ارائه کرد.

شکل. 3.5. نمایش متن در پنجره دفترچه یادداشت

این متن را با اجرای فرمان ذخیره کنید: [فایل - ذخیره به عنوان ...] در پوشه مناسب کامپیوتر، هنگامی که فایل متنی را ذخیره می کنید، نام را اختصاص دهید - تقریبا، با فرمت فایل. HTML

2. برنامه را شروع کنید اینترنت اکسپلورر،با فرمان دادن فرمان: [دکمه شروع کردن - برنامه ها - اینترنت اکسپلورر].هنگامی که برنامه را شروع می کنید، یک پنجره در شکل ظاهر می شود. 3.6.

شکل. 3.6. پنجره دسترسی آفلاین

دکمه را انتخاب و فعال کنید آفلایناین یک کامپیوتر را به اینترنت جهانی وصل نمی کند. پنجره اصلی برنامه ظاهر خواهد شد. اینترنت مایکروسافت اکسپلوررارائه شده در شکل. 3.7.

شکل. 3.7. پایه ای مایکروسافت پنجره اینترنت اکسپلورر.

دستور زیر را انجام دهید: [فایل - باز]، یک پنجره ظاهر می شود (شکل 3.8)، که در آن شما می خواهید نام فایل را مشخص کنید و روی دکمه کلیک کنید خوب یا دکمه را فشار دهید بررسی اجمالی…و پیدا کردن فایل applic.html.

شکل. 3.8. پنجره "باز"

پنجره اصلی برنامه های اینترنتی اکسپلورر دیدگاه نشان داده شده در شکل را می گیرد. 3.9. کلمه "کامپیوتر" در پنجره ظاهر می شود. بعد، با استفاده از منوی بالا برنامه اینترنت اکسپلورر،ما دستور زیر را اجرا خواهیم کرد: [نمایش - برنامه نویسی - سیریلیک (DOS)].پس از اجرای این فرمان در پنجره برنامه اینترنت اکسپلوررنمادهای نشان داده شده در شکل نمایش داده می شود. 3.10. هنگام اجرای یک تیم: [نمایش - برنامه نویسی - سیریلیک (koi8-r)]در پنجره برنامه اینترنت اکسپلورر.نمادهای نشان داده شده در شکل نمایش داده می شود. 3.11.

شکل. 3.9. نمادها هنگام رمزگذاری CP1251 نمایش داده می شوند

شکل. 3.10. نمادها نمایش داده می شود زمانی که رمزگذاری CP866 برای ترتیب کد ارائه شده به کدگذاری CP1251 وارد شده است

شکل. 3.11. نمادها هنگامی که رمزگذاری KOO8-P برای ترتیب کد ارسال شده به کدگذاری CP1251 نمایش داده می شود نمایش داده می شود

بنابراین با استفاده از برنامه به دست آمد اینترنت اکسپلورر.توالی های شخصیت ها با توالی های کاراکترهای به دست آمده با استفاده از جداول CP866 کد و KOI8-P به عنوان مثال 3.1 مطابقت دارد.

3.2. کدگذاری اطلاعات گرافیک

اطلاعات گرافیکی ارائه شده در قالب نقشه ها، عکس ها، اسلایدها، تصاویر متحرک (انیمیشن، ویدئو)، طرح ها، نقشه ها، می تواند با استفاده از یک کامپیوتر ایجاد و ویرایش شود، در حالی که آن را به طور مناسب کدگذاری شده است. در حال حاضر تعداد زیادی از برنامه های کاربردی برای پردازش اطلاعات گرافیکی وجود دارد، اما همه آنها سه نوع گرافیک کامپیوتری را اجرا می کنند: Raster، بردار و فراکتال.

اگر شما دقیقا تصویر گرافیکی را روی صفحه نمایش مانیتور کامپیوتر مشاهده می کنید، می توانید ببینید تعداد زیادی از نقاط رنگارنگ (پیکسل - از انگلیسی. پیکسل،تحصیل کرده عنصر تصویر -یک عنصر از تصویر)، که با هم جمع شده و این تصویر گرافیکی را تشکیل می دهد. از این می توان نتیجه گرفت: تصویر گرافیکی در رایانه قطعا کدگذاری شده و باید به عنوان یک فایل گرافیکی نمایش داده شود. این فایل واحد ساختاری اصلی سازمان و ذخیره سازی در کامپیوتر است و در این مورد باید حاوی اطلاعاتی در مورد نحوه ارائه این مجموعه ای از نقاط روی صفحه نمایش مانیتور باشد.

فایل های ایجاد شده بر اساس گرافیک بردار حاوی اطلاعات در قالب وابستگی های ریاضی (توابع ریاضی توصیف وابستگی های خطی) و داده های مربوطه در مورد نحوه ساخت یک تصویر از یک شی با استفاده از بخش های خط (بردارها) زمانی که آن را به مانیتور کامپیوتر هدایت می کند صفحه نمایش

فایل های ایجاد شده بر اساس گرافیک Raster، ذخیره سازی داده ها از هر نقطه تصویر فردی را می پذیرند. هیچ محاسبات ریاضی پیچیده برای نمایش گرافیک Raster مورد نیاز نیست، به اندازه کافی برای به دست آوردن اطلاعات در مورد هر نقطه تصویر (مختصات و رنگ آن) کافی است و آنها را روی صفحه نمایش مانیتور کامپیوتر نمایش داده می شود.

در فرایند رمزگذاری تصویر، نمونه برداری فضایی آن انجام می شود، I.E. تصویر به نقاط جداگانه تقسیم می شود و هر نقطه به کد رنگ (زرد، قرمز، آبی و غیره) تنظیم شده است. برای رمزگذاری هر نقطه از تصویر رنگ گرافیک، اصل تجزیه رنگ دلخواه بر اجزای اصلی آن استفاده می شود، که از سه رنگ اصلی استفاده می کند: قرمز (کلمه انگلیسی قرمزنامه را ذکر کنید به)،سبز (سبز،نامه را ذکر کنید g)آبی (آبی،علامت را علامت بزنید که در).هر رنگی از نقطه ای که توسط چشم انسان درک می شود می تواند توسط افزودنی (مخلوط) اضافه شود (مخلوط کردن) از سه رنگ اصلی - قرمز، سبز و آبی. چنین سیستم کدگذاری سیستم رنگ نامیده می شود RGBفایل ها تصاویر گرافیککه در آن سیستم رنگ اعمال می شود RGB،هر نقطه از تصویر را به صورت سه گانه رنگ نشان می دهد - سه مقدار عددی R، G.و که در،مربوط به شدت قرمز، سبز و آبی است. فرآیند رمزگذاری یک تصویر گرافیکی با استفاده از انواع مختلف انجام می شود ابزار فنی (اسکنر، دوربین دیجیتال، دوربین فیلمبرداری دیجیتال، و غیره)؛ به عنوان یک نتیجه، یک تصویر شطرنجی به دست می آید. هنگام پخش تصاویر گرافیک رنگی روی صفحه نمایش مانیتور رنگی، رنگ هر نقطه (پیکسل) این تصویر با مخلوط کردن سه رنگ اصلی به دست می آید R، G. و ب

کیفیت تصویر شطرنجی تعیین شده توسط دو پارامتر اصلی - رزولوشن (با تعداد نقاط افقی و عمودی) و پالت رنگ استفاده شده (تعداد رنگ های مشخص شده برای هر نقطه از تصویر). این رزولوشن با نشان دادن تعداد نقاط به صورت افقی و عمودی تعیین می شود، به عنوان مثال 800 تا 600 امتیاز.

بین تعداد رنگ های تعریف شده توسط نقطه تصویر Raster و مقدار اطلاعاتی که باید برای ذخیره رنگ نقطه تعیین شود، وابستگی تعیین شده توسط رابطه (فرمول R. Hartley) وجود دارد:

جایی که من. - مقدار اطلاعات؛ n -تعداد رنگ های رنگ.

مقدار اطلاعات مورد نیاز برای ذخیره رنگ نقطه نیز به نام عمق رنگ یا کیفیت رنگ است.

بنابراین، اگر تعداد رنگ ها برای نقطه تصویر تعریف شده باشد، n \u003d256، پس از آن مقدار اطلاعات لازم برای ذخیره سازی آن (عمق رنگ) مطابق با فرمول (3.1) برابر خواهد بود من. \u003d 8 بیت

در رایانه ها برای نمایش اطلاعات گرافیکی حالت های عملیاتی گرافیکی مختلف استفاده می شود. در اینجا باید اشاره کرد که علاوه بر حالت گرافیکی عملکرد مانیتور، یک حالت متنی وجود دارد که صفحه نمایش مانیتور به صورت مشروط به 25 ردیف 80 کاراکتر در ردیف تقسیم می شود. این حالت های گرافیکی با وضوح صفحه نمایش مانیتور و کیفیت تولید رنگ (عمق رنگ) مشخص می شود. برای تنظیم حالت صفحه نمایش مانیتور گرافیک در سیستم عامل MS ویندوز XPشما باید دستور را اجرا کنید: [دکمه شروع کردن - راه اندازی - کنترل پنل - صفحه نمایش]. در جعبه "Properties: Screen" (شکل 3.12)، شما باید برگه "پارامترها" را انتخاب کنید و با استفاده از نوار لغزنده رزولوشن صفحه نمایش برای انتخاب وضوح صفحه نمایش مناسب (800 در هر 600 امتیاز، 1024 تا 768 امتیاز، و غیره) را انتخاب کنید. با استفاده از لیست رندر رنگی، شما می توانید عمق رنگ را انتخاب کنید - "بالاترین (32 بیت)"، "متوسط \u200b\u200b(16 بیت)"، و غیره، با تعداد رنگ های تعیین شده توسط هر نقطه تصویر، به ترتیب، برابر با 2 32 (4294967296)، 2 16 (65536)، و غیره

شکل. 3.12 کادر محاوره ای "Properties: Screen"

برای پیاده سازی هر یک از حالت های گرافیکی، صفحه نمایش مانیتور نیاز به حجم اطلاعات خاصی از حافظه ویدئو کامپیوتری دارد. حجم اطلاعات لازم از حافظه ویدئویی (v)تعیین شده از رابطه

جایی که به -تعداد نقاط تصویر بر روی صفحه نمایش مانیتور (k \u003d a · b)؛ ولی -تعداد نقاط افقی بر روی صفحه نمایش مانیتور؛ که در -تعداد نقاط عمودی بر روی صفحه نمایش مانیتور؛ من. - مقدار اطلاعات (عمق رنگ).

بنابراین، اگر صفحه نمایش مانیتور دارای رزولوشن 1024 تا 768 امتیاز و پالت است که شامل 65،536 رنگ است، عمق رنگ مطابق با فرمول (3.1) I \u003d ورود 2 65 538 \u003d 16 بیت، تعداد نقاط تصویر خواهد بود: k \u003d.1024 x 768 \u003d 786432، و حجم اطلاعات مورد نیاز حافظه تصویری مطابق با (3.2) برابر خواهد بود

v \u003d.786432 · 16 بیت \u003d 12582912 بیت \u003d 1572864 بایت \u003d 1536 کیلو بایت \u003d 1.5 مگابایت.

در نتیجه، لازم به ذکر است که علاوه بر ویژگی های ذکر شده مهمترین ویژگی های مانیتور، ابعاد هندسی صفحه نمایش و نقاط تصویر آن است. ابعاد هندسی صفحه نمایش با مقدار مورب مورب مشخص می شود. مورب مانیتورها در اینچ (1 اینچ \u003d 1 "\u003d 25.4 میلی متر تعیین می شود) و می تواند مقادیر برابر با: 14"، 15 "، 17"، 21 "و غیره. فن آوری های مدرن برای تولید مانیتورها می توانند ارائه دهند اندازه نقطه تصویر برابر با 0.22 میلی متر است.

بنابراین، برای هر مانیتور، از لحاظ جسمی حداکثر رزولوشن صفحه نمایش وجود دارد که توسط اندازه مورب آن و اندازه نقطه تصویر تعیین می شود.

تمرینات خودآموزی

1. استفاده از برنامه خانم اکسلتبدیل جدول جداول ASCII، CP866، CP1251، KOI8-P به جداول نوع: در سلول های ستون اول جداول، به ترتیب حروف الفبا، و سپس حروف کوچک لاتین و سیریلیک، در سلول های دوم ستون - مربوط به کدهای حروف در سیستم شماره دهدهی، در سلول ستون سوم کد های مربوطه در یک سیستم شماره هگزادسیمال است. کدهای باید از جداول کد مربوطه انتخاب شوند.

2. رمزگذاری و ثبت نام به عنوان یک دنباله ای از اعداد در یک سیستم عدد دهدهی و هگزادسیمال کلمات زیر:

آ) اینترنت اکسپلورر،ب) مایکروسافت آفیس؛که در) coreldraw

کدگذاری برای تولید با استفاده از یک جدول رمزگذاری ASCII به روز شده در ورزش قبلی به دست آمده است.

3. رمزگشایی با استفاده از جدول رمزگذاری ارتقا یافته KOI8-P دنباله ای از اعداد ثبت شده در یک سیستم شماره هگزادسیمال:

الف) FC CB DA C9 D3 D4 C5 CE C3 C9 D1؛

ب) EB CF CE C6 CF D2 CD C9 DA CD؛

ج) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. کلمه "Cybernetics"، در هنگام رمزگذاری CP1251 ثبت شده است، هنگام استفاده از رمزگذاری CP866 و KOI8-P؟ نتایج را با برنامه بررسی کنید اینترنت اکسپلورر.

5. با استفاده از جدول کد نشان داده شده در شکل. 3.1 ولی،دستورالعمل های کد زیر را که در سیستم شماره دودویی ثبت شده است، رمزگشایی کنید:

a) 01010111 01101111 01110010 01100100؛

ب) 01000101 01111000 01100011 01100101 01101100؛

ج) 01000001 01100011 01100011 01100101 01110011 01100101 01110011 01110011.

6. تعیین حجم اطلاعاتی از کلمه "اقتصاد" کدگذاری شده با استفاده از جدول CP866 CODE، CP1251، یونیکد و KOI8-P را تعیین کنید.

7. تعیین حجم اطلاعاتی از فایل به دست آمده به عنوان یک نتیجه از اسکن تصویر 12x12 رنگ، سانتی متر. رزولوشن اسکنر هنگام استفاده از این تصویر 600 DPI است. اسکنر عمق تصویر تصویر 16 بیت را تنظیم می کند.

حل و فصل اسکنر 600 DPI (Dotper اینچ -نقاط اینچ) توانایی اسکنر را با چنین قطعنامه ای بر روی یک بخش از 1 اینچ تمایز 600 امتیاز تعیین می کند.

8. فایل اطلاعاتی را از اسکن یک تصویر رنگی A4 تعیین کنید. قطعنامه اسکنر هنگام استفاده از این تصویر 1200 DPI استفاده می شود. اسکنر عمق رنگ رنگ نقطه 24 بیت را تعیین می کند.

9. تعداد رنگ ها را در پالت در عمق رنگ 8، 16، 24 و 32 بیت تعیین کنید.

10. تعیین حجم مورد نیاز حافظه ویدئویی برای حالت های گرافیکی صفحه نمایش مانیتور 640 تا 480، 800 تا 600، 1024 تا 768 و 1280 در هر 1024 امتیاز در عمق رنگ نقطه تصویر 8، 16، 24 و 32 بیت. نتایج برای کاهش جدول. توسعه B. خانم اکسلبرنامه اتوماسیون محاسبات.

11. حداکثر تعداد رنگ ها را تعیین کنید که مجاز به استفاده از یک تصویر با اندازه 32 تا 32 امتیاز باشد، اگر رایانه زیر تصویر 2 کیلو بایت حافظه مشخص شود.

12. تعیین حداکثر امکان امکان توانایی صفحه نمایش مانیتور که طول مورب 15 "دارد و اندازه نقطه تصویر 0.28 میلی متر است.

13. حالت های گرافیکی مانیتور می تواند حافظه ویدئویی را با حجم 64 مگابایت ارائه دهد؟

برلینگ

I. تاریخچه کدگذاری اطلاعات .................................... 3

دوم اطلاعات برنامه نویسی ................................................. 4

III برنامه نویسی اطلاعات متن .................................. 4

IV انواع جداول رمزگذاری .............................................. .. ... 6

V. محاسبه تعداد اطلاعات متن ........................... 14

فهرست ادبیات مورد استفاده ......................................... 16

من. . تاریخچه برنامه نویسی اطلاعات

بشریت از رمزنگاری (رمزگذاری) متن از لحاظ زمانی که اولین بار ظاهر شد، استفاده می کند اطلاعات مخفی. در اینجا چند تکنیک برای کدگذاری متن وجود دارد که در مراحل مختلف توسعه تفکر انسان اختراع شده اند:

رمزنگاری یک گرادیان است، یک سیستم تغییر نامه نامه به منظور ایجاد متن غیر قابل درک به افراد غیرقانونی؛

الفبای مورس یا کد تلگراف ناهموار که در آن هر حرف یا علامت توسط ترکیبی از بسته های ابتدایی کوتاه نشان داده شده است جریان الکتریسیته (امتیاز) و قطعه های ابتدایی مدت سه گانه (داش)؛

slurgoes - زبان ژست مورد استفاده افراد مبتلا به اختلال شنوایی.

یکی از اولین روش های شناخته شده رمزگذاری نام امپراتور روم جولیا سزار (من قرن بیستم) است. این روش بر اساس جایگزینی هر حرفی از متن رمز شده، به دیگری، با جابجایی در الفبای از حرف اصلی به تعداد ثابت شخصیت ها، و الفبای در یک دایره خوانده می شود، یعنی بعد از نامه I من در نظر گرفتم بنابراین کلمه "بایت" هنگامی که دو کاراکتر را به سمت راست جابجا کرد، توسط کلمه "GVF" کدگذاری شده است. فرایند معکوس رمزگشایی این کلمه - لازم است جایگزین هر نامه رمزگذاری شده، به دوم به سمت چپ آن.

دوم برنامه نویسی اطلاعات

کد مجموعه ای از نامزدهای شرطی (یا سیگنال ها) برای ضبط (یا انتقال) برخی از مفاهیم پیش تعیین شده است.

کدگذاری اطلاعات فرآیند تشکیل یک ارائه خاص از اطلاعات است. در معنای باریک، اصطلاح "برنامه نویسی" اغلب انتقال از یک نوع ارائه اطلاعات را به دیگری، راحت تر برای ذخیره سازی، انتقال یا پردازش راحت تر درک می کند.

معمولا، هر تصویر هنگام رمزگذاری (گاهی اوقات آنها می گویند - رمزگذاری شده) نشان دهنده یک نشانه جداگانه است.

علامت عنصر مجموعه نهایی عناصر غیر از یکدیگر است.

در معنای باریک، اصطلاح "کدگذاری" اغلب انتقال از یک فرم ارائه اطلاعات به دیگری را درک می کند، راحت تر برای ذخیره سازی، انتقال یا پردازش راحت تر است.

بر روی کامپیوتر شما می توانید اطلاعات متن را پردازش کنید. هنگام ورود به کامپیوتر، هر حرف با یک عدد مشخص کد شده است، و هنگام نمایش یک دستگاه خارجی (صفحه نمایش یا چاپ)، تصاویر حروف برای ادراک این اعداد ساخته شده اند. مکاتبات بین مجموعه ای از حروف و اعداد، کدگذاری شخصیت ها نامیده می شود.

به عنوان یک قاعده، تمام اعداد در رایانه با استفاده از صفر و واحدها (و نه ده رقم، همانطور که برای مردم آشنا هستند) ارائه می شود. به عبارت دیگر، رایانه ها معمولا در یک سیستم شماره دوتایی کار می کنند، زیرا دستگاه های پردازش بسیار ساده تر می شوند. وارد کردن اعداد به کامپیوتر و خروج آنها برای خواندن توسط یک فرد می تواند در فرم اعشاری معمولی انجام شود، و تمام تحولات لازم برنامه های اجرا بر روی کامپیوتر انجام می شود.

III اطلاعات متن کدگذاری

همان اطلاعات را می توان در چندین فرم ارائه داد (کدگذاری شده). با ظاهر کامپیوترها، لازم بود تمام انواع اطلاعاتی را که یک فرد جداگانه و بشریت به طور کلی رمزگذاری شده، رمزگذاری کنیم. اما برای حل وظیفه اطلاعات رمزگذاری، بشریت مدتها قبل از رایانه شروع به کار کرد. دستاوردهای بزرگ بشریت - نوشتن و ریاضی - چیزی بیش از یک سیستم برنامه نویسی گفتاری و اطلاعات عددی وجود ندارد. اطلاعات هرگز به صورت خالص خود ظاهر نمی شود، همیشه به نحوی ارائه شده است، به نحوی کدگذاری شده است.

کدگذاری باینری یکی از راه های رایج برای ارائه اطلاعات است. در ماشین های محاسباتی، در روبات ها و ماشین های کنترل عددی، به عنوان یک قاعده، تمام اطلاعاتی که دستگاه دارای یک مورد است، به عنوان کلمات الفبای دودویی کدگذاری می شود.

از اواخر دهه 60، رایانه ها بیشتر و بیشتر برای رسیدگی به اطلاعات متن استفاده می شود، و در حال حاضر سهم اصلی کامپیوترهای شخصی در جهان (و اغلب اوقات) توسط پردازش اطلاعات متن اشغال شده است. تمام این نوع اطلاعات در کامپیوتر در کد باینری ارائه شده است، به عنوان مثال، الفبای با قدرت دو (تنها دو کاراکتر 0 و 1) استفاده می شود. این به خاطر این واقعیت است که مناسب است که اطلاعات را به صورت یک دنباله از پالس های الکتریکی ارائه دهد: پالس از دست رفته است (0)، این ضربه (1) است.

چنین برنامه نویسی باینری نامیده می شود و توالی های منطقی صفر و واحدها زبان ماشین هستند.

از نقطه نظر کامپیوتر، متن متشکل از شخصیت های فردی است. نه تنها نامه ها (سرمایه یا حروف کوچک، لاتین یا روسی)، بلکه تعداد، علائم نقطه گذاری، مخلوط های ویژه مانند "\u003d"، "("، "، و غیره و حتی (توجه ویژه توجه!) فضاهای بین کلمات.

متن ها با استفاده از صفحه کلید به حافظه کامپیوتر وارد می شوند. حروف، اعداد، علائم نقطه گذاری و سایر کاراکترها بر روی کلیدها نوشته شده است. که در رم آنها در کد دودویی سقوط می کنند. این به این معنی است که هر نماد به نظر می رسد یک کد دودویی 8 بیتی است.

به طور سنتی، برای رمزگذاری یک شخصیت، مقدار اطلاعات مورد استفاده قرار می گیرد برابر با 1 بایت، I.E. I \u003d 1 بایت \u003d 8 بیت. با کمک یک فرمول که تعداد رویدادهای احتمالی را به و مقدار اطلاعات I متصل می کند، می توانید محاسبه کنید که چگونه بسیاری از کاراکترهای مختلف را می توان رمزگذاری کرد (شمارش نمادها رویدادهای احتمالی): K \u003d 2 I \u003d 2 8 \u003d 256 یعنی برای ارائه اطلاعات متنی شما می توانید از الفبای با قدرت 256 کاراکتر استفاده کنید.

چنین تعداد کاراکترها به اندازه کافی برای ارائه اطلاعات متن، از جمله حروف بزرگ و کوچک حروف الفبا روسی و لاتین، اعداد، نشانه ها، نمادهای گرافیکی و غیره به اندازه کافی کافی است.

در طول خروجی نماد بر روی صفحه نمایش کامپیوتر، فرآیند معکوس ساخته شده است - رمزگشایی، یعنی تبدیل کد نماد به تصویر آن. مهم است که تخصیص یک نماد کد خاص یک سوال از توافق است که در جدول کد ثابت شده است.

در حال حاضر این سوال مطرح می شود که کد دودویی هشت بیتی برای قرار دادن هر نماد. واضح است که این یک ماده مشروط است، شما می توانید بسیاری از روش های رمزگذاری را مطرح کنید.

تمام نمادهای الفبای رایانه از 0 تا 255 عدد هستند. حتی شماره مربوط به کد باینری هشت بیت از 00000000 تا 11111111 است. این کد به سادگی تعداد توالی نماد در سیستم شماره باینری است.

IV . انواع جداول برنامه نویسی

یک جدول که در آن تمام شخصیت های الفبای رایانه ای مطابق با شماره های توالی ساخته می شوند، جدول رمزگذاری نامیده می شود.

برای انواع متفاوت EUM از جداول رمزگذاری مختلف استفاده می کند.

به عنوان یک استاندارد بین المللی، جدول کد ASCII تصویب شده است (کد استاندارد آمریکایی برای تبادل اطلاعات - کد استاندارد آمریکایی برای تبادل اطلاعات)، کدگذاری نیمه اول کاراکترهای با کدهای عددی از 0 تا 127 (کد از 0 تا 32 تنظیم نشده است نمادها، اما کلیدهای عملکرد).

جدول کد ASCII به دو بخش تقسیم می شود.

استاندارد بین المللی تنها نیمه اول جدول است، I.E. نمادها با اعداد از 0 (00000000)، تا 127 (011111111).

ساختار جدول رمزگذاری ASCII

شماره سریال	کد	سمبل
0 - 31	00000000 - 00011111	نمادها با اعداد از 0 تا 31 به نام مدیران هستند. عملکرد آنها کنترل فرایند خروجی متن بر روی صفحه نمایش یا چاپ، سیگنال صوتی، نشانه گذاری متن و غیره است.
32 - 127	0100000 - 01111111	بخش استاندارد جدول (انگلیسی). این شامل حروف کوچک و بزرگ حروف الفبا لاتین، اعداد اعشاری، علائم نقطه گذاری، انواع براکت ها، کاراکترهای تجاری و دیگر است. نماد 32 - فضا، I.E. موقعیت خالی در متن همه دیگر علائم خاصی را منعکس می کنند.
128 - 255	10000000 - 11111111	بخش جایگزین جدول (روسی). نیمه دوم جدول کد ASCII، به نام صفحه کد (128 کدهای، با شروع از 10،000،000 و پایان 11111111)، ممکن است گزینه های مختلفی داشته باشد، هر گزینه دارای شماره خاص خود است. صفحه کد به طور عمده برای جابجایی الفبای ملی غیر از لاتین استفاده می شود. در کدگذاری های ملی روسیه، نمادهای الفبای روسی در این قسمت از جدول قرار می گیرند.

نیمه اول جدول کد ASCII

این به این واقعیت رسیده است که در جدول کدگذاری، حروف (حروف بزرگ و کوچک) به ترتیب حروف الفبا مرتب شده اند و اعداد با افزایش ارزش ها مرتب می شوند. چنین پایبندی به نظم لغوی در ترتیب نمادها، اصل کدگذاری پیوسته الفبای نامیده می شود.

برای حروف الفبا روسی، اصل کدگذاری سریال نیز مشاهده می شود.

نیمه دوم جدول کد ASCII

متأسفانه، در حال حاضر پنج کدگذاری مختلف سیریلیک (KOI8-P، ویندوز وجود دارد. MS-DOS، Macintosh و ISO). به همین دلیل، مشکلات اغلب با انتقال متن روسی از یک کامپیوتر به دیگری، از یک، بوجود می آیند سیستم نرم افزاری به دیگری.

از لحاظ زمانی یکی از اولین استانداردهای کدگذاری نامه های روسی در رایانه ها KOI8 بود ("کد مبادله اطلاعات، 8 بیتی"). این کدگذاری در 70 سالگی بر روی رایانه های سری اتحادیه اروپا مورد استفاده قرار گرفت و از اواسط دهه 80 شروع به استفاده از اولین نسخه های Russified سیستم عامل یونیکس کرد.

از ابتدای 90s، زمان سلطه سیستم عامل MS DOS، کدگذاری CP866 باقی مانده است ("CP" به معنای "صفحه کد"، "صفحه کد") است.

کامپیوترهای اپل در حال اجرا سیستم عامل Mac OS از رمزگذاری MAC خود استفاده می کنند.

علاوه بر این، سازمان استانداردهای بین المللی، ISO) یکی دیگر از کدگذاری را به نام ISO 8859-5 به عنوان یک استاندارد برای زبان روسی تایید کرد.

رایج ترین در حال حاضر رمزگذاری مایکروسافت ویندوز است که توسط کاهش CP1251 نشان داده شده است. معرفی شده توسط مایکروسافت؛ با توجه به انتشار گسترده سیستم عامل ها (OS) و سایر محصولات نرم افزاری این شرکت در فدراسیون روسیه، گسترده شده است.

از اواخر دهه 90، مشکل استاندارد سازی کدگذاری نمادین با معرفی یک استاندارد جدید بین المللی به نام یونیکد حل می شود.

این یک رمزگذاری 16 بیتی است، به عنوان مثال در آن، هر نماد 2 بایت حافظه داده می شود. البته، مقدار حافظه اشغال شده 2 بار. اما این جدول کد به شما امکان می دهد تا حداکثر 65536 کاراکتر را فعال کنید. مشخصات کامل استاندارد Unicode شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان، و همچنین بسیاری از نمادهای ریاضی، موزیکال، شیمیایی و دیگر است.

نمایش کلمه داخلی در حافظه کامپیوتر

با استفاده از جدول ASCII

گاهی اوقات این اتفاق می افتد که متن متشکل از حروف الفبای روسی، که از یک رایانه دیگر به دست آمده، نمی توان خواند - برخی از "abrakadabra" را می توان در صفحه نمایش مانیتور قابل مشاهده است. این اتفاق می افتد، زیرا کامپیوترها از رمزگذاری های مختلفی از نمادهای زبان روسی استفاده می کنند.

بنابراین، هر کدگذاری توسط جدول کد خود تنظیم می شود. همانطور که می توان از جدول دیده می شود، همان کد باینری در کدگذاری های مختلف مطابق با شخصیت های مختلف ساخته می شود.

به عنوان مثال، دنباله ای از کدهای عددی 221، 194، 204 در کدگذاری CP1251 کلمه "کامپیوتر" را تشکیل می دهد، در حالی که در سایر کدگذاری ها یک مجموعه بی معنی از شخصیت ها خواهد بود.

خوشبختانه، در اغلب موارد، کاربر نباید از ترانزیت اسناد متن مراقبت کند، زیرا آنها برنامه های مبدل خاصی را در برنامه های کاربردی ساخته اند.

V. . محاسبه تعداد اطلاعات متن

وظیفه 1: کلمه "رم" را با استفاده از جداول کدگذاری KOO8-P و CP1251 پاک کنید.

تصمیم گیری:

وظیفه 2: با توجه به اینکه هر شخصیت توسط یک بایت کدگذاری شده است، حجم اطلاعات جمله زیر را درک کنید:

"عمو من از قوانین صادق ترین،

وقتی شوخی نکن

او خود را مجبور کرد

و بهتر بود اختراع کرد. "

تصمیم گیری: در این عبارت، 108 کاراکتر، با توجه به علائم نقطه گذاری، نقل قول ها و فضاها. این مقدار را با 8 بیت تقسیم کنید. ما 108 * 8 \u003d 864 بیت دریافت می کنیم.

وظیفه 3: دو متن شامل همان تعداد کاراکترها هستند. اولین متن در روسیه ثبت شده است، و دوم در زبان قبیله ناگوری، الفبای که شامل 16 کاراکتر است. متن چه کسی اطلاعات بیشتری دارد؟

تصمیم گیری:

1) I \u003d k * a (حجم اطلاعاتی متن برابر با محصول تعداد کاراکترها به وزن اطلاعات یک نماد است).

2) از آنجا که هر دو متون دارای تعداد کاراکترهای مشابه هستند (K)، سپس تفاوت بستگی به اطلاعات مربوط به یک نماد الفبای تک (a) دارد.

3) 2 A1 \u003d 32، I.E. 1 \u003d 5 بیت، 2 A2 \u003d 16، I.E. 2 \u003d 4 بیت.

4) I 1 \u003d K * 5 بیت، I 2 \u003d K * 4 بیت.

5) بنابراین، متن ثبت شده در روسیه 5/4 برابر اطلاعات بیشتر است.

وظیفه 4: حجم پیام حاوی 2048 کاراکتر به 1/512 قسمت MB رسید. قدرت الفبای را تعیین کنید.

تصمیم گیری:

1) I \u003d 1/512 * 1024 * 1024 * 8 \u003d 16384 بیت - اطلاعات انتقال اطلاعات را به بیت ها منتقل کرد.

2) A \u003d I / K \u003d 16384/1024 \u003d 16 بیت - حساب برای یک نماد الفبای.

3) 2 * 16 * 2048 \u003d 65536 کاراکتر - قدرت الفبای مورد استفاده.

وظیفه 5: پرینتر لیزری Canon LBP به طور متوسط \u200b\u200b6.3 کیلوبیت بر ثانیه در ثانیه چاپ می کند. چقدر زمان لازم برای چاپ یک سند 8 صفحه ای دارید، اگر شناخته شده است که در یک صفحه به طور متوسط \u200b\u200b45 خط، در خط 70 کاراکتر (1 نماد - 1 بایت)؟

تصمیم گیری:

1) ما مقدار اطلاعات موجود در 1 صفحه را پیدا می کنیم: 45 * 70 * 8 بیت \u003d 25200 بیت

2) پیدا کردن مقدار اطلاعات در 8 صفحه: 25200 * 8 \u003d بیت های 201600

3) منجر به تک واحد اندازه گیری می شود. برای این MBITY، ما به بیت ها ترجمه می کنیم: 6.3 * 1024 \u003d 6451.2 بیت / ثانیه.

4) پیدا کردن یک زمان چاپ: 201600: 6451.2 \u003d 31 ثانیه.

کتابشناسی - فهرست کتب

1. Ageev v.m. تئوری اطلاعات و برنامه نویسی: نمونه برداری و برنامه ریزی اطلاعات اندازه گیری. - m: m.: mai، 1977.

2. Kuzmin I.V.، Kedrus v.A. مبانی نظریه اطلاعات و برنامه نویسی. - کیف، معاون مدرسه، 1986.

3. ساده ترین روش های رمزگذاری متن / D.M. zlatopolsky. - متر: استخر پاک، 2007 - 32 ثانیه.

4. Ugrinovich N.D. informatics I. فناوری اطلاعات. آموزش برای کلاس های 10-11 / N.D. Vugrinovich. - m: binom. آزمایشگاه دانش، 2003. - 512 پ.

5. http://school497.spb.edu.ru/uchint002/Les10/Les.html#n.

مواد خودآموزی در سخنرانی ها 2

رمزگذاری ASCII

جدول رمزگذاری ASCII (ASCII - کد استاندارد آمریکایی برای تبادل اطلاعات - کد استاندارد آمریکایی برای اطلاعات مبادله).

در مجموع، با استفاده از جدول رمزگذاری ASCII (شکل 1)، شما می توانید 256 کاراکتر مختلف را رمزگذاری کنید. این جدول به دو بخش تقسیم می شود: اصلی (با کد های OOH تا 7 فریم) و اضافی (از 80 ساعت به FFH، جایی که نامه H کد را به سیستم شماره هگزادسیمال نشان می دهد).

تصویر 1

برای رمزگذاری یک کاراکتر از جدول، 8 بیت (1 بایت) داده می شود. هنگام پردازش اطلاعات متن، یک بایت ممکن است حاوی کد برخی از نمادها باشد - حروف، اعداد، نشانه گذاری نشانه گذاری، نشانه های اقدامات، و غیره هر شخصیت مربوط به کد آن در قالب یک عدد صحیح است. در عین حال، تمام کدها در جداول خاص به نام رمزگذاری جمع آوری می شوند. با کمک آنها، کد نماد به نمایش قابل مشاهده خود در صفحه مانیتور تبدیل می شود. به عنوان یک نتیجه، هر متن در حافظه کامپیوتر به عنوان یک دنباله از بایت ها با کدهای نماد نمایش داده می شود.

به عنوان مثال، کلمه سلام! به شرح زیر کدگذاری خواهد شد (جدول 1).

میز 1


کد دودویی
کد دهدهی

شکل 1 نمادهای موجود در استاندارد (انگلیسی) و گسترش یافته (روسی) رمزگذاری ASCII را نشان می دهد.

نیمه اول جدول ASCII استاندارد شده است. این شامل کدهای کنترل (از 00 ساعت تا 20 ساعت و 77 ساعت) است. این کد ها از جدول به دست می آیند، زیرا آنها به عناصر متن تعلق ندارند. همچنین علامت های نشانه گذاری و نشانه های ریاضی وجود دارد: 2LH -، 26H - و 28H - (، 2BH - +، ...، حروف بزرگ و کوچک لاتین: 41H - A، 61H - a.

نیمه دوم جدول شامل فونت های ملی، نمادهای شدیدیوگرافی، از آن جداول، علائم ریاضی ویژه می تواند ساخته شود. بخش پایین تر جدول کدگذاری را می توان با استفاده از برنامه های کمکی کنترل رانندگان مناسب جایگزین کرد. این تکنیک به شما اجازه می دهد چندین فونت و هدست خود را اعمال کنید.

صفحه نمایش برای هر کد نماد باید تصویر نماد را نمایش دهد - نه فقط یک کد دیجیتال، بلکه تصویر مربوطه مربوط به آن است، زیرا هر نماد فرم خود را دارد. شکل فرم هر شخصیت در حافظه نمایش ویژه ذخیره می شود - یک signogenerator. برای مثال، نماد را بر روی صفحه نمایش صفحه نمایش IBM PC برجسته کنید، به عنوان مثال، با استفاده از نقاط تشکیل یک ماتریس نمادین انجام می شود. هر پیکسل در چنین ماتریس یک عنصر تصویر است و می تواند روشن یا تاریک باشد. نقطه تاریک با شماره 0، روشن (روشن) کدگذاری شده است. 1. اگر پیکسل های تاریک را در فیلد ماتریس در فیلد ماتریس نشان دهید، و یک ستاره روشن، شما می توانید شکل نماد را به تصویر بکشید.

مردم در کشورهای مختلف از نمادها برای ضبط کلمات بومی Zykov استفاده می کنند. امروزه اکثر برنامه های کاربردی، از جمله سیستم ها پست الکترونیک به گفته ISO-8859-1، مرورگرهای وب خالص 8 بیتی هستند، یعنی آنها می توانند شخصیت های 8 بیتی را به درستی درک کنند.

بیش از 256 کاراکتر در جهان وجود دارد (اگر شما در نظر می گیرید، زبان های سیریلیک، عربی، چینی، ژاپنی، کره ای و تایلند)، و تمام نمادهای جدید و جدید ظاهر می شود. و این شکاف های زیر را برای بسیاری از کاربران ایجاد می کند:

استفاده از شخصیت های مجموعه های رمزگذاری مختلف در همان سند امکان پذیر نیست. از آنجا که هر سند متنی از مجموعه ای از کدگذاری خود استفاده می کند، مشکلات زیادی با تشخیص متن اتوماتیک وجود دارد.

شخصیت های جدید به نظر می رسد (به عنوان مثال: یورو)، به عنوان یک نتیجه از آن ISO در حال توسعه یک استاندارد جدید ISO-8859-15 است که بسیار شبیه به استاندارد ISO-8859-1 است. تفاوت به شرح زیر است: نمادها برای تعیین ارزهای قدیمی از جدول رمزگذاری ISO-8859-1 حذف شده اند که در حال حاضر برای ساخت فضا برای شخصیت های تازه ظاهر شده (مانند یورو) استفاده نمی شود. به عنوان یک نتیجه، کاربران در دیسک ها ممکن است اسناد مشابه را از دست بدهند، اما در کدگذاری های مختلف. راه حل این مشکلات، پذیرش یک مجموعه بین المللی از کدگذاری ها است که کدگذاری جهانی یا یونیکد نامیده می شود.

رمزگذاری یونیکد

این استاندارد در سال 1991 توسط سازمان غیر انتفاعی "کنسرسیوم Unicode" (Eng. Unicode Consortium، Unicode Inc.) پیشنهاد شد. استفاده از این استاندارد اجازه می دهد تا شما را به رمزگذاری بسیار عدد بزرگ نمادهای از زبان های مختلف نوشته شده: شخصیت های چینی، نمادهای ریاضی، حروف الفبای یونانی، لاتین و سیریلیک و سیریلیک، ممکن است در اسناد یونیکد مجاور باشند و صفحات کد سوئیچینگ غیر ضروری می شود.

این استاندارد شامل دو بخش اصلی است: مجموعه ای از کاراکترهای جهانی (ENG UCS، مجموعه شخصیت جهانی) و یک خانواده از رمزگذاری (UTF انگلیسی UTF، فرمت تبدیل یونیکد). مجموعه جهانی از شخصیت ها، انطباق قطعی شخصیت ها را با کدهای - عناصر فضای کد نشان می دهد که عدد صحیح غیر منفی را نشان می دهد. خانواده رمزگذاری نشان دهنده نمایش دستگاه توالی کد UCS را تعیین می کند.

استاندارد Unicode برای ایجاد یک رمزگذاری تنها از نمادهای تمام زبان های نوشته شده مدرن و بسیاری طراحی شده است. هر نماد در این استاندارد با 16 بیت کدگذاری شده است که اجازه می دهد تا آن را به پوشش شخصیت های غیر قابل مقایسه از کد های 8 بیتی که قبلا گرفته شده است را پوشش دهد. یکی دیگر از تمایز مهم یونیکد از سیستم های رمزگذاری دیگر این است که نه تنها به هر نماد مشخص می شود. کد منحصر به فرد، اما همچنین ویژگی های مختلف این نماد را تعیین می کند، به عنوان مثال:

نوع نماد (حروف بزرگ، حروف کوچک، علامت، علامت گذاری نقطه گذاری، و غیره)؛

ویژگی های نماد (نمایش از چپ به راست یا راست چپ، فضا، شکستن ردیف، و غیره)؛

نامه بزرگ یا حروف کوچک (برای حروف کوچک و حروف بزرگ) مناسب است.

مقدار عددی مربوطه (برای شخصیت های دیجیتال).

کل محدوده کدهای از 0 تا FFFF به چند زیر مجموعه استاندارد تقسیم می شود، که هر کدام به ترتیب الفبای نوعی زبان یا گروهی از شخصیت های خاص مشابه توابع آن است. طرح زیر شامل یک لیست کلی از زیر مجموعه های Unicode 3.0 (شکل 2) است.

شکل 2.

استاندارد Unicode پایه ذخیره سازی و متن در بسیاری از سیستم های کامپیوتری مدرن است. با این حال، آن را با اکثر پروتکل های اینترنت سازگار نیست، زیرا کدهای آن ممکن است حاوی هر مقدار بایت باشند و پروتکل ها معمولا از BYTES 00 - 1F و FEFF به عنوان سرویس استفاده می کنند. برای دستیابی به سازگاری، چندین فرمت تبدیل یونیکد (UTFS، فرمت های تبدیل یونیکد) توسعه یافت، که از آن امروز شایع ترین UTF-8 است. این فرمت قوانین زیر را برای تبدیل هر کد یونیکد به مجموعه ای از بایت ها (از یک تا سه) مناسب برای انتقال پروتکل های اینترنتی تعریف می کند.

در اینجا X، Y، Z بیت های کد منبع را نشان می دهد، که باید از جوانتر حذف شود و به نتایج بایت به سمت راست وارد شود تا تمام موقعیت های مشخص شده پر شود.

توسعه بیشتر استاندارد یونیکد با افزودن برنامه های جدید زبان، I.E. نمادها در محدوده 10،000 - 1FFFF، 20،000 - 2FFFF، و غیره، که در آن قرار است شامل رمزگذاری برای نوشته های زبان های مرده است که به جدول بالا نبود. برای رمزگذاری این کاراکترهای اضافی، یک فرمت جدید UTF-16 توسعه داده شد.

بنابراین، 4 روش اصلی کدگذاری بایت در فرمت یونیکد وجود دارد:

UTF-8: 128 کاراکتر توسط یک بایت (فرمت ASCII) کدگذاری شده اند، 1920 کاراکتر با 2 بایت ((رومی، یونانی، سیریلیک، قبایل، ارمنی، عبری، نمادهای عربی) کدگذاری شده اند، 63488 کاراکتر با 3 بایت کدگذاری می شوند (چینی ، ژاپنی و همکاران) 2 147 418 112 کاراکتر باقی مانده (هنوز استفاده نشده است) می تواند با 4، 5 یا 6 بایت کدگذاری شود.

UCS-2: هر نماد توسط 2 بایت نشان داده شده است. این رمزگذاری تنها شامل تنها 65،535 کاراکتر از فرمت یونیکد است.

UTF-16: این یک فرمت UCS-2 است، شامل 1 114 112 کاراکترهای فرمت یونیکد است. اولین 65،535 کاراکتر توسط 2 بایت، بقیه - 4 بایت نشان داده شده است.

USC-4: هر شخصیت توسط 4 بایت کدگذاری شده است.

یونیکد (به زبان انگلیسی یونیکد) استاندارد استاندارد رمزگذاری است. نگران نباشید، این یک جدول از انطباق نشانه های متنی (، حروف، عناصر نقطه گذاری) کدهای دودویی. کامپیوتر تنها دنباله ای از صفرها و واحدها را درک می کند. به طوری که او می دانست دقیقا باید بر روی صفحه نمایش نمایش داده شود، باید شماره منحصر به فرد خود را به هر نماد اختصاص دهید. در دهه هشتاد، نشانه ها توسط یک بایت کدگذاری شدند، یعنی هشت بیت (هر بیت 0 یا 1). بنابراین معلوم شد که یک جدول (همان رمزگذاری یا مجموعه ای است) می تواند تنها 256 کاراکتر را جایگزین کند. این ممکن است حتی برای یک زبان کافی نباشد. بنابراین، بسیاری از رمزگشایی های مختلف ظاهر شد، سردرگمی که اغلب منجر به این واقعیت شد که برخی از کراکزیابری عجیب و غریب بر روی صفحه نمایش به جای متن خواندن ظاهر شد. استاندارد یکپارچه مورد نیاز بود، که یونیکد تبدیل شد. بیشترین استفاده از رمزگذاری - UTF-8 (فرمت تبدیل یونیکد) برای تصویر نماد شامل 1 تا 4 بایت است.

نمادها

نمادها در جداول یونیکد توسط اعداد هگزادسیمال شماره گذاری می شوند. به عنوان مثال، سیریلیک حرف بزرگ متر توسط U + 041C مشخص شده است. این بدان معنی است که آن را در تقاطع رشته 041 و ستون C قرار می دهد. این می تواند به سادگی کپی شده و سپس در جایی وارد شده است. به منظور عدم رعایت در لیست چند کیلومتری، شما باید از جستجو استفاده کنید. رفتن به صفحه نماد، تعداد آن را در یونیکد و راهی برای طراحی در فونت های مختلف مشاهده خواهید کرد. شما می توانید به رشته جستجو و علامت خود را رانندگی کنید، حتی اگر مربع به جای آن کشیده شود، حداقل برای پیدا کردن آنچه که آن بود. همچنین، در این سایت مجموعه های ویژه (و تصادفی) از همان نوع آیکون های جمع آوری شده از بخش های مختلف برای راحتی استفاده از آنها وجود دارد.

Unicod Standard - International. این شامل نشانه های تقریبا تمام نوشتن جهان است. از جمله کسانی که دیگر اعمال نمی شوند. Hieroglyphs مصری، رونز آلمان، نوشتن مایان، کلیپ و الفبای کشورهای باستان. ارائه و تعیین اندازه گیری ها و مقیاس ها، سواد موسیقی، مفاهیم ریاضی.

کنسرسیوم یونیکد خود نمادهای جدیدی را ایجاد نمی کند. جداول به جداول اضافه شده اند که استفاده از آنها را در جامعه پیدا می کنند. به عنوان مثال، نشانه روبل به طور فعال به مدت شش سال قبل از اضافه شدن به یونیکد استفاده شد. قبل از اینکه آنها در کدگذاری گنجانده شوند، ابتدا Pictograms Emoji (شکلک ها) نیز در ژاپن استفاده گسترده ای را به دست آوردند. اما علائم تجاری و لوگوهای شرکت اساسا اضافه نمی شوند. حتی سیب اپل یا پرچم ویندوز. تا به امروز، حدود 120 هزار کاراکتر در نسخه 8.0 کدگذاری شده اند.