Az ASCII-kód szabványos része. ASCII kódolás (amerikai szabványos kód az információcsere számára) - Alapvető latiza szövegkódolás

Helló, kedves blogolvasók honlapja. Ma beszélünk veled arról, hogy a Krakoyarbra a programokból származik, mely szövegkódolások léteznek, és melyiküket kell használni. Tekintsük részletesen a fejlődésük történetét, az alapvető ASCII-tól kezdve, valamint a CP866, a KOI8-R, a Windows 1251 kiterjesztett verziói, és végződnek az UNICODE UTF 16 és 8 konzorcium modern kódjaival.

Valaki Ez az információ feleslegesnek tűnhet, de tudnád, hogy mennyi kérdésre jut el nekem pontosan a repedésekre (nem olvasott egy karakterkészletet). Most lesz lehetőségem arra, hogy mindenkit elküldjek e cikk szövegére, és önállóan keressük meg a cipzárakat. Nos, készen áll arra, hogy elnyelje az információt, és próbálja meg nyomon követni az elbeszélést.

ASCII - Alapvető latiza szövegkódolás

A szövegkódolás fejlesztése egyidejűleg fordul elő az informatikai ipar képződésével, és ebben az időben ideje volt, hogy néhány változást végezzen. Történelmileg mindannyian meglehetősen ártalmas az EBCDIC kiejtésének meglehetősen ártalmasnak, ami lehetővé tette a latin ábécé betűket, az arab számokat és az írásjeleket vezérlő szimbólumokkal.

De még mindig a modern szöveges kódolások kidolgozásának kiindulópontját híresnek kell tekinteni ASCII. (Amerikai standard kód az információcsere számára, amely oroszul általában "Aski"). Ez leírja az első 128 karaktert a leggyakrabban használt angolul beszélő felhasználóktól - latin betűk, arab számok és írásjelek.

Még az ASCII-ban leírt 128 karakterben is egyes szolgáltatási szimbólumokat zárójelek, rácsok, csillagok stb. Valójában te magad láthatod őket:

Ez az 128 karakter az ASCII kezdeti verziójától a szabványosság lett, és bármely más kódolásban biztosan találkozik és álljon, hogy ilyen módon lesznek.

De az a tény, hogy az információ egy bájt segítségével nem 128, de akár 256 különböző érték (kettő a nyolc fokig 256), így utána alapváltozat Asi számos megjelent fejlett kódolások ASCIIA legfontosabb jelek mellett a nemzeti kódoló szimbólumok (például orosz) is kódolhatók.

Itt valószínűleg érdemes egy kicsit többet a leírásban használt számrendszerről. Először is, ahogy mindent tudsz, a számítógép csak a bináris rendszerben lévő számokkal működik, nevezetesen a nullákkal és egységekkel ("Boulev algebra", ha valaki az intézetben vagy az iskolában tartja). Amelyek mindegyike a diplomától függ, nullától kezdve, és a hetedik helyen:

Nem nehéz megérteni, hogy a nullák és egységek összes lehetséges kombinációja ilyen formában csak 256. Fordítja a számot a bináris rendszerből decimális értéken. Szükséges egyszerűen össze kell hajtogatnia az összes, az egyik standot.

Példánkban az 1-et (2-et a nulla mértékig), plusz 8-ra (két-fokig 3-ig), plusz 32 (kétszer az ötödik fokozatban), plusz 64 (a hatodik), plusz 128-ban (a hetedikben) . Összesen 233-at kap egy decimális számrendszerben. Amint láthatod, minden nagyon egyszerű.

De ha az ASCII karakterekkel rendelkező asztalra nézel, látni fogja, hogy hexadecimális kódolásban kerülnek bemutatásra. Például az "Asterisk" megfelel a hexadecimális 2a-szám paradicsomának. Valószínűleg tudod, hogy egy hexadecimális számrendszerben a hexadecimális számrendszerben (átlagos tíz) -val (átlagos) -val latin betűket használnak.

Nos, így Átruházás bináris számok Hexadecimális Resed a következő egyszerű és vizuális módon. Minden egyes bájt két részből két részből áll, amint azt a fenti képernyőkép mutatja. Így A bájt minden felében a bináris kód csak tizenhat értékre lehet kódolni (kettő a negyedik fokozatban), amely könnyen képviselhető hexadecimális.

Ráadásul a bájt bal felében újra meg kell vizsgálni a nullától, és nem a képernyőképen látható módon. Ennek eredményeként, nem jó számítástechnikával megkapjuk, hogy az E9 számot a képernyőképen kódolja. Remélem, hogy az érvelésem és a rebus megszilárdulása érthető volt. Nos, most folytatjuk, ténylegesen beszélünk a szövegkódolásról.

Az Aski - CP866 és a KOI8-R kiterjesztett verziói pszeudográf segítségével kódolva

Tehát elkezdtünk beszélni az ASCII-ről, ami olyan volt, mint egy kiindulópont az összes modern kódolás (Windows 1251, Unicode, UTF 8) fejlesztéséhez.

Kezdetben csak a latin ábécé, az arab számok és valami más 128 jelét helyezték el, de a kiterjesztett verzióban minden 256 értéket lehetett használni, amelyek egy pateinformációban kódolhatók. Azok. Lehetőség arra, hogy a nyelvének levelei szimbólumait adjon.

Itt van szükség arra, hogy ismét megzavarják -uk, hogy tisztázzák - miért van szüksége kódolásra Szövegek és miért olyan fontos. A számítógép képernyőjén lévő karakterek két dolog alapján vannak kialakítva - mindenféle karakterből álló vektorformák (ábrázolások) és a kódok, amelyek lehetővé teszik, hogy kihúzza ezt a vektoros formákat ( betűtípus fájl) Ez a karakter a megfelelő helyre kerül.

Nyilvánvaló, hogy a betűtípusok felelősek a vektorformákért, de az operációs rendszer és programok a kódolásért felelősek. Azok. A számítógépen lévő bármely szöveg a bájtok sorai lesznek, amelyek közül a szöveg egyetlen szimbóluma kódolva van.

A képernyőn megjelenő program (szövegszerkesztő, böngésző, stb.) A kód elemzése során elolvassa a következő jel kódolását, és keresi a megfelelő vektor űrlapot a kívánt fájl A szöveges dokumentum megjelenítéséhez csatlakoztatott betűtípus. Minden egyszerű és trite.

Tehát, hogy kódolja a szükséges szimbólumot (például a nemzeti ábécéből), két körülménynek kell kitöltenie - ennek a jelnek a vektorformát a használt betűtípusban kell, és ezt a szimbólumot a kiterjesztett ASCII kódokba kódolhatjuk egy bájtba . Ezért van egy csomó ilyen lehetőség. Csak az orosz nyelv szimbólumainak kódolására számos kiterjesztett szamár van.

Például kezdetben megjelent CP866.Amelyben az orosz ábécé szimbólumainak használata volt, és az ASCII kiterjesztett változata volt.

Azok. A felső rész teljesen egybeesett az ASA (128 latin szimbólum, számok és bárki más) alapversenyével, amelyet a képernyőképen egy kicsit magasabb, de már alsó rész A CP866 kódoló táblázatok a képernyőképben kissé alacsonyabbak voltak, és megengedték, hogy egy további 128 karaktert (orosz betűk és minden pszeudográfiai) kódoljanak:

Nézze meg, a jobb oldali oszlopban a számok 8-mal kezdődnek, mert A 0 és 7 közötti számok az ASCII alaprészére vonatkoznak (lásd az első képernyőképet). Így Az orosz "M" betű a CP866-ban a 9c kóddal rendelkezik (a megfelelő sorok metszéspontja 9 és az oszlop a C számmal egy hexadecimális számrendszerben), amely egy bájtos információban írható, és ha Van egy megfelelő betűtípus az orosz karakterekkel, ez a levél probléma nélkül jelenik meg a szövegben.

Honnan jött ez a mennyiség pseudographers a CP866-ban.? Mindezek az a tény, hogy az orosz szöveghez való kódolást ezeken a fényes években fejlesztették ki, amikor most már nem volt ilyen grafikus operációs rendszerek elosztása. És a DOSS, és a hasonló szöveges műveletek, a pszeudográfia lehetővé tette, hogy legalább valahogy diverzifikálja a szövegek tervezését, és ezért bővelkedik a CP866-val és az összes többi sorával az Aska kiterjesztett változatainak kibocsátásával.

CP866 elosztott IBM cég, de ezen felül számos kódolás fejlesztettek ki szimbólumok az orosz nyelv, például az azonos típusú (kiterjesztett ASCII) tudható Koi8-r.:

Munkájának elve ugyanúgy maradt, mint a később leírt CP866 - minden egyes szövegszimbólumot egyetlen bájt kódol. A képernyőkép a Koi8-R asztal második felét mutatja, mert Az első félidő teljes mértékben összhangban van az ASUS bázissal, amely az első képernyőképen jelenik meg ebben a cikkben.

A KOI8-R kódolás jellemzői között megjegyezhető, hogy az asztalban lévő orosz betűk nem ábécé sorrendben vannak, például például a CP866-ban készültek.

Ha megnézed az első képernyőképet (alaprész, amely az összes kiterjesztett kódolásba lép), akkor észrevétszik, hogy a KOI8-R-ben az orosz betűk az asztal ugyanazon tábláiban helyezkednek el, mint a latin ábécé betűit az első részből az asztal. Ezt azért végezték, hogy az orosz szimbólumok latinba váltak, csak egy kicsit eldobva (kettő a hetedik fokozatban vagy 128-ban).

Windows 1251 - az ASCII modern változata, és miért jutnak ki a Crackelek

A szövegkódolások továbbfejlesztése annak a ténynek köszönhető, hogy a grafikus operációs rendszerek és a pszeudográfiák használatának szükségessége népszerű volt. Ennek eredményeképpen egy egész csoport merült fel, amely lényegében még mindig fejlett verziók voltak az Asi (egy szöveges szimbólum kódolva csak egy elvékonyabb információval), de pszeudográfiai karakterek használata nélkül.

Az úgynevezett ANSI kódolást kezelték, amelyet az Amerikai Szabványügyi Intézet fejlesztett ki. A cirill nevét még mindig használták az orosz nyelv támogatásával. Példa egy ilyen példára.

A korábban használt CP866 és KOI8-R-tól eltérően különbözött, mivel a pszeudográfiai karakterek helye az orosz tipográfia (a csökkenő jel) hiányzó szimbólumait, valamint az orosz szlávhoz használt szimbólumokat, valamint az orosz szlávhoz használt szimbólumokat Nyelvek (ukrán, fehérorosz stb.):

Az orosz nyelv kódolása, a betűtípusok és gyártók gyártói miatt szoftver Folyamatosan felmerült egy fejfájást, és veled, kedves olvasók, gyakran megkapták azokat a leghíresebbek krakoyabryAmikor a zavart a szövegben használt verzió tanították.

Nagyon gyakran kijöttek, amikor üzeneteket küldtek és fogadtak emailMi okozta a nagyon összetett átkódoló asztalok létrehozását, amelyek valójában nem tudták megoldani ezt a problémát a gyökérben, és gyakran a levelezésre használt felhasználókat arra használták, hogy elkerüljék a hírhedt krakozyabokat, amikor ilyen CP866, KOI8-R vagy Windows 1251 orosz kódolásait alkalmazzák.

Lényegében, Krakoyarbra, az orosz szöveg helyett a kódolás helytelen használatának eredménye volt ebből a nyelvbőlamely nem felel meg azzal, amelyben a szöveges üzenetet eredetileg kódolták.

Tegyük fel, hogy a CP866-mal kódolt szimbólumok, próbáld meg megjeleníteni a Windows 1251 kódtáblázat használatával, majd ezek a leginkább repedt (értelmetlen karakterkészlet) és kijutni, teljesen cserélve az üzenet szövegét.

Hasonló helyzet nagyon gyakran előfordul, fórumok vagy blogok, amikor az orosz karakterekkel való szöveg nem kerül mentésre az alapértelmezett webhelyen, vagy sem abban szöveg szerkesztőamely hozzáadódik a Sebestin kódhoz, amely nem látható szabad szemmel.

Végül, egy ilyen helyzet sok kódolással és folyamatosan feltérképező darubrramokkal, sok fáradt, előfeltételek voltak egy új univerzális változás létrehozásának, amely felváltotta volna az összes meglévő és megoldotta, végül a probléma gyökerére a nem olvasható szövegek. Ráadásul a hasonló kínai nyelvek problémája volt, ahol a nyelv szimbólumai sokkal többek voltak, mint 256.

Unicode (Unicode) - Univerzális kódok UTF 8, 16 és 32

A Délkelet-Ázsia nyelvi csoportjának több ezer jeleit nem lehetett leírni egy olyan papeinformációban, amelyet a fejlett ASCII változatok karaktereinek kódolására osztottak ki. Ennek eredményeként létrejött egy konzorciumot Unicode (Unicode - Unicode konzorcium) az ipar sok informatikai vezetőinek együttműködésében (azok, akik olyan szoftvert hoznak létre, amely vasalatokat kódol, aki betűtípusokat hoz létre), akik érdeklődtek egy univerzális szövegkódolás megjelenésében.

Az Unicode konzorcium égisze alatt közzétett első változat volt UTF 32.. A kódolás nevének számjegye azt jelenti, hogy az egyik szimbólum kódolására használt bitek száma. A 32 bitek 4 bájtos információt tartalmaznak, amelyekre szükségünk lesz az új univerzális UTF kódolásra.

Ennek eredményeként ugyanaz a fájl az ASCII és az UTF-32 kiterjesztett változatában kódolt szöveggel az utóbbi esetben négyszer nagyobb méretű (súlya). Rossz, de most lehetőségünk van arra, hogy az UTF segítségével két-harminc másodperces diplomával megegyező jelek számát kódolja ( milliárd karakterekamely minden valós értéket fogja lefedni egy kolosszális margóval).

Az európai csoporttal rendelkező országok közül azonban sok országnak ilyen hatalmas számú jele van a kódolásban, és nem volt szükség, de az UTF-32 használatakor azonban nem kaptak négyszeres növekedést A szöveges dokumentumok súlya, és ennek eredményeként az internetes forgalom és a mennyiségi tárolt adatok növekedése. Ez sokat, és senki sem engedheti meg magának az ilyen hulladékot.

A Unicode kifejlesztésének eredményeként megjelent UTF-16.amely olyan sikeres kiderült, hogy alapértelmezés szerint az összes használt karakter alapterületét fogadta el. Két bájtot használ, hogy kódoljon egy jelet. Lássuk, hogyan néz ki ez a dolog.

A Windows operációs rendszerben át tudsz haladni az út mentén "Start" - "Programok" - "Standard" - "Service" - "karakterasztal". Ennek eredményeképpen egy táblázat a betűkészleteiben telepített összes vektorformákkal nyílik meg. Ha a "További paraméterek" című részt a Unicode karakterek sorában választja, akkor minden betűtípusra külön láthatjuk, hogy a beillesztett karakterek teljes skálája.

By the way, rákattintva bármelyikükre, akkor láthatja, hogy kettő kód az UTF-16 formátumbannégy hexadecimális számjegyből áll:

Hány karaktert lehet kódolni az UTF-16-ban 16 bit használatával? 65 536 (két-tizenhat), és ezt a számot az Unicode alapterületére vették. Ezenkívül vannak olyan módok, hogy kódoljanak vele és körülbelül kétmillió karakterrel, de egy millió szöveges szimbólumban korlátozódnak.

De még ez a sikeres unicode kódolásának sikeres változata sem sok elégedettséget szenvedett azokkal, akik például csak angol nyelvű programokat írtak, mert az ASCII az UTF-16 kiterjesztett változatából való áttérés után a dokumentumok súlya kétszer nőtt (Egy bájt az egyik szimbólum az Aski és két bájt ugyanazon szimbólum UTF-16).

Ez pontosan kielégíti mindenkit, és mindenki az Unicode konzorciumban úgy döntött, hogy jön létre változó hossza kódolása. Utf-8-nak hívták. A cím nyolc ellenére valójában változó hosszúságú, vagyis van. Minden szövegszimbólumot egy-hat bájt szekvenciájába lehet kódolni.

A gyakorlatban az UTF-8 csak egy-négy bájtból származó tartományt használ, mivel semmi sem létezik még elméletileg, hogy bármit is benyújtson a kód négy bájtára. Minden latin jelet egy bájtban, valamint a régi jó ASCII-ban kódolják.

Ami figyelemre méltó, csak latin kódolás esetén még azok is, amelyek nem értik az Unicode-t, még mindig elolvassa az UTF-8 kódolását. Azok. Az Asa alapvető része egyszerűen kikapcsolta ezt az Unicode konzorciumot.

Az UTF-8-ban lévő cirill jeleket két bájtra kódolják, például Georgian - három bájtban. Az UNICODE konzorcium az UTF 16 és 8 létrehozása után a fő probléma - most már van a betűtípusokban egyetlen kódtér van. És most a gyártók csak erők és lehetőségeik alapján maradnak, hogy betöltsék a szövegszimbólumok vektorformáit. Most a készletekben is.

Az alábbi szimbólum táblázatban látható, hogy a különböző betűtípusok különböző számú karaktert támogatnak. A Unicode betűtípusok néhány szimbóluma nagyon jól mérhető. De most már nem különböztetik meg azt a tényt, hogy különböző kódolásokhoz jönnek létre, de az a tény, hogy a betűtípus gyártója töltötte be vagy nem töltötte be az egyszeri kódot a végéig.

Krakoyabry az orosz betűk helyett - hogyan kell javítani

Most nézzük meg, hogy a Crakozyabe szöveg megjelenik a szöveg helyett, vagy más szóval, hogy a helyes kódolás hogyan jelenik meg az orosz szöveghez. Valójában a programban van beállítva, amelyben létrehozza vagy szerkesztheti ezt a szöveget vagy kódot szöveges töredékekkel.

A szövegfájlok szerkesztéséhez és létrehozásához személyesen nagyon jól használom, véleményem szerint. Azonban kiemelheti a szintaxist még több száz programozási nyelv és jelölés, valamint a bővítmények bővítésével is. Olvas részletes felülvizsgálat Ez a csodálatos program a kapcsolat szerint.

A Notepad ++ felső menüben van egy "kódolási" tétel, ahol képes lesz arra, hogy egy meglévő opciót konvertáljon az alapértelmezett webhelyen:

A Joomla 1.5 és annál magasabb helyszínén, valamint a WordPress blog esetében válassza ki az opciót a Krakoyar megjelenésének elkerülése érdekében UTF 8 BOM nélkül. Mi a BOM előtag?

Az a tény, hogy amikor az ETF-16 kódolást kidolgozták, valamilyen oknál fogva úgy döntött, hogy egy ilyen dolgot rögzít, mint egy szimbólumkód rögzítésének képességét, mind a közvetlen sorrendben (például 0A15) és a fordított (150a) . És annak érdekében, hogy a programok megértsék, hogy melyik sorozat olvasási kódok, és feltalálták BOM. (BYTE megrendelésjelölés vagy más szavakkal, aláírással), amelyet három további bájt hozzáadásával fejeztek ki a dokumentumok kezdetére.

Az UTF-8 kódolásban nem volt bom az Unicode konzorciumban, ezért az aláírás hozzáadása (ezek a leghírbevallóbb további három bájt a dokumentum elejére) Néhány program egyszerűen megakadályozza a kód olvasását. Ezért mindig az UTF-ben lévő fájlok mentésekor válasszon egy opciót BOM nélkül (aláírás nélkül). Így előre van mustrázza magát a krakkolásból.

Amit figyelemre méltó, egyes programok a Windows nem tudják, hogyan kell ezt megtenni (nem tudják megtakarítani a szöveget az UTF-8-ban BOM nélkül), például ugyanaz a hírhedt notebook ablakok. A dokumentumot az UTF-8-ban menti, de még mindig hozzáadja az aláírást az elejére (három további bájt). Ráadásul ezek a bájtok mindig ugyanazok lesznek - olvassa el a kódot közvetlen sorrendben. De a szervereken, mert ez a kis dolgok, lehet, hogy probléma - Crackelek kijutnak.

Ezért semmilyen esetben sem ne használja a szokásos notebook ablakokat A webhelyének dokumentumainak szerkesztése, ha nem szeretné a Krakoyarbra megjelenését. A már említett jegyzettömb ++ szerkesztő legújabb és legkönnyebb lehetőségét tartom, amely gyakorlatilag nem rendelkezik hátrányokkal, és az egyik előnyből áll.

A Jegyzettömb ++ A kódolás kiválasztásakor képes lesz szöveget konvertálni az UCS-2 kódolásra, ami nagyon közel van a Unicode szabványhoz lényegében. Az ANSI-ben, azaz nem típusú nem típusú lehet. Az orosz nyelvre való hivatkozással ez már csak a Windows 1251 felett kerül leírásra. Hol származik ez az információ?

A műszertulajdonban a rendszerleíró adatbázisában van windows rendszerek - Milyen kódolást választhat az ANSI esetében, mit válasszon az OEM (az orosz nyelv esetében, amely CP866 lesz). Ha egy másik alapértelmezett nyelvet telepít a számítógépen, akkor ezek a kódolások az ANSI-hez vagy az OEM-kibocsátáshoz hasonlóan szerepelnek.

A Notepad ++ után mentse el a dokumentumot a kódolásban, amire szüksége van, vagy nyissa meg a dokumentumot a webhelyen szerkesztéséhez, majd a szerkesztő jobb alsó sarkában láthatja a nevét:

Krakoyarbrov elkerülése érdekébenkivéve, ha a fent leírt műveletek hasznosak lesznek a sapkájában való regisztrációhoz forráskód Az összes webhely oldal információi erről a kódolásról, hogy a szerver vagy a helyi gazda nem fordul elő.

Általánosságban elmondható, hogy a HTML-től eltérő hipertext-jelölés minden nyelvén egy speciális XML hirdetést használnak, amely meghatározza a szövegkódolást.

Mielőtt elkezdene szétszerelni a kódot, a böngésző megtudja, melyik verziót használják, és hogy pontosan hogyan kell értelmezni a nyelv karaktereinek kódolását. De amennyire figyelemre méltó, ha megmenti a dokumentumot az alapértelmezett Unicode-ban, ez az XML-nyilatkozat kihagyható (a kódolást UTF-8-nál, ha nincs BOM vagy UTF-16, ha van egy BOM).

Dokumentum esetén hTML nyelv A használt kódolás megadása metaelemamely a nyitó és a zárófej címke között van előírva:

... ...

Ez a bejegyzés meglehetősen különbözik az elfogadott B-től, de teljes mértékben megfelel az újonnan bevezetett lassan a HTML 5 szabványnak, és teljesen helyesen érthetően meg fogja érteni ebben a pillanatban böngészők.

Elméletben, a metaelem, amely jelzi a kódolást HTML dokumentum Jobb, ha elhelyezni a lehető legmagasabb a dokkolófejbenAnnak érdekében, hogy az első jel szövegében az ülés időpontjában ne legyen az alapvető ANSI (ami mindig olvassa el mindig és bármely változatban), a böngészőnek már rendelkeznie kell a karakterek kódolásának módjáról.

Sok szerencsét! A blog oldalak honlapján kétértelmű találkozók

további hengerek megtekinthetők

");">

Lehet, hogy érdekel

Mi az URL-címek, mint a helyszín abszolút és relatív linkjei közötti különbség
OpenServer - Modern helyi szerver és egy példa a használatára wordPress telepítések számítógépen
Mi a chmod, amely hozzáférési jogokat rendelhet a fájlok és mappák hozzárendeléséhez (777, 755, 666) és hogyan kell csinálni a PHP-t
Keresés Yandex a helyszínen és az online áruházban

Szimbólum átfedés

A BS szimbólumnak köszönhetően (vissza a lépéshez), a másik felett egy karaktert nyomtathat a nyomtatóra. Az ASCII-ben a diakritikusok betűkkel történő hozzáadásához, például:

a BS "→ Á
a BS `→ à
a BS ^ → →
o bs / → Ø
c bs, → ç
n bs ~ → ñ

jegyzet: A régi betűtípusok Apostrophe "lejtést húztak balra, és Tilda ~ eltolódott, hogy csak megfeleljenek az Akut és a Tilde szerepének.

Ha ugyanazt a szimbólumot a szimbólumra helyezzük, akkor a merész betűtípus hatását kapják, és ha a hangsúly a szimbólumon helyezkedik el, akkor kiderül a szöveget.

a BS A → a.
a BS _ → a.

jegyzet: Ezt például az ember referenciarendszerében használják.

Nemzeti ASCII beállítások

Az ISO 646 (ECMA-6) szabvány biztosítja a nemzeti karakterek helyének helyét @ [ \ ] ^ ` { | } ~ . Ezen kívül, a helyén # Lehet elhelyezni £ és helyben $ - ¤ . Az ilyen rendszer alkalmas az európai nyelvekre, ahol csak néhány további karakter szükséges. A nemzeti szimbólumok nélküli ASCII verziót US-ASCII, vagy "nemzetközi referenciaverzió" -nak nevezik.

Ezt követően kényelmesebb volt a 8 bites kódolások (kódoldalak) használatához, ahol a kódasztal (0-127) alsó fele US-ASCII karaktereket foglal el, és a felső (128-255) további karakterek, egy nemzeti szimbólumkészlet. Így az ASCII táblázat felső felét az Unicode mindenütt jelenlétében aktívan használták a lokalizált szimbólumok, helyi betűk ábrázolására. Az ASCII táblázatban lévő cirill karakterek elhelyezésére szolgáló egyetlen szabvány hiánya számos kódolási problémát (KOI-8, Windows-1251 és mások) szállított. Más nyelvek, akik nem tartott írásban is szenvedtek a különböző kódolások jelenléte miatt.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A.a.	.B	.C.c.	.D.	.E.e.	.F.
0.	Nul.	Valami	EOA.	Eom	EQT.	WRU.	Ru	Harang.	Bksp.	Ht	Lf.	Vt.	FF.	Cr	ÍGY.	Si
1.	DC 0.	DC 1.	DC 2.	DC 3.	DC 4.	Téved.	Szinkronizál.	Lem.	S 0	S 1	S 2.	S 3.	S 4.	S 5.	S6.	S7.
2.
3.
4.	Üres	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A.	B.	C.	D.	E.	F.	G.	H.	ÉN.	J.	K.	L.	M.	N.	O.
B.	P.	Q.	R.	S.	T.	U.	V.	W.	X.	Y.	Z.	[	\	]		←
C.
D.
E.		a.	b.	c.	d.	e.	f.	g.	h.	ÉN.	j.	k.	l.	m.	n.	o.
F.	p.	q.	r.	s.	t.	u.	v.	w.	x.	y.	z.				KILÉPÉS	Del.

Azokon a számítógépeken, ahol a minimálisan címezhető memóriaegység 36 bites szó volt, kezdetben 6 bites karaktereket alkalmaztunk (1 szó \u003d 6 karakter). Az ilyen számítógépeken az ASCII-re való áttérés után 5 hét bites karaktert kezdett egy szóba helyezni (1 bit maradt felesleges) vagy 4 Ninebitant karakter.

Az ASCII kódokat a programozás alatt álló kulcs meghatározására is használják. A standard QWERTY billentyűzethez a kódasztal így néz ki:

Sok karakter, amellyel a szöveg íródott, hívott Ábécé.

Az ábécé karakterek száma az erő.

Az információk számának meghatározásához szükséges képlet: N \u003d 2 b,

ahol n az ábécé hatalma (a karakterek száma),

b - A bitek száma (szimbóluminformáció).

Az ábécé 256 karakteres teljesítményű, szinte minden szükséges karaktert elhelyezhet. Az ilyen ábécét hívják elegendő.

Mivel 256 \u003d 2 8, majd súlya 1 szimbólum - 8 bit.

Mérési egység 8 bit megfelelő név 1 byte:

1 byte \u003d 8 bit.

Az egyes szimbólumok bináris kódja a számítógépes szövegben 1 memória bájtot tartalmaz.

Milyen módon jelenik meg a szöveges információk a számítógép memóriájában?

A túlszárnyaló szimbólumkódolás kényelme nyilvánvaló, mert a bájtok - a memória legkisebb címezhető része, és ezért a processzor külön-külön hivatkozhat a szövegfeldolgozás végrehajtásával. Másrészt 256 karakter elég ahhoz, hogy képviselje a legváltozatosabb szimbolikus információkat.

Most felmerül a kérdés, hogy melyik nyolc bites bináris kód, hogy összhangban legyen az egyes szimbólumokkal.

Nyilvánvaló, hogy ez egy feltételes kérdés, sok kódolási módszerrel jöhet létre.

A számítógép ábécé összes szimbóluma 0 és 255 között számozott. Nyolc bites minden egyes szám. bináris kód 00000000-tól 11111111-ig. Ez a kód egyszerűen a bináris számrendszer szimbólumának sorszáma.

Az a táblázat, amelyben a számítógép ábécé összes karakterét a szekvenciaszámok betartásával végezzük, a kódolási táblázatnak nevezik.

-Ért különböző típusok Az EUM különböző kódolási táblákat használ.

A PC nemzetközi szabványa asztalává vált ASCII.(Aski olvasása) (American Standard Code for information Exchange).

Az ASCII-kód táblázat két részre oszlik.

A nemzetközi szabvány csak az asztal első felében, azaz Szimbólumok számokkal 0 (00000000), korábban 127 (01111111).

ASCII kódolási táblázatszerkezet

Sorozatszám	A kód	Szimbólum
0 - 31	00000000 - 00011111	A 0-31-es számú szimbólumokat vezetőknek nevezik. Funkciójuk az, hogy szabályozzák a szöveg megjelenítésének folyamatát a képernyőn vagy nyomtatás, a hangjel, a szövegjelzés stb.
32 - 127	00100000 - 01111111	A táblázat szabványos része (angol). Ez magában foglalja a latin ábécé kis- és nagybetűit, decimális számokat, írásjeleket, mindenféle zárójeleket, kereskedelmi és egyéb karaktert. Szimbólum 32 - Space, I.E. Üres pozíció a szövegben. Minden másot bizonyos jelek tükrözik.
128 - 255	10000000 - 11111111	Az asztal alternatív része (orosz). Az ASCII-kód táblázat második felében a kódoldalt (128 kódot, 10 000 000-et kezdve, és 11111111 véget ér), különböző lehetőségek lehetnek, minden egyes lehetőségnek saját száma van. A kódoldalt elsősorban a latinon kívüli nemzeti ábécék befogadására használják. Az orosz nemzeti kódolásoknál az orosz ábécé szimbólumait az asztal ezen részébe helyezik.

Az ASCII kódok első felében

Felhívom a figyelmet arra a tényre, hogy a betű kódolásának táblázata (nagybetűk és kisbetűk) ábécé sorrendben van elrendezve, és a számokat az értékek növelésével rendezik. A szimbólumok elrendezésében a lexikográfiai sorrendben való ragaszkodás az ábécé szekvenciális kódolásának elvét jelenti.

Az orosz ábécé betűire a soros kódolás elvét is megfigyelik.

Az ASCII kódok második felét táblázat

Sajnos jelenleg öt különböző cirill kódolása van (KOI8-P, Windows. MS-DOS, Macintosh és ISO). Emiatt a problémák gyakran felmerülnek az orosz szöveg átadásával egy számítógépről a másikra szoftverrendszer másiknak.

Az orosz betűk kódolási orosz betűinek kronológiai szintje KOI8 volt ("Információs csere-kód, 8 bites"). Ezt a kódolást az EU EU-sorozatának számítógépén lévő 70-es években használták, és a 80-as évek közepétől az UNIX operációs rendszer első Russified verzióiban kezdték használni.

A 90-es évek elejétől kezdve az MS DOS operációs rendszer dominációjának időpontja, a CP866 kódolási maradványok ("CP": "kódlap", "kódlap").

A Mac OS operációs rendszert futtató Apple számítógépek saját MAC kódolását használják.

Ezenkívül a Nemzetközi Szabványügyi Szervezet, ISO) jóváhagyott egy másik kódolást az ISO 8859-5 néven, mint az orosz nyelv számára.

A leggyakoribb jelenleg kódol. Microsoft Windows.a CP1251 csökkentésével jelölt.

A 90-es évek vége óta a szimbólumkódolás szabványosításának problémája megoldódik egy új nemzetközi szabvány bevezetése Unicode.. Ez egy 16 bites kódolás, azaz Benne minden szimbólum 2 bájtot kap. Természetesen a memória mennyisége 2-szer elfoglalt. De ez a kód táblázat lehetővé teszi legfeljebb 65536 karakter engedélyezését. A Unicode szabvány teljes specifikációja magában foglalja a világ összes létező, kihalt és mesterségesen létrehozott ábécéit, valamint számos matematikai, zenei, kémiai és más szimbólumot.

Próbáljuk meg használni az ASCII táblát, hogy elképzelhessük, hogy a szavak hogyan fognak megjelenni a számítógép memóriájába.

Belső szó nézet a számítógépes memóriában

Néha előfordul, hogy a szöveg, amely a betűk az orosz ábécé nyert egy másik számítógépen, nem lehet olvasni - néhány „abrakadabra” lehet látható a képernyőn. Ez történik, mert a számítógépek különböző kódolást használnak az orosz nyelv szimbólumainak.

DECEMBER	Hex.	Szimbólum	DECEMBER	Hex.	Szimbólum
000	00	szakember. NOP.	128	80	Ђ
001	01	szakember. Soh.	129	81	Ѓ
002	02	szakember. STX.	130	82	‚
003	03	szakember. ETX	131	83	ѓ
004	04	szakember. EOT.	132	84	„
005	05	szakember. Q	133	85	…
006	06	szakember. Ack.	134	86	†
007	07	szakember. Bel.	135	87	‡
008	08	szakember. BS.	136	88	€
009	09	szakember. Tab.	137	89	‰
010	0a.	szakember. Lf.	138	8a.	Љ
011	0b.	szakember. Vt.	139	8b.	‹ ‹
012	0c.	szakember. FF.	140	8c.	Њ
013	0d.	szakember. Cr	141	8 D.	Ќ
014	0e.	szakember. ÍGY.	142	8e.	Ћ
015	0f.	szakember. Si	143	8f.	Џ
016	10	szakember. Dle.	144	90	ђ
017	11	szakember. Dc1	145	91	‘
018	12	szakember. DC2.	146	92	’
019	13	szakember. Dc3	147	93	“
020	14	szakember. DC4.	148	94	”
021	15	szakember. Nak.	149	95
022	16	szakember. Szin.	150	96	–
023	17	szakember. ETB.	151	97	—
024	18	szakember. TUD	152	98
025	19	szakember. EM.	153	99	™
026	1a.	szakember. Alatti.	154	9a.	љ
027	1b.	szakember. KILÉPÉS	155	9b.	›
028	1c.	szakember. Fs.	156	9c.	њ
029	1d.	szakember. GS.	157	9d.	ќ
030	1e.	szakember. Rs.	158	9e.	ћ
031	1f.	szakember. MINKET.	159	9f.	џ
032	20	csésze. SP (hely)	160	A0.
033	21	!	161	A1.	Ў
034	22	"	162	A2.	ў
035	23	#	163	A3.	Ћ
036	24	$	164	A4.	¤
037	25	%	165	A5.	Ґ
038	26	&	166	A6.	¦
039	27	"	167	A7.	§
040	28	(	168	A8.	E.
041	29	)	169	A9.	©
042	2a.	*	170	AA.	Є
043	2b.	+	171	Abszolút	«
044	2c.	,	172	Vált	¬
045	2d.	-	173	HIRDETÉS
046	2e.	.	174	Ám	®
047	2f.	/	175	AF	Ї
048	30	0	176	B0.	°
049	31	1	177	B1.	±
050	32	2	178	B2.	І
051	33	3	179	B3.	і
052	34	4	180	B4.	ґ
053	35	5	181	B5.	µ
054	36	6	182	B6.	¶
055	37	7	183	B7.	·
056	38	8	184	B8.	e.
057	39	9	185	B9.	№
058	3A	:	186	Ba.	є
059	3b.	;	187	Bb.	»
060	3c.	<	188	IDŐSZÁMÍTÁSUNK ELŐTT.	ј
061	3D-s	=	189	Bd.	Ѕ
062	3e.	>	190	LENNI.	ѕ
063	3f.	?	191	Bf.	ї
064	40	@	192	C0.	DE
065	41	A.	193	C1.	B.
066	42	B.	194	C2.	BAN BEN
067	43	C.	195	C3.	G.
068	44	D.	196	C4.	D.
069	45	E.	197	C5.	E.
070	46	F.	198	C6.	J.
071	47	G.	199	C7	Z.
072	48	H.	200	C8.	ÉS
073	49	ÉN.	201	C9.	J.
074	4a.	J.	202	Kb.	NAK NEK
075	4b.	K.	203	Cb.	L.
076	4c.	L.	204	Cc.	M.
077	4d.	M.	205	CD	N.
078	4e.	N.	206	Ce	RÓL RŐL
079	4f.	O.	207	Vö.	P
080	50	P.	208	D0	R
081	51	Q.	209	D1	TÓL TŐL
082	52	R.	210	D2.	T.
083	53	S.	211	D3.	W.
084	54	T.	212	D4.	F.
085	55	U.	213	D5.	H.
086	56	V.	214	D6.	C.
087	57	W.	215	D7	C.
088	58	X.	216	D8.	SH
089	59	Y.	217	D9	SH
090	5a	Z.	218	Da	Kommesszant
091	5b.	[	219	Db	S
092	5c.	\	220	Dc	B
093	5d.	]	221	Dd.	E.
094	5e.	^	222	De.	Yu
095	5f.	_	223	Df.	én
096	60	`	224	E0	de
097	61	a.	225	E1	b.
098	62	b.	226	E2.	ban ben
099	63	c.	227	E3.	g.
100	64	d.	228	E4.	d.
101	65	e.	229	E5	e.
102	66	f.	230	E6.	j.
103	67	g.	231	E7.	z.
104	68	h.	232	E8.	és
105	69	ÉN.	233	E9.	j.
106	6A	j.	234	Ea.	nak nek
107	6b.	k.	235	Eb.	l.
108	6c.	l.	236	EK	m.
109	6d.	m.	237	Ed	n.
110	6e.	n.	238	Ee	ról ről
111	6f.	o.	239	EF.	p
112	70	p.	240	F0.	r
113	71	q.	241	F1	tól től
114	72	r.	242	F2.	t.
115	73	s.	243	F3.	w.
116	74	t.	244	F4.	f.
117	75	u.	245	F5.	h.
118	76	v.	246	F6	c.
119	77	w.	247	F7.	c.
120	78	x.	248	F8.	sH
121	79	y.	249	F9.	sH
122	7a.	z.	250	Fa.	kommesszant
123	7b.	{	251	Fb.	s
124	7c.	\|	252	FC.	b
125	7d.	}	253	Fd.	e.
126	7e.	~	254	Fe.	yu
127	7f.	Szakember. Del.	255	FF.	én

ASCII Windows szimbólumok asztal.
Különleges (kezelési) karakterek leírása

Meg kell jegyezni, hogy az ASCII táblázat kezdetben ellenőrző szimbólumait használták a telethip-adatok cseréjének biztosítására, az adatbevitelt szúráshoz és a külső eszközök legegyszerűbb kezeléséhez.
Jelenleg a menedzserek többsége aSCII szimbólumok. A táblák már nem hordozzák ezt a terhelést, és más célokra is használhatók.

A kód	Leírás
Nul, 00.	Null, üres
Soh, 01.	A fejléc kezdete, a fejléc elindítása
STX, 02.	A szöveg kezdete, a szöveg kezdete.
Etx, 03.	A szöveg vége, vége szöveg
EOT, 04.	Az átvitel vége, az átadás vége
Enq, 05.	Érdeklődik. Kérem erősítse meg
Ack, 06.	Elismerés. Kijelentem
Bel, 07.	Harang, harang
BS, 08.	Backspace, térjen vissza egy karakterre
Tab, 09.	Tab, vízszintes táblázat
Lf, 0a.	Line feed, sorfordítás. Most a legtöbb programozási nyelven jelezve \\ n
Vt, 0b.	Függőleges fül, függőleges fül.
FF, 0C.	Űrlap feed, oldalút, új oldal
CR, 0D.	Carriage Visszatérés, Visszatérés Carets. Most a legtöbb programozási nyelven a
Így, 0e.	Shift out, változtassa meg a színező szalag színét a nyomdagépben
Si, 0f.	Shift in, tegye vissza a színező szalag színét a nyomtatási eszközön
DLE, 10.	Adatkapcsolat menekülés, átkapcsolás csatorna az adatátvitelhez
DC1, 11. DC2, 12. DC3, 13. DC4, 14.	Eszközvezérlés, eszközkezelő szimbólumok
NAK, 15.	Negatív nyugtázás, ne erősítse meg.
SYN, 16.	Szinkronizálás. Szinkronizálás szimbólum
Etb, 17.	A szövegblokk vége, a szövegblokk vége
18.	Mégse, törölve továbbítva
Em, 19.	A tápközeg vége, az adathordozó vége
1a.	Helyettesítő, helyettesítő. A szimbólum helyén helyezkedik el, amelynek értéke elveszett vagy elrontott volt az átvitel során
Esc, 1b.	Escape Control szekvencia
FS, 1C.	File Separator, fájlelválasztó
Gs, 1d.	Csoportos elválasztó, csoportos elválasztó
Rs, 1e.	Rekord elválasztó, rekord elválasztó
US, 1F.	Egység elválasztó, egység elválasztó
Del, 7f.	Törölje, törölje az utolsó szimbólumot.

[8 bites kódolások: ASCII, KOI-8R és CP1251] Az Egyesült Államokban létrehozott első kódolási táblák nem használták a nyolcadik bitet a pate-ban. A szöveget bájtsorozatokként mutatták be, de a nyolcadik bitet nem vették figyelembe (hivatalos célokra alkalmazták).

A táblázat általában elfogadott szabványsá vált. ASCII. Amerikai szabványkód információcsere számára). Az első 32 ASCII asztali szimbólumokat (00-tól 1f) használtuk nem nyomtatható karakterekhez. Úgy tervezték, hogy szabályozzák a nyomtatási eszközt stb. A többi 20-7F - a szokásos (nyomtatott) karakterek.

1. táblázat - ASCII kódolás

DECEMBER	Hex.	október	Char.	Leírás.
0	0	000		nULLA
1	1	001		a fejléc kezdete.
2	2	002		szöveg kezdete.
3	3	003		a szöveg vége.
4	4	004		az átvitel vége.
5	5	005		vizsgálat.
6	6	006		elismerni.
7	7	007		harang.
8	8	010		backspace.
9	9	011		vízszintes fül.
10	A.	012		ÚJ SOR
11	B.	013		függőleges fül.
12	C.	014		Új oldal
13	D.	015		carriage visszatérés.
14	E.	016		eltolódjon.
15	F.	017		váltás.
16	10	020		adatkapcsolat menekülés.
17	11	021		eszközvezérlés 1.
18	12	022		eszközszabályzó 2.
19	13	023		eszközvezérlés 3.
20	14	024		eszközszabályzó 4.
21	15	025		negatív elismerés.
22	16	026		szinkron tétlen
23	17	027		a TRANS vége. Blokk
24	18	030		megszünteti
25	19	031		a közeg vége.
26	1a.	032		helyettes.
27	1b.	033		menekülni.
28	1c.	034		fájlelválasztó.
29	1d.	035		csoportos elválasztó.
30	1e.	036		record elválasztó.
31	1f.	037		egység elválasztó.
32	20	040		tér.
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2a.	052	*
43	2b.	053	+
44	2c.	054	,
45	2d.	055	-
46	2e.	056	.
47	2f.	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3b.	073	;
60	3c.	074	<
61	3D-s	075	=
62	3e.	076	>
63	3f.	077	?

DECEMBER	Hex.	október	Char.
64	40	100	@
65	41	101	A.
66	42	102	B.
67	43	103	C.
68	44	104	D.
69	45	105	E.
70	46	106	F.
71	47	107	G.
72	48	110	H.
73	49	111	ÉN.
74	4a.	112	J.
75	4b.	113	K.
76	4c.	114	L.
77	4d.	115	M.
78	4e.	116	N.
79	4f.	117	O.
80	50	120	P.
81	51	121	Q.
82	52	122	R.
83	53	123	S.
84	54	124	T.
85	55	125	U.
86	56	126	V.
87	57	127	W.
88	58	130	X.
89	59	131	Y.
90	5a	132	Z.
91	5b.	133	[
92	5c.	134	\
93	5d.	135	]
94	5e.	136	^
95	5f.	137	_
96	60	140	`
97	61	141	a.
98	62	142	b.
99	63	143	c.
100	64	144	d.
101	65	145	e.
102	66	146	f.
103	67	147	g.
104	68	150	h.
105	69	151	ÉN.
106	6A	152	j.
107	6b.	153	k.
108	6c.	154	l.
109	6d.	155	m.
110	6e.	156	n.
111	6f.	157	o.
112	70	160	p.
113	71	161	q.
114	72	162	r.
115	73	163	s.
116	74	164	t.
117	75	165	u.
118	76	166	v.
119	77	167	w.
120	78	170	x.
121	79	171	y.
122	7a.	172	z.
123	7b.	173	{
124	7c.	174	\|
125	7d.	175	}
126	7e.	176	~
127	7f.	177	Del.

Könnyen észrevehető, hogy csak latin betűk kerülnek bemutatásra ebben a kódolásban, és azok, amelyeket angolul használnak. Vannak aritmetikai és egyéb szolgáltatási karakterek is. De nincsenek orosz betűk, sem különleges latin német vagy francia. Könnyen megmagyarázható - a kódolást amerikai szabványként fejlesztették ki. Amikor a számítógépek kezdtek alkalmazni az egész világon, szükség volt más karakterek kódolására.

Ehhez úgy döntöttek, hogy minden egyes pate nyolcadik bitet használnak. Így 128 további érték állt rendelkezésre (80-tól FF-ig), amely a karakterek kódolására használható. A nyolc bites táblák közül az első a "fejlett ASCII" ( Kiterjesztett ASCII.) - A nyugat-európai nyelveken használt latin karakterek különböző változatait tartalmazta. Más további karakterekkel is rendelkezett, beleértve a pszeudográfiát is.

A pseudográfiai karakterek lehetővé teszik, hogy csak szövegszimbólumokat jelenítsen meg a képernyőn, bizonyos hasonlósági grafikát biztosítson. Pseudográfia segítségével, például a távoli menedzser fájlok kezelésére szolgáló program.

Az orosz betűk a kiterjesztett ASCII asztalban nem voltak. Oroszországban (korábban - az USSR) és más államokban a kódolásaikat létrehozták, lehetővé téve a konkrét "nemzeti" szimbólumokat 8 bites szövegfájlokba - a lengyel és cseh nyelvek latin betűjei, cirill (beleértve az orosz betűket is) és más ábécéket .

Minden olyan kódolásban, amely megkapta az eloszlást, az első 127 karaktert (azaz a bájtok közül nyolc bites értékeket) egybeesnek az ASCII-val. Így az ASCII fájl ezen kódolások bármelyikében működik; Betűk angol nyelvű Ugyanúgy képviselik őket.

Szervezet ISO. Nemzetközi szabványosítási szervezet - Nemzetközi szabványügyi szervezet) Elfogadta a szabványok csoportját ISO 8859.. 8 bites kódolást határoz meg különböző csoportok nyelvek. Tehát az ISO 8859-1 egy kiterjesztett ASCII, asztal az USA és Nyugat-Európa számára. És ISO 8859-5 - asztal cirill (beleértve az orosz).

Azonban történelmi okokból ISO 8859-5 kódolás nem illeszkedik. Tényleg a következő kódolásokat használják az orosz nyelvre:

Kód 866. oldal ( CP866.), ő "dos", ez "alternatív gost kódolás". A 90-es évek közepéig széles körben használták; Most már korlátozott. Gyakorlatilag nem vonatkozik az interneten lévő szövegek terjesztésére.
- KOI-8. A 70-es és 1980-as években alakult ki. Ez egy általánosan elfogadott szabvány az e-mail üzenetek küldésére az orosz interneten. Széles körben használják operációs rendszer UNIX család, beleértve a Linuxot is. Opció KOI-8, az oroszul számított, hívott KOI-8R.; Vannak változatok más cirill nyelvek (így, a koi8-u opció az ukrán nyelv számára).
- kód 1251. oldal, Cp1251, Windows-1251. A Microsoft által kifejlesztett, hogy támogassa az orosz nyelvt a Windows rendszerben.

A CP866 fő előnye az volt, hogy megőrizze a pszeudográfiai karaktereket ugyanabban a helyeken, mint a kiterjesztett ASCII; Ezért nem lehet a tengerentúli munkahelyi munka szöveges programokPéldául a híres Norton parancsnok. Most a CP866-ot a szöveges Windows vagy a teljes képernyős szöveges módban futó Windows programokhoz használják, beleértve a távoli menedzsert is.

A CP866 szövegei az elmúlt években nagyon ritkák (de az orosz fájlnevek kódolására szolgál). Ezért két másik kódolást fogunk lakni - KOI-8R és CP1251.

Amint láthatja, a CP1251 kódolási táblázatban az orosz betűk ábécé sorrendben vannak elrendezve (kivéve azonban az e betűket). Ennek a helynek köszönhetően számítógépes programok Nagyon könnyű rendezni betűrendben.

De KOI-8R-ben, az orosz levelek sorrendje véletlenszerűnek tűnik. De valójában nem.

Számos régi programban a 8. bit elvesztette a szöveg feldolgozása vagy átadása során. (Most az ilyen programok gyakorlatilag "kihaltak", de a 80-as évek végén - 90-es évek elején elterjedtek). Ahhoz, hogy egy 7 bites értéket kapjon egy 8 bites értéktől, elég ahhoz, hogy elvegye a 8-as idősebb ábrát; Például az E1 61-re fordul.

És hasonlítsa össze a KOI-8R-t az ASCII táblával (1. táblázat). Meg fogja találni, hogy az orosz betűk egyértelműen megfelelnek a latinul. Ha a nyolcadik bit eltűnik, a kisbetűs orosz betűk a latin és a tőke oroszok a kisbetűs latin. Tehát E1 a KOI-8-ban az orosz "A", míg 61 ASCII - latin "A".

Tehát a KOI-8 lehetővé teszi, hogy fenntartsa az orosz szöveg olvashatóságát a 8. bitek elvesztésével. A "Hello mindenki" "priwet Wsem" -be fordul.

A közelmúltban a kódolási táblázatban lévő szimbólumok ábécé sorrendje, valamint a 8. bit elvesztett veszteségével elvesztette a döntő fontosságot. Nyolcadik bit B. modern számítógépek Az átvitel vagy a feldolgozás során nem veszik el. És a rendezés betűrendben történik, figyelembe véve a kódolást, és nem egyszerű összehasonlítást a kódok. (Egyébként a CP1251 kódok nem teljesen betűrendben vannak - a levél ё nincs a helyén).

Azzal a ténynek köszönhetően, hogy két közös kódolás kettő, az interneten való együttműködés során (mail, weboldalak megtekintése), néha lehetséges, hogy egy értelmetlen betűket láthatunk orosz szöveg helyett. Például: "Fedezni fogok." Ezek csak a "tisztelettel" szavak; De a CP1251 kódolóban kódolták őket, és a számítógép dekódolta a szöveget a Koo-8 asztalon. Ha ugyanazok a szavak voltak, éppen ellenkezőleg, kódolva van a Koo-8-ban, és a számítógép dekódolta a szöveget a CP1251 táblázatban, az eredmény "a HCHBCEIEN" lesz.

Néha előfordul, hogy a számítógép dekódolja az orosz nyelvű betűket, és egyáltalán egy olyan asztalon, amely nem az orosz nyelv számára készült. Ezután az orosz betűk helyett egy értelmetlen karaktersorozat jelenik meg (például a kelet-európai nyelvű latin betűk); Gyakran "krokaimereknek" nevezik.

A legtöbb esetben a modern programok az internetes dokumentum kódolásainak meghatározásával ( email és weboldalak) önmagukban. De néha "bajba kerülnek", akkor láthatjuk az orosz betűk furcsa szekvenciáit, vagy "krokémátus". Rendszerben, egy ilyen helyzetben, hogy megjelenítse ezt a szöveget, elegendő kiválasztani a kódolást manuálisan a program menüben.

A cikkhez az oldalt http://open-office.edusite.ru/textProcessor/p5aa1.html használták.

Az anyagot az oldalról vesszük:

Az ASCII-kód szabványos része. ASCII kódolás (amerikai szabványos kód az információcsere számára) - Alapvető latiza szövegkódolás

ASCII - Alapvető latiza szövegkódolás

Az Aski - CP866 és a KOI8-R kiterjesztett verziói pszeudográf segítségével kódolva

Windows 1251 - az ASCII modern változata, és miért jutnak ki a Crackelek

Unicode (Unicode) - Univerzális kódok UTF 8, 16 és 32

Krakoyabry az orosz betűk helyett - hogyan kell javítani

Szimbólum átfedés

Nemzeti ASCII beállítások

Milyen módon jelenik meg a szöveges információk a számítógép memóriájában?

Most felmerül a kérdés, hogy melyik nyolc bites bináris kód, hogy összhangban legyen az egyes szimbólumokkal.

Az a táblázat, amelyben a számítógép ábécé összes karakterét a szekvenciaszámok betartásával végezzük, a kódolási táblázatnak nevezik.

ASCII kódolási táblázatszerkezet

Sorozatszám

A kód

Szimbólum

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

Az ASCII kódok első felében

Az ASCII kódok második felét táblázat

Próbáljuk meg használni az ASCII táblát, hogy elképzelhessük, hogy a szavak hogyan fognak megjelenni a számítógép memóriájába.

Belső szó nézet a számítógépes memóriában

ASCII Windows szimbólumok asztal. Különleges (kezelési) karakterek leírása

ASCII Windows szimbólumok asztal.
Különleges (kezelési) karakterek leírása