az internet ablakok Android

Az ASCII-kód szabványos része. ASCII kódolás (amerikai szabványos kód az információcsere számára) - Alapvető latiza szövegkódolás

Helló, kedves blogolvasók honlapja. Ma beszélünk veled arról, hogy a Krakoyarbra a programokból származik, mely szövegkódolások léteznek, és melyiküket kell használni. Tekintsük részletesen a fejlődésük történetét, az alapvető ASCII-tól kezdve, valamint a CP866, a KOI8-R, a Windows 1251 kiterjesztett verziói, és végződnek az UNICODE UTF 16 és 8 konzorcium modern kódjaival.

Valaki Ez az információ feleslegesnek tűnhet, de tudnád, hogy mennyi kérdésre jut el nekem pontosan a repedésekre (nem olvasott egy karakterkészletet). Most lesz lehetőségem arra, hogy mindenkit elküldjek e cikk szövegére, és önállóan keressük meg a cipzárakat. Nos, készen áll arra, hogy elnyelje az információt, és próbálja meg nyomon követni az elbeszélést.

ASCII - Alapvető latiza szövegkódolás

A szövegkódolás fejlesztése egyidejűleg fordul elő az informatikai ipar képződésével, és ebben az időben ideje volt, hogy néhány változást végezzen. Történelmileg mindannyian meglehetősen ártalmas az EBCDIC kiejtésének meglehetősen ártalmasnak, ami lehetővé tette a latin ábécé betűket, az arab számokat és az írásjeleket vezérlő szimbólumokkal.

De még mindig a modern szöveges kódolások kidolgozásának kiindulópontját híresnek kell tekinteni ASCII. (Amerikai standard kód az információcsere számára, amely oroszul általában "Aski"). Ez leírja az első 128 karaktert a leggyakrabban használt angolul beszélő felhasználóktól - latin betűk, arab számok és írásjelek.

Még az ASCII-ban leírt 128 karakterben is egyes szolgáltatási szimbólumokat zárójelek, rácsok, csillagok stb. Valójában te magad láthatod őket:

Ez az 128 karakter az ASCII kezdeti verziójától a szabványosság lett, és bármely más kódolásban biztosan találkozik és álljon, hogy ilyen módon lesznek.

De az a tény, hogy az információ egy bájt segítségével nem 128, de akár 256 különböző érték (kettő a nyolc fokig 256), így utána alapváltozat Asi számos megjelent fejlett kódolások ASCIIA legfontosabb jelek mellett a nemzeti kódoló szimbólumok (például orosz) is kódolhatók.

Itt valószínűleg érdemes egy kicsit többet a leírásban használt számrendszerről. Először is, ahogy mindent tudsz, a számítógép csak a bináris rendszerben lévő számokkal működik, nevezetesen a nullákkal és egységekkel ("Boulev algebra", ha valaki az intézetben vagy az iskolában tartja). Amelyek mindegyike a diplomától függ, nullától kezdve, és a hetedik helyen:

Nem nehéz megérteni, hogy a nullák és egységek összes lehetséges kombinációja ilyen formában csak 256. Fordítja a számot a bináris rendszerből decimális értéken. Szükséges egyszerűen össze kell hajtogatnia az összes, az egyik standot.

Példánkban az 1-et (2-et a nulla mértékig), plusz 8-ra (két-fokig 3-ig), plusz 32 (kétszer az ötödik fokozatban), plusz 64 (a hatodik), plusz 128-ban (a hetedikben) . Összesen 233-at kap egy decimális számrendszerben. Amint láthatod, minden nagyon egyszerű.

De ha az ASCII karakterekkel rendelkező asztalra nézel, látni fogja, hogy hexadecimális kódolásban kerülnek bemutatásra. Például az "Asterisk" megfelel a hexadecimális 2a-szám paradicsomának. Valószínűleg tudod, hogy egy hexadecimális számrendszerben a hexadecimális számrendszerben (átlagos tíz) -val (átlagos) -val latin betűket használnak.

Nos, így Átruházás bináris számok Hexadecimális Resed a következő egyszerű és vizuális módon. Minden egyes bájt két részből két részből áll, amint azt a fenti képernyőkép mutatja. Így A bájt minden felében a bináris kód csak tizenhat értékre lehet kódolni (kettő a negyedik fokozatban), amely könnyen képviselhető hexadecimális.

Ráadásul a bájt bal felében újra meg kell vizsgálni a nullától, és nem a képernyőképen látható módon. Ennek eredményeként, nem jó számítástechnikával megkapjuk, hogy az E9 számot a képernyőképen kódolja. Remélem, hogy az érvelésem és a rebus megszilárdulása érthető volt. Nos, most folytatjuk, ténylegesen beszélünk a szövegkódolásról.

Az Aski - CP866 és a KOI8-R kiterjesztett verziói pszeudográf segítségével kódolva

Tehát elkezdtünk beszélni az ASCII-ről, ami olyan volt, mint egy kiindulópont az összes modern kódolás (Windows 1251, Unicode, UTF 8) fejlesztéséhez.

Kezdetben csak a latin ábécé, az arab számok és valami más 128 jelét helyezték el, de a kiterjesztett verzióban minden 256 értéket lehetett használni, amelyek egy pateinformációban kódolhatók. Azok. Lehetőség arra, hogy a nyelvének levelei szimbólumait adjon.

Itt van szükség arra, hogy ismét megzavarják -uk, hogy tisztázzák - miért van szüksége kódolásra Szövegek és miért olyan fontos. A számítógép képernyőjén lévő karakterek két dolog alapján vannak kialakítva - mindenféle karakterből álló vektorformák (ábrázolások) és a kódok, amelyek lehetővé teszik, hogy kihúzza ezt a vektoros formákat ( betűtípus fájl) Ez a karakter a megfelelő helyre kerül.

Nyilvánvaló, hogy a betűtípusok felelősek a vektorformákért, de az operációs rendszer és programok a kódolásért felelősek. Azok. A számítógépen lévő bármely szöveg a bájtok sorai lesznek, amelyek közül a szöveg egyetlen szimbóluma kódolva van.

A képernyőn megjelenő program (szövegszerkesztő, böngésző, stb.) A kód elemzése során elolvassa a következő jel kódolását, és keresi a megfelelő vektor űrlapot a kívánt fájl A szöveges dokumentum megjelenítéséhez csatlakoztatott betűtípus. Minden egyszerű és trite.

Tehát, hogy kódolja a szükséges szimbólumot (például a nemzeti ábécéből), két körülménynek kell kitöltenie - ennek a jelnek a vektorformát a használt betűtípusban kell, és ezt a szimbólumot a kiterjesztett ASCII kódokba kódolhatjuk egy bájtba . Ezért van egy csomó ilyen lehetőség. Csak az orosz nyelv szimbólumainak kódolására számos kiterjesztett szamár van.

Például kezdetben megjelent CP866.Amelyben az orosz ábécé szimbólumainak használata volt, és az ASCII kiterjesztett változata volt.

Azok. A felső rész teljesen egybeesett az ASA (128 latin szimbólum, számok és bárki más) alapversenyével, amelyet a képernyőképen egy kicsit magasabb, de már alsó rész A CP866 kódoló táblázatok a képernyőképben kissé alacsonyabbak voltak, és megengedték, hogy egy további 128 karaktert (orosz betűk és minden pszeudográfiai) kódoljanak:

Nézze meg, a jobb oldali oszlopban a számok 8-mal kezdődnek, mert A 0 és 7 közötti számok az ASCII alaprészére vonatkoznak (lásd az első képernyőképet). Így Az orosz "M" betű a CP866-ban a 9c kóddal rendelkezik (a megfelelő sorok metszéspontja 9 és az oszlop a C számmal egy hexadecimális számrendszerben), amely egy bájtos információban írható, és ha Van egy megfelelő betűtípus az orosz karakterekkel, ez a levél probléma nélkül jelenik meg a szövegben.

Honnan jött ez a mennyiség pseudographers a CP866-ban.? Mindezek az a tény, hogy az orosz szöveghez való kódolást ezeken a fényes években fejlesztették ki, amikor most már nem volt ilyen grafikus operációs rendszerek elosztása. És a DOSS, és a hasonló szöveges műveletek, a pszeudográfia lehetővé tette, hogy legalább valahogy diverzifikálja a szövegek tervezését, és ezért bővelkedik a CP866-val és az összes többi sorával az Aska kiterjesztett változatainak kibocsátásával.

CP866 elosztott IBM cég, de ezen felül számos kódolás fejlesztettek ki szimbólumok az orosz nyelv, például az azonos típusú (kiterjesztett ASCII) tudható Koi8-r.:

Munkájának elve ugyanúgy maradt, mint a később leírt CP866 - minden egyes szövegszimbólumot egyetlen bájt kódol. A képernyőkép a Koi8-R asztal második felét mutatja, mert Az első félidő teljes mértékben összhangban van az ASUS bázissal, amely az első képernyőképen jelenik meg ebben a cikkben.

A KOI8-R kódolás jellemzői között megjegyezhető, hogy az asztalban lévő orosz betűk nem ábécé sorrendben vannak, például például a CP866-ban készültek.

Ha megnézed az első képernyőképet (alaprész, amely az összes kiterjesztett kódolásba lép), akkor észrevétszik, hogy a KOI8-R-ben az orosz betűk az asztal ugyanazon tábláiban helyezkednek el, mint a latin ábécé betűit az első részből az asztal. Ezt azért végezték, hogy az orosz szimbólumok latinba váltak, csak egy kicsit eldobva (kettő a hetedik fokozatban vagy 128-ban).

Windows 1251 - az ASCII modern változata, és miért jutnak ki a Crackelek

A szövegkódolások továbbfejlesztése annak a ténynek köszönhető, hogy a grafikus operációs rendszerek és a pszeudográfiák használatának szükségessége népszerű volt. Ennek eredményeképpen egy egész csoport merült fel, amely lényegében még mindig fejlett verziók voltak az Asi (egy szöveges szimbólum kódolva csak egy elvékonyabb információval), de pszeudográfiai karakterek használata nélkül.

Az úgynevezett ANSI kódolást kezelték, amelyet az Amerikai Szabványügyi Intézet fejlesztett ki. A cirill nevét még mindig használták az orosz nyelv támogatásával. Példa egy ilyen példára.

A korábban használt CP866 és KOI8-R-tól eltérően különbözött, mivel a pszeudográfiai karakterek helye az orosz tipográfia (a csökkenő jel) hiányzó szimbólumait, valamint az orosz szlávhoz használt szimbólumokat, valamint az orosz szlávhoz használt szimbólumokat Nyelvek (ukrán, fehérorosz stb.):

Az orosz nyelv kódolása, a betűtípusok és gyártók gyártói miatt szoftver Folyamatosan felmerült egy fejfájást, és veled, kedves olvasók, gyakran megkapták azokat a leghíresebbek krakoyabryAmikor a zavart a szövegben használt verzió tanították.

Nagyon gyakran kijöttek, amikor üzeneteket küldtek és fogadtak emailMi okozta a nagyon összetett átkódoló asztalok létrehozását, amelyek valójában nem tudták megoldani ezt a problémát a gyökérben, és gyakran a levelezésre használt felhasználókat arra használták, hogy elkerüljék a hírhedt krakozyabokat, amikor ilyen CP866, KOI8-R vagy Windows 1251 orosz kódolásait alkalmazzák.

Lényegében, Krakoyarbra, az orosz szöveg helyett a kódolás helytelen használatának eredménye volt ebből a nyelvbőlamely nem felel meg azzal, amelyben a szöveges üzenetet eredetileg kódolták.

Tegyük fel, hogy a CP866-mal kódolt szimbólumok, próbáld meg megjeleníteni a Windows 1251 kódtáblázat használatával, majd ezek a leginkább repedt (értelmetlen karakterkészlet) és kijutni, teljesen cserélve az üzenet szövegét.

Hasonló helyzet nagyon gyakran előfordul, fórumok vagy blogok, amikor az orosz karakterekkel való szöveg nem kerül mentésre az alapértelmezett webhelyen, vagy sem abban szöveg szerkesztőamely hozzáadódik a Sebestin kódhoz, amely nem látható szabad szemmel.

Végül, egy ilyen helyzet sok kódolással és folyamatosan feltérképező darubrramokkal, sok fáradt, előfeltételek voltak egy új univerzális változás létrehozásának, amely felváltotta volna az összes meglévő és megoldotta, végül a probléma gyökerére a nem olvasható szövegek. Ráadásul a hasonló kínai nyelvek problémája volt, ahol a nyelv szimbólumai sokkal többek voltak, mint 256.

Unicode (Unicode) - Univerzális kódok UTF 8, 16 és 32

A Délkelet-Ázsia nyelvi csoportjának több ezer jeleit nem lehetett leírni egy olyan papeinformációban, amelyet a fejlett ASCII változatok karaktereinek kódolására osztottak ki. Ennek eredményeként létrejött egy konzorciumot Unicode (Unicode - Unicode konzorcium) az ipar sok informatikai vezetőinek együttműködésében (azok, akik olyan szoftvert hoznak létre, amely vasalatokat kódol, aki betűtípusokat hoz létre), akik érdeklődtek egy univerzális szövegkódolás megjelenésében.

Az Unicode konzorcium égisze alatt közzétett első változat volt UTF 32.. A kódolás nevének számjegye azt jelenti, hogy az egyik szimbólum kódolására használt bitek száma. A 32 bitek 4 bájtos információt tartalmaznak, amelyekre szükségünk lesz az új univerzális UTF kódolásra.

Ennek eredményeként ugyanaz a fájl az ASCII és az UTF-32 kiterjesztett változatában kódolt szöveggel az utóbbi esetben négyszer nagyobb méretű (súlya). Rossz, de most lehetőségünk van arra, hogy az UTF segítségével két-harminc másodperces diplomával megegyező jelek számát kódolja ( milliárd karakterekamely minden valós értéket fogja lefedni egy kolosszális margóval).

Az európai csoporttal rendelkező országok közül azonban sok országnak ilyen hatalmas számú jele van a kódolásban, és nem volt szükség, de az UTF-32 használatakor azonban nem kaptak négyszeres növekedést A szöveges dokumentumok súlya, és ennek eredményeként az internetes forgalom és a mennyiségi tárolt adatok növekedése. Ez sokat, és senki sem engedheti meg magának az ilyen hulladékot.

A Unicode kifejlesztésének eredményeként megjelent UTF-16.amely olyan sikeres kiderült, hogy alapértelmezés szerint az összes használt karakter alapterületét fogadta el. Két bájtot használ, hogy kódoljon egy jelet. Lássuk, hogyan néz ki ez a dolog.

A Windows operációs rendszerben át tudsz haladni az út mentén "Start" - "Programok" - "Standard" - "Service" - "karakterasztal". Ennek eredményeképpen egy táblázat a betűkészleteiben telepített összes vektorformákkal nyílik meg. Ha a "További paraméterek" című részt a Unicode karakterek sorában választja, akkor minden betűtípusra külön láthatjuk, hogy a beillesztett karakterek teljes skálája.

By the way, rákattintva bármelyikükre, akkor láthatja, hogy kettő kód az UTF-16 formátumbannégy hexadecimális számjegyből áll:

Hány karaktert lehet kódolni az UTF-16-ban 16 bit használatával? 65 536 (két-tizenhat), és ezt a számot az Unicode alapterületére vették. Ezenkívül vannak olyan módok, hogy kódoljanak vele és körülbelül kétmillió karakterrel, de egy millió szöveges szimbólumban korlátozódnak.

De még ez a sikeres unicode kódolásának sikeres változata sem sok elégedettséget szenvedett azokkal, akik például csak angol nyelvű programokat írtak, mert az ASCII az UTF-16 kiterjesztett változatából való áttérés után a dokumentumok súlya kétszer nőtt (Egy bájt az egyik szimbólum az Aski és két bájt ugyanazon szimbólum UTF-16).

Ez pontosan kielégíti mindenkit, és mindenki az Unicode konzorciumban úgy döntött, hogy jön létre változó hossza kódolása. Utf-8-nak hívták. A cím nyolc ellenére valójában változó hosszúságú, vagyis van. Minden szövegszimbólumot egy-hat bájt szekvenciájába lehet kódolni.

A gyakorlatban az UTF-8 csak egy-négy bájtból származó tartományt használ, mivel semmi sem létezik még elméletileg, hogy bármit is benyújtson a kód négy bájtára. Minden latin jelet egy bájtban, valamint a régi jó ASCII-ban kódolják.

Ami figyelemre méltó, csak latin kódolás esetén még azok is, amelyek nem értik az Unicode-t, még mindig elolvassa az UTF-8 kódolását. Azok. Az Asa alapvető része egyszerűen kikapcsolta ezt az Unicode konzorciumot.

Az UTF-8-ban lévő cirill jeleket két bájtra kódolják, például Georgian - három bájtban. Az UNICODE konzorcium az UTF 16 és 8 létrehozása után a fő probléma - most már van a betűtípusokban egyetlen kódtér van. És most a gyártók csak erők és lehetőségeik alapján maradnak, hogy betöltsék a szövegszimbólumok vektorformáit. Most a készletekben is.

Az alábbi szimbólum táblázatban látható, hogy a különböző betűtípusok különböző számú karaktert támogatnak. A Unicode betűtípusok néhány szimbóluma nagyon jól mérhető. De most már nem különböztetik meg azt a tényt, hogy különböző kódolásokhoz jönnek létre, de az a tény, hogy a betűtípus gyártója töltötte be vagy nem töltötte be az egyszeri kódot a végéig.

Krakoyabry az orosz betűk helyett - hogyan kell javítani

Most nézzük meg, hogy a Crakozyabe szöveg megjelenik a szöveg helyett, vagy más szóval, hogy a helyes kódolás hogyan jelenik meg az orosz szöveghez. Valójában a programban van beállítva, amelyben létrehozza vagy szerkesztheti ezt a szöveget vagy kódot szöveges töredékekkel.

A szövegfájlok szerkesztéséhez és létrehozásához személyesen nagyon jól használom, véleményem szerint. Azonban kiemelheti a szintaxist még több száz programozási nyelv és jelölés, valamint a bővítmények bővítésével is. Olvas részletes felülvizsgálat Ez a csodálatos program a kapcsolat szerint.

A Notepad ++ felső menüben van egy "kódolási" tétel, ahol képes lesz arra, hogy egy meglévő opciót konvertáljon az alapértelmezett webhelyen:

A Joomla 1.5 és annál magasabb helyszínén, valamint a WordPress blog esetében válassza ki az opciót a Krakoyar megjelenésének elkerülése érdekében UTF 8 BOM nélkül. Mi a BOM előtag?

Az a tény, hogy amikor az ETF-16 kódolást kidolgozták, valamilyen oknál fogva úgy döntött, hogy egy ilyen dolgot rögzít, mint egy szimbólumkód rögzítésének képességét, mind a közvetlen sorrendben (például 0A15) és a fordított (150a) . És annak érdekében, hogy a programok megértsék, hogy melyik sorozat olvasási kódok, és feltalálták BOM. (BYTE megrendelésjelölés vagy más szavakkal, aláírással), amelyet három további bájt hozzáadásával fejeztek ki a dokumentumok kezdetére.

Az UTF-8 kódolásban nem volt bom az Unicode konzorciumban, ezért az aláírás hozzáadása (ezek a leghírbevallóbb további három bájt a dokumentum elejére) Néhány program egyszerűen megakadályozza a kód olvasását. Ezért mindig az UTF-ben lévő fájlok mentésekor válasszon egy opciót BOM nélkül (aláírás nélkül). Így előre van mustrázza magát a krakkolásból.

Amit figyelemre méltó, egyes programok a Windows nem tudják, hogyan kell ezt megtenni (nem tudják megtakarítani a szöveget az UTF-8-ban BOM nélkül), például ugyanaz a hírhedt notebook ablakok. A dokumentumot az UTF-8-ban menti, de még mindig hozzáadja az aláírást az elejére (három további bájt). Ráadásul ezek a bájtok mindig ugyanazok lesznek - olvassa el a kódot közvetlen sorrendben. De a szervereken, mert ez a kis dolgok, lehet, hogy probléma - Crackelek kijutnak.

Ezért semmilyen esetben sem ne használja a szokásos notebook ablakokat A webhelyének dokumentumainak szerkesztése, ha nem szeretné a Krakoyarbra megjelenését. A már említett jegyzettömb ++ szerkesztő legújabb és legkönnyebb lehetőségét tartom, amely gyakorlatilag nem rendelkezik hátrányokkal, és az egyik előnyből áll.

A Jegyzettömb ++ A kódolás kiválasztásakor képes lesz szöveget konvertálni az UCS-2 kódolásra, ami nagyon közel van a Unicode szabványhoz lényegében. Az ANSI-ben, azaz nem típusú nem típusú lehet. Az orosz nyelvre való hivatkozással ez már csak a Windows 1251 felett kerül leírásra. Hol származik ez az információ?

A műszertulajdonban a rendszerleíró adatbázisában van windows rendszerek - Milyen kódolást választhat az ANSI esetében, mit válasszon az OEM (az orosz nyelv esetében, amely CP866 lesz). Ha egy másik alapértelmezett nyelvet telepít a számítógépen, akkor ezek a kódolások az ANSI-hez vagy az OEM-kibocsátáshoz hasonlóan szerepelnek.

A Notepad ++ után mentse el a dokumentumot a kódolásban, amire szüksége van, vagy nyissa meg a dokumentumot a webhelyen szerkesztéséhez, majd a szerkesztő jobb alsó sarkában láthatja a nevét:

Krakoyarbrov elkerülése érdekébenkivéve, ha a fent leírt műveletek hasznosak lesznek a sapkájában való regisztrációhoz forráskód Az összes webhely oldal információi erről a kódolásról, hogy a szerver vagy a helyi gazda nem fordul elő.

Általánosságban elmondható, hogy a HTML-től eltérő hipertext-jelölés minden nyelvén egy speciális XML hirdetést használnak, amely meghatározza a szövegkódolást.

Mielőtt elkezdene szétszerelni a kódot, a böngésző megtudja, melyik verziót használják, és hogy pontosan hogyan kell értelmezni a nyelv karaktereinek kódolását. De amennyire figyelemre méltó, ha megmenti a dokumentumot az alapértelmezett Unicode-ban, ez az XML-nyilatkozat kihagyható (a kódolást UTF-8-nál, ha nincs BOM vagy UTF-16, ha van egy BOM).

Dokumentum esetén hTML nyelv A használt kódolás megadása metaelemamely a nyitó és a zárófej címke között van előírva:

... ...

Ez a bejegyzés meglehetősen különbözik az elfogadott B-től, de teljes mértékben megfelel az újonnan bevezetett lassan a HTML 5 szabványnak, és teljesen helyesen érthetően meg fogja érteni ebben a pillanatban böngészők.

Elméletben, a metaelem, amely jelzi a kódolást HTML dokumentum Jobb, ha elhelyezni a lehető legmagasabb a dokkolófejbenAnnak érdekében, hogy az első jel szövegében az ülés időpontjában ne legyen az alapvető ANSI (ami mindig olvassa el mindig és bármely változatban), a böngészőnek már rendelkeznie kell a karakterek kódolásának módjáról.

Sok szerencsét! A blog oldalak honlapján kétértelmű találkozók

további hengerek megtekinthetők
");">

Lehet, hogy érdekel

Mi az URL-címek, mint a helyszín abszolút és relatív linkjei közötti különbség
OpenServer - Modern helyi szerver és egy példa a használatára wordPress telepítések számítógépen
Mi a chmod, amely hozzáférési jogokat rendelhet a fájlok és mappák hozzárendeléséhez (777, 755, 666) és hogyan kell csinálni a PHP-t
Keresés Yandex a helyszínen és az online áruházban

Szimbólum átfedés

A BS szimbólumnak köszönhetően (vissza a lépéshez), a másik felett egy karaktert nyomtathat a nyomtatóra. Az ASCII-ben a diakritikusok betűkkel történő hozzáadásához, például:

  • a BS "→ Á
  • a BS `→ à
  • a BS ^ → →
  • o bs / → Ø
  • c bs, → ç
  • n bs ~ → ñ

jegyzet: A régi betűtípusok Apostrophe "lejtést húztak balra, és Tilda ~ eltolódott, hogy csak megfeleljenek az Akut és a Tilde szerepének.

Ha ugyanazt a szimbólumot a szimbólumra helyezzük, akkor a merész betűtípus hatását kapják, és ha a hangsúly a szimbólumon helyezkedik el, akkor kiderül a szöveget.

  • a BS A → a.
  • a BS _ → a.

jegyzet: Ezt például az ember referenciarendszerében használják.

Nemzeti ASCII beállítások

Az ISO 646 (ECMA-6) szabvány biztosítja a nemzeti karakterek helyének helyét @ [ \ ] ^ ` { | } ~ . Ezen kívül, a helyén # Lehet elhelyezni £ és helyben $ - ¤ . Az ilyen rendszer alkalmas az európai nyelvekre, ahol csak néhány további karakter szükséges. A nemzeti szimbólumok nélküli ASCII verziót US-ASCII, vagy "nemzetközi referenciaverzió" -nak nevezik.

Ezt követően kényelmesebb volt a 8 bites kódolások (kódoldalak) használatához, ahol a kódasztal (0-127) alsó fele US-ASCII karaktereket foglal el, és a felső (128-255) további karakterek, egy nemzeti szimbólumkészlet. Így az ASCII táblázat felső felét az Unicode mindenütt jelenlétében aktívan használták a lokalizált szimbólumok, helyi betűk ábrázolására. Az ASCII táblázatban lévő cirill karakterek elhelyezésére szolgáló egyetlen szabvány hiánya számos kódolási problémát (KOI-8, Windows-1251 és mások) szállított. Más nyelvek, akik nem tartott írásban is szenvedtek a különböző kódolások jelenléte miatt.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B .C.c. .D. .E.e. .F.
0. Nul. Valami EOA. Eom EQT. WRU. Ru Harang. Bksp. Ht Lf. Vt. FF. Cr ÍGY. Si
1. DC 0. DC 1. DC 2. DC 3. DC 4. Téved. Szinkronizál. Lem. S 0 S 1 S 2. S 3. S 4. S 5. S6. S7.
2.
3.
4. Üres ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A. B. C. D. E. F. G. H. ÉN. J. K. L. M. N. O.
B. P. Q. R. S. T. U. V. W. X. Y. Z. [ \ ]
C.
D.
E. a. b. c. d. e. f. g. h. ÉN. j. k. l. m. n. o.
F. p. q. r. s. t. u. v. w. x. y. z. KILÉPÉS Del.

Azokon a számítógépeken, ahol a minimálisan címezhető memóriaegység 36 bites szó volt, kezdetben 6 bites karaktereket alkalmaztunk (1 szó \u003d 6 karakter). Az ilyen számítógépeken az ASCII-re való áttérés után 5 hét bites karaktert kezdett egy szóba helyezni (1 bit maradt felesleges) vagy 4 Ninebitant karakter.

Az ASCII kódokat a programozás alatt álló kulcs meghatározására is használják. A standard QWERTY billentyűzethez a kódasztal így néz ki:

Sok karakter, amellyel a szöveg íródott, hívott Ábécé.

Az ábécé karakterek száma az erő.

Az információk számának meghatározásához szükséges képlet: N \u003d 2 b,

ahol n az ábécé hatalma (a karakterek száma),

b - A bitek száma (szimbóluminformáció).

Az ábécé 256 karakteres teljesítményű, szinte minden szükséges karaktert elhelyezhet. Az ilyen ábécét hívják elegendő.

Mivel 256 \u003d 2 8, majd súlya 1 szimbólum - 8 bit.

Mérési egység 8 bit megfelelő név 1 byte:

1 byte \u003d 8 bit.

Az egyes szimbólumok bináris kódja a számítógépes szövegben 1 memória bájtot tartalmaz.

Milyen módon jelenik meg a szöveges információk a számítógép memóriájában?

A túlszárnyaló szimbólumkódolás kényelme nyilvánvaló, mert a bájtok - a memória legkisebb címezhető része, és ezért a processzor külön-külön hivatkozhat a szövegfeldolgozás végrehajtásával. Másrészt 256 karakter elég ahhoz, hogy képviselje a legváltozatosabb szimbolikus információkat.

Most felmerül a kérdés, hogy melyik nyolc bites bináris kód, hogy összhangban legyen az egyes szimbólumokkal.

Nyilvánvaló, hogy ez egy feltételes kérdés, sok kódolási módszerrel jöhet létre.

A számítógép ábécé összes szimbóluma 0 és 255 között számozott. Nyolc bites minden egyes szám. bináris kód 00000000-tól 11111111-ig. Ez a kód egyszerűen a bináris számrendszer szimbólumának sorszáma.

Az a táblázat, amelyben a számítógép ábécé összes karakterét a szekvenciaszámok betartásával végezzük, a kódolási táblázatnak nevezik.

-Ért különböző típusok Az EUM különböző kódolási táblákat használ.

A PC nemzetközi szabványa asztalává vált ASCII.(Aski olvasása) (American Standard Code for information Exchange).

Az ASCII-kód táblázat két részre oszlik.

A nemzetközi szabvány csak az asztal első felében, azaz Szimbólumok számokkal 0 (00000000), korábban 127 (01111111).

ASCII kódolási táblázatszerkezet

Sorozatszám

A kód

Szimbólum

0 - 31

00000000 - 00011111

A 0-31-es számú szimbólumokat vezetőknek nevezik.
Funkciójuk az, hogy szabályozzák a szöveg megjelenítésének folyamatát a képernyőn vagy nyomtatás, a hangjel, a szövegjelzés stb.

32 - 127

00100000 - 01111111

A táblázat szabványos része (angol). Ez magában foglalja a latin ábécé kis- és nagybetűit, decimális számokat, írásjeleket, mindenféle zárójeleket, kereskedelmi és egyéb karaktert.
Szimbólum 32 - Space, I.E. Üres pozíció a szövegben.
Minden másot bizonyos jelek tükrözik.

128 - 255

10000000 - 11111111

Az asztal alternatív része (orosz).
Az ASCII-kód táblázat második felében a kódoldalt (128 kódot, 10 000 000-et kezdve, és 11111111 véget ér), különböző lehetőségek lehetnek, minden egyes lehetőségnek saját száma van.
A kódoldalt elsősorban a latinon kívüli nemzeti ábécék befogadására használják. Az orosz nemzeti kódolásoknál az orosz ábécé szimbólumait az asztal ezen részébe helyezik.

Az ASCII kódok első felében


Felhívom a figyelmet arra a tényre, hogy a betű kódolásának táblázata (nagybetűk és kisbetűk) ábécé sorrendben van elrendezve, és a számokat az értékek növelésével rendezik. A szimbólumok elrendezésében a lexikográfiai sorrendben való ragaszkodás az ábécé szekvenciális kódolásának elvét jelenti.

Az orosz ábécé betűire a soros kódolás elvét is megfigyelik.

Az ASCII kódok második felét táblázat


Sajnos jelenleg öt különböző cirill kódolása van (KOI8-P, Windows. MS-DOS, Macintosh és ISO). Emiatt a problémák gyakran felmerülnek az orosz szöveg átadásával egy számítógépről a másikra szoftverrendszer másiknak.

Az orosz betűk kódolási orosz betűinek kronológiai szintje KOI8 volt ("Információs csere-kód, 8 bites"). Ezt a kódolást az EU EU-sorozatának számítógépén lévő 70-es években használták, és a 80-as évek közepétől az UNIX operációs rendszer első Russified verzióiban kezdték használni.

A 90-es évek elejétől kezdve az MS DOS operációs rendszer dominációjának időpontja, a CP866 kódolási maradványok ("CP": "kódlap", "kódlap").

A Mac OS operációs rendszert futtató Apple számítógépek saját MAC kódolását használják.

Ezenkívül a Nemzetközi Szabványügyi Szervezet, ISO) jóváhagyott egy másik kódolást az ISO 8859-5 néven, mint az orosz nyelv számára.

A leggyakoribb jelenleg kódol. Microsoft Windows.a CP1251 csökkentésével jelölt.

A 90-es évek vége óta a szimbólumkódolás szabványosításának problémája megoldódik egy új nemzetközi szabvány bevezetése Unicode.. Ez egy 16 bites kódolás, azaz Benne minden szimbólum 2 bájtot kap. Természetesen a memória mennyisége 2-szer elfoglalt. De ez a kód táblázat lehetővé teszi legfeljebb 65536 karakter engedélyezését. A Unicode szabvány teljes specifikációja magában foglalja a világ összes létező, kihalt és mesterségesen létrehozott ábécéit, valamint számos matematikai, zenei, kémiai és más szimbólumot.

Próbáljuk meg használni az ASCII táblát, hogy elképzelhessük, hogy a szavak hogyan fognak megjelenni a számítógép memóriájába.

Belső szó nézet a számítógépes memóriában

Néha előfordul, hogy a szöveg, amely a betűk az orosz ábécé nyert egy másik számítógépen, nem lehet olvasni - néhány „abrakadabra” lehet látható a képernyőn. Ez történik, mert a számítógépek különböző kódolást használnak az orosz nyelv szimbólumainak.

DECEMBER Hex. Szimbólum DECEMBER Hex. Szimbólum
000 00 szakember. NOP. 128 80 Ђ
001 01 szakember. Soh. 129 81 Ѓ
002 02 szakember. STX. 130 82
003 03 szakember. ETX 131 83 ѓ
004 04 szakember. EOT. 132 84
005 05 szakember. Q 133 85
006 06 szakember. Ack. 134 86
007 07 szakember. Bel. 135 87
008 08 szakember. BS. 136 88
009 09 szakember. Tab. 137 89
010 0a.szakember. Lf. 138 8a.Љ
011 0b.szakember. Vt. 139 8b.‹ ‹
012 0c.szakember. FF. 140 8c.Њ
013 0d.szakember. Cr 141 8 D.Ќ
014 0e.szakember. ÍGY. 142 8e.Ћ
015 0f.szakember. Si 143 8f.Џ
016 10 szakember. Dle. 144 90 ђ
017 11 szakember. Dc1 145 91
018 12 szakember. DC2. 146 92
019 13 szakember. Dc3 147 93
020 14 szakember. DC4. 148 94
021 15 szakember. Nak. 149 95
022 16 szakember. Szin. 150 96
023 17 szakember. ETB. 151 97
024 18 szakember. TUD 152 98
025 19 szakember. EM. 153 99
026 1a.szakember. Alatti. 154 9a.љ
027 1b.szakember. KILÉPÉS 155 9b.
028 1c.szakember. Fs. 156 9c.њ
029 1d.szakember. GS. 157 9d.ќ
030 1e.szakember. Rs. 158 9e.ћ
031 1f.szakember. MINKET. 159 9f.џ
032 20 csésze. SP (hely) 160 A0.
033 21 ! 161 A1. Ў
034 22 " 162 A2.ў
035 23 # 163 A3.Ћ
036 24 $ 164 A4.¤
037 25 % 165 A5.Ґ
038 26 & 166 A6.¦
039 27 " 167 A7.§
040 28 ( 168 A8.E.
041 29 ) 169 A9.©
042 2a.* 170 AA.Є
043 2b.+ 171 Abszolút«
044 2c., 172 Vált¬
045 2d.- 173 HIRDETÉS­
046 2e.. 174 Ám®
047 2f./ 175 AFЇ
048 30 0 176 B0.°
049 31 1 177 B1.±
050 32 2 178 B2.І
051 33 3 179 B3.і
052 34 4 180 B4.ґ
053 35 5 181 B5.µ
054 36 6 182 B6.
055 37 7 183 B7.·
056 38 8 184 B8.e.
057 39 9 185 B9.
058 3A: 186 Ba.є
059 3b.; 187 Bb.»
060 3c.< 188 IDŐSZÁMÍTÁSUNK ELŐTT.ј
061 3D-s= 189 Bd.Ѕ
062 3e.> 190 LENNI.ѕ
063 3f.? 191 Bf.ї
064 40 @ 192 C0. DE
065 41 A. 193 C1. B.
066 42 B. 194 C2. BAN BEN
067 43 C. 195 C3. G.
068 44 D. 196 C4. D.
069 45 E. 197 C5. E.
070 46 F. 198 C6. J.
071 47 G. 199 C7 Z.
072 48 H. 200 C8. ÉS
073 49 ÉN. 201 C9. J.
074 4a.J. 202 Kb. NAK NEK
075 4b.K. 203 Cb. L.
076 4c.L. 204 Cc. M.
077 4d.M. 205 CD N.
078 4e.N. 206 Ce RÓL RŐL
079 4f.O. 207 Vö. P
080 50 P. 208 D0 R
081 51 Q. 209 D1 TÓL TŐL
082 52 R. 210 D2. T.
083 53 S. 211 D3. W.
084 54 T. 212 D4. F.
085 55 U. 213 D5. H.
086 56 V. 214 D6. C.
087 57 W. 215 D7 C.
088 58 X. 216 D8. SH
089 59 Y. 217 D9 SH
090 5aZ. 218 Da Kommesszant
091 5b.[ 219 Db S
092 5c.\ 220 Dc B
093 5d.] 221 Dd. E.
094 5e.^ 222 De. Yu
095 5f._ 223 Df. én
096 60 ` 224 E0 de
097 61 a. 225 E1 b.
098 62 b. 226 E2. ban ben
099 63 c. 227 E3. g.
100 64 d. 228 E4. d.
101 65 e. 229 E5 e.
102 66 f. 230 E6. j.
103 67 g. 231 E7. z.
104 68 h. 232 E8. és
105 69 ÉN. 233 E9. j.
106 6Aj. 234 Ea. nak nek
107 6b.k. 235 Eb. l.
108 6c.l. 236 EK m.
109 6d.m. 237 Ed n.
110 6e.n. 238 Ee ról ről
111 6f.o. 239 EF. p
112 70 p. 240 F0. r
113 71 q. 241 F1 tól től
114 72 r. 242 F2. t.
115 73 s. 243 F3. w.
116 74 t. 244 F4. f.
117 75 u. 245 F5. h.
118 76 v. 246 F6 c.
119 77 w. 247 F7. c.
120 78 x. 248 F8. sH
121 79 y. 249 F9. sH
122 7a.z. 250 Fa. kommesszant
123 7b.{ 251 Fb. s
124 7c.| 252 FC. b
125 7d.} 253 Fd. e.
126 7e.~ 254 Fe. yu
127 7f.Szakember. Del. 255 FF. én

ASCII Windows szimbólumok asztal.
Különleges (kezelési) karakterek leírása

Meg kell jegyezni, hogy az ASCII táblázat kezdetben ellenőrző szimbólumait használták a telethip-adatok cseréjének biztosítására, az adatbevitelt szúráshoz és a külső eszközök legegyszerűbb kezeléséhez.
Jelenleg a menedzserek többsége aSCII szimbólumok. A táblák már nem hordozzák ezt a terhelést, és más célokra is használhatók.
A kód Leírás
Nul, 00.Null, üres
Soh, 01.A fejléc kezdete, a fejléc elindítása
STX, 02.A szöveg kezdete, a szöveg kezdete.
Etx, 03. A szöveg vége, vége szöveg
EOT, 04.Az átvitel vége, az átadás vége
Enq, 05.Érdeklődik. Kérem erősítse meg
Ack, 06.Elismerés. Kijelentem
Bel, 07.Harang, harang
BS, 08.Backspace, térjen vissza egy karakterre
Tab, 09.Tab, vízszintes táblázat
Lf, 0a.Line feed, sorfordítás.
Most a legtöbb programozási nyelven jelezve \\ n
Vt, 0b.Függőleges fül, függőleges fül.
FF, 0C.Űrlap feed, oldalút, új oldal
CR, 0D.Carriage Visszatérés, Visszatérés Carets.
Most a legtöbb programozási nyelven a
Így, 0e. Shift out, változtassa meg a színező szalag színét a nyomdagépben
Si, 0f. Shift in, tegye vissza a színező szalag színét a nyomtatási eszközön
DLE, 10. Adatkapcsolat menekülés, átkapcsolás csatorna az adatátvitelhez
DC1, 11.
DC2, 12.
DC3, 13.
DC4, 14.
Eszközvezérlés, eszközkezelő szimbólumok
NAK, 15.Negatív nyugtázás, ne erősítse meg.
SYN, 16.Szinkronizálás. Szinkronizálás szimbólum
Etb, 17.A szövegblokk vége, a szövegblokk vége
18.Mégse, törölve továbbítva
Em, 19.A tápközeg vége, az adathordozó vége
1a.Helyettesítő, helyettesítő. A szimbólum helyén helyezkedik el, amelynek értéke elveszett vagy elrontott volt az átvitel során
Esc, 1b.Escape Control szekvencia
FS, 1C.File Separator, fájlelválasztó
Gs, 1d.Csoportos elválasztó, csoportos elválasztó
Rs, 1e.Rekord elválasztó, rekord elválasztó
US, 1F.Egység elválasztó, egység elválasztó
Del, 7f.Törölje, törölje az utolsó szimbólumot.

[8 bites kódolások: ASCII, KOI-8R és CP1251] Az Egyesült Államokban létrehozott első kódolási táblák nem használták a nyolcadik bitet a pate-ban. A szöveget bájtsorozatokként mutatták be, de a nyolcadik bitet nem vették figyelembe (hivatalos célokra alkalmazták).

A táblázat általában elfogadott szabványsá vált. ASCII. Amerikai szabványkód információcsere számára). Az első 32 ASCII asztali szimbólumokat (00-tól 1f) használtuk nem nyomtatható karakterekhez. Úgy tervezték, hogy szabályozzák a nyomtatási eszközt stb. A többi 20-7F - a szokásos (nyomtatott) karakterek.

1. táblázat - ASCII kódolás

DECEMBERHex.októberChar.Leírás.
0 0 000 nULLA
1 1 001 a fejléc kezdete.
2 2 002 szöveg kezdete.
3 3 003 a szöveg vége.
4 4 004 az átvitel vége.
5 5 005 vizsgálat.
6 6 006 elismerni.
7 7 007 harang.
8 8 010 backspace.
9 9 011 vízszintes fül.
10 A. 012 ÚJ SOR
11 B. 013 függőleges fül.
12 C. 014 Új oldal
13 D. 015 carriage visszatérés.
14 E. 016 eltolódjon.
15 F. 017 váltás.
16 10 020 adatkapcsolat menekülés.
17 11 021 eszközvezérlés 1.
18 12 022 eszközszabályzó 2.
19 13 023 eszközvezérlés 3.
20 14 024 eszközszabályzó 4.
21 15 025 negatív elismerés.
22 16 026 szinkron tétlen
23 17 027 a TRANS vége. Blokk
24 18 030 megszünteti
25 19 031 a közeg vége.
26 1a. 032 helyettes.
27 1b. 033 menekülni.
28 1c. 034 fájlelválasztó.
29 1d. 035 csoportos elválasztó.
30 1e. 036 record elválasztó.
31 1f. 037 egység elválasztó.
32 20 040 tér.
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2a. 052 *
43 2b. 053 +
44 2c. 054 ,
45 2d. 055 -
46 2e. 056 .
47 2f. 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3b. 073 ;
60 3c. 074 <
61 3D-s 075 =
62 3e. 076 >
63 3f. 077 ?
DECEMBERHex.októberChar.
64 40 100 @
65 41 101 A.
66 42 102 B.
67 43 103 C.
68 44 104 D.
69 45 105 E.
70 46 106 F.
71 47 107 G.
72 48 110 H.
73 49 111 ÉN.
74 4a. 112 J.
75 4b. 113 K.
76 4c. 114 L.
77 4d. 115 M.
78 4e. 116 N.
79 4f. 117 O.
80 50 120 P.
81 51 121 Q.
82 52 122 R.
83 53 123 S.
84 54 124 T.
85 55 125 U.
86 56 126 V.
87 57 127 W.
88 58 130 X.
89 59 131 Y.
90 5a 132 Z.
91 5b. 133 [
92 5c. 134 \
93 5d. 135 ]
94 5e. 136 ^
95 5f. 137 _
96 60 140 `
97 61 141 a.
98 62 142 b.
99 63 143 c.
100 64 144 d.
101 65 145 e.
102 66 146 f.
103 67 147 g.
104 68 150 h.
105 69 151 ÉN.
106 6A 152 j.
107 6b. 153 k.
108 6c. 154 l.
109 6d. 155 m.
110 6e. 156 n.
111 6f. 157 o.
112 70 160 p.
113 71 161 q.
114 72 162 r.
115 73 163 s.
116 74 164 t.
117 75 165 u.
118 76 166 v.
119 77 167 w.
120 78 170 x.
121 79 171 y.
122 7a. 172 z.
123 7b. 173 {
124 7c. 174 |
125 7d. 175 }
126 7e. 176 ~
127 7f. 177 Del.

Könnyen észrevehető, hogy csak latin betűk kerülnek bemutatásra ebben a kódolásban, és azok, amelyeket angolul használnak. Vannak aritmetikai és egyéb szolgáltatási karakterek is. De nincsenek orosz betűk, sem különleges latin német vagy francia. Könnyen megmagyarázható - a kódolást amerikai szabványként fejlesztették ki. Amikor a számítógépek kezdtek alkalmazni az egész világon, szükség volt más karakterek kódolására.

Ehhez úgy döntöttek, hogy minden egyes pate nyolcadik bitet használnak. Így 128 további érték állt rendelkezésre (80-tól FF-ig), amely a karakterek kódolására használható. A nyolc bites táblák közül az első a "fejlett ASCII" ( Kiterjesztett ASCII.) - A nyugat-európai nyelveken használt latin karakterek különböző változatait tartalmazta. Más további karakterekkel is rendelkezett, beleértve a pszeudográfiát is.

A pseudográfiai karakterek lehetővé teszik, hogy csak szövegszimbólumokat jelenítsen meg a képernyőn, bizonyos hasonlósági grafikát biztosítson. Pseudográfia segítségével, például a távoli menedzser fájlok kezelésére szolgáló program.

Az orosz betűk a kiterjesztett ASCII asztalban nem voltak. Oroszországban (korábban - az USSR) és más államokban a kódolásaikat létrehozták, lehetővé téve a konkrét "nemzeti" szimbólumokat 8 bites szövegfájlokba - a lengyel és cseh nyelvek latin betűjei, cirill (beleértve az orosz betűket is) és más ábécéket .

Minden olyan kódolásban, amely megkapta az eloszlást, az első 127 karaktert (azaz a bájtok közül nyolc bites értékeket) egybeesnek az ASCII-val. Így az ASCII fájl ezen kódolások bármelyikében működik; Betűk angol nyelvű Ugyanúgy képviselik őket.

Szervezet ISO. Nemzetközi szabványosítási szervezet - Nemzetközi szabványügyi szervezet) Elfogadta a szabványok csoportját ISO 8859.. 8 bites kódolást határoz meg különböző csoportok nyelvek. Tehát az ISO 8859-1 egy kiterjesztett ASCII, asztal az USA és Nyugat-Európa számára. És ISO 8859-5 - asztal cirill (beleértve az orosz).

Azonban történelmi okokból ISO 8859-5 kódolás nem illeszkedik. Tényleg a következő kódolásokat használják az orosz nyelvre:

Kód 866. oldal ( CP866.), ő "dos", ez "alternatív gost kódolás". A 90-es évek közepéig széles körben használták; Most már korlátozott. Gyakorlatilag nem vonatkozik az interneten lévő szövegek terjesztésére.
- KOI-8. A 70-es és 1980-as években alakult ki. Ez egy általánosan elfogadott szabvány az e-mail üzenetek küldésére az orosz interneten. Széles körben használják operációs rendszer UNIX család, beleértve a Linuxot is. Opció KOI-8, az oroszul számított, hívott KOI-8R.; Vannak változatok más cirill nyelvek (így, a koi8-u opció az ukrán nyelv számára).
- kód 1251. oldal, Cp1251, Windows-1251. A Microsoft által kifejlesztett, hogy támogassa az orosz nyelvt a Windows rendszerben.

A CP866 fő előnye az volt, hogy megőrizze a pszeudográfiai karaktereket ugyanabban a helyeken, mint a kiterjesztett ASCII; Ezért nem lehet a tengerentúli munkahelyi munka szöveges programokPéldául a híres Norton parancsnok. Most a CP866-ot a szöveges Windows vagy a teljes képernyős szöveges módban futó Windows programokhoz használják, beleértve a távoli menedzsert is.

A CP866 szövegei az elmúlt években nagyon ritkák (de az orosz fájlnevek kódolására szolgál). Ezért két másik kódolást fogunk lakni - KOI-8R és CP1251.



Amint láthatja, a CP1251 kódolási táblázatban az orosz betűk ábécé sorrendben vannak elrendezve (kivéve azonban az e betűket). Ennek a helynek köszönhetően számítógépes programok Nagyon könnyű rendezni betűrendben.

De KOI-8R-ben, az orosz levelek sorrendje véletlenszerűnek tűnik. De valójában nem.

Számos régi programban a 8. bit elvesztette a szöveg feldolgozása vagy átadása során. (Most az ilyen programok gyakorlatilag "kihaltak", de a 80-as évek végén - 90-es évek elején elterjedtek). Ahhoz, hogy egy 7 bites értéket kapjon egy 8 bites értéktől, elég ahhoz, hogy elvegye a 8-as idősebb ábrát; Például az E1 61-re fordul.

És hasonlítsa össze a KOI-8R-t az ASCII táblával (1. táblázat). Meg fogja találni, hogy az orosz betűk egyértelműen megfelelnek a latinul. Ha a nyolcadik bit eltűnik, a kisbetűs orosz betűk a latin és a tőke oroszok a kisbetűs latin. Tehát E1 a KOI-8-ban az orosz "A", míg 61 ASCII - latin "A".

Tehát a KOI-8 lehetővé teszi, hogy fenntartsa az orosz szöveg olvashatóságát a 8. bitek elvesztésével. A "Hello mindenki" "priwet Wsem" -be fordul.

A közelmúltban a kódolási táblázatban lévő szimbólumok ábécé sorrendje, valamint a 8. bit elvesztett veszteségével elvesztette a döntő fontosságot. Nyolcadik bit B. modern számítógépek Az átvitel vagy a feldolgozás során nem veszik el. És a rendezés betűrendben történik, figyelembe véve a kódolást, és nem egyszerű összehasonlítást a kódok. (Egyébként a CP1251 kódok nem teljesen betűrendben vannak - a levél ё nincs a helyén).

Azzal a ténynek köszönhetően, hogy két közös kódolás kettő, az interneten való együttműködés során (mail, weboldalak megtekintése), néha lehetséges, hogy egy értelmetlen betűket láthatunk orosz szöveg helyett. Például: "Fedezni fogok." Ezek csak a "tisztelettel" szavak; De a CP1251 kódolóban kódolták őket, és a számítógép dekódolta a szöveget a Koo-8 asztalon. Ha ugyanazok a szavak voltak, éppen ellenkezőleg, kódolva van a Koo-8-ban, és a számítógép dekódolta a szöveget a CP1251 táblázatban, az eredmény "a HCHBCEIEN" lesz.

Néha előfordul, hogy a számítógép dekódolja az orosz nyelvű betűket, és egyáltalán egy olyan asztalon, amely nem az orosz nyelv számára készült. Ezután az orosz betűk helyett egy értelmetlen karaktersorozat jelenik meg (például a kelet-európai nyelvű latin betűk); Gyakran "krokaimereknek" nevezik.

A legtöbb esetben a modern programok az internetes dokumentum kódolásainak meghatározásával ( email és weboldalak) önmagukban. De néha "bajba kerülnek", akkor láthatjuk az orosz betűk furcsa szekvenciáit, vagy "krokémátus". Rendszerben, egy ilyen helyzetben, hogy megjelenítse ezt a szöveget, elegendő kiválasztani a kódolást manuálisan a program menüben.

A cikkhez az oldalt http://open-office.edusite.ru/textProcessor/p5aa1.html használták.

Az anyagot az oldalról vesszük: