Az ASCII-kód szabványos része. ASCII kódolás (amerikai szabványos kód az információcsere számára) - Alapvető latiza szövegkódolás
Helló, kedves blogolvasók honlapja. Ma beszélünk veled arról, hogy a Krakoyarbra a programokból származik, mely szövegkódolások léteznek, és melyiküket kell használni. Tekintsük részletesen a fejlődésük történetét, az alapvető ASCII-tól kezdve, valamint a CP866, a KOI8-R, a Windows 1251 kiterjesztett verziói, és végződnek az UNICODE UTF 16 és 8 konzorcium modern kódjaival.
Valaki Ez az információ feleslegesnek tűnhet, de tudnád, hogy mennyi kérdésre jut el nekem pontosan a repedésekre (nem olvasott egy karakterkészletet). Most lesz lehetőségem arra, hogy mindenkit elküldjek e cikk szövegére, és önállóan keressük meg a cipzárakat. Nos, készen áll arra, hogy elnyelje az információt, és próbálja meg nyomon követni az elbeszélést.
ASCII - Alapvető latiza szövegkódolás
A szövegkódolás fejlesztése egyidejűleg fordul elő az informatikai ipar képződésével, és ebben az időben ideje volt, hogy néhány változást végezzen. Történelmileg mindannyian meglehetősen ártalmas az EBCDIC kiejtésének meglehetősen ártalmasnak, ami lehetővé tette a latin ábécé betűket, az arab számokat és az írásjeleket vezérlő szimbólumokkal.
De még mindig a modern szöveges kódolások kidolgozásának kiindulópontját híresnek kell tekinteni ASCII. (Amerikai standard kód az információcsere számára, amely oroszul általában "Aski"). Ez leírja az első 128 karaktert a leggyakrabban használt angolul beszélő felhasználóktól - latin betűk, arab számok és írásjelek.
Még az ASCII-ban leírt 128 karakterben is egyes szolgáltatási szimbólumokat zárójelek, rácsok, csillagok stb. Valójában te magad láthatod őket:
Ez az 128 karakter az ASCII kezdeti verziójától a szabványosság lett, és bármely más kódolásban biztosan találkozik és álljon, hogy ilyen módon lesznek.
De az a tény, hogy az információ egy bájt segítségével nem 128, de akár 256 különböző érték (kettő a nyolc fokig 256), így utána alapváltozat Asi számos megjelent fejlett kódolások ASCIIA legfontosabb jelek mellett a nemzeti kódoló szimbólumok (például orosz) is kódolhatók.
Itt valószínűleg érdemes egy kicsit többet a leírásban használt számrendszerről. Először is, ahogy mindent tudsz, a számítógép csak a bináris rendszerben lévő számokkal működik, nevezetesen a nullákkal és egységekkel ("Boulev algebra", ha valaki az intézetben vagy az iskolában tartja). Amelyek mindegyike a diplomától függ, nullától kezdve, és a hetedik helyen:
Nem nehéz megérteni, hogy a nullák és egységek összes lehetséges kombinációja ilyen formában csak 256. Fordítja a számot a bináris rendszerből decimális értéken. Szükséges egyszerűen össze kell hajtogatnia az összes, az egyik standot.
Példánkban az 1-et (2-et a nulla mértékig), plusz 8-ra (két-fokig 3-ig), plusz 32 (kétszer az ötödik fokozatban), plusz 64 (a hatodik), plusz 128-ban (a hetedikben) . Összesen 233-at kap egy decimális számrendszerben. Amint láthatod, minden nagyon egyszerű.
De ha az ASCII karakterekkel rendelkező asztalra nézel, látni fogja, hogy hexadecimális kódolásban kerülnek bemutatásra. Például az "Asterisk" megfelel a hexadecimális 2a-szám paradicsomának. Valószínűleg tudod, hogy egy hexadecimális számrendszerben a hexadecimális számrendszerben (átlagos tíz) -val (átlagos) -val latin betűket használnak.
Nos, így Átruházás bináris számok Hexadecimális Resed a következő egyszerű és vizuális módon. Minden egyes bájt két részből két részből áll, amint azt a fenti képernyőkép mutatja. Így A bájt minden felében a bináris kód csak tizenhat értékre lehet kódolni (kettő a negyedik fokozatban), amely könnyen képviselhető hexadecimális.
Ráadásul a bájt bal felében újra meg kell vizsgálni a nullától, és nem a képernyőképen látható módon. Ennek eredményeként, nem jó számítástechnikával megkapjuk, hogy az E9 számot a képernyőképen kódolja. Remélem, hogy az érvelésem és a rebus megszilárdulása érthető volt. Nos, most folytatjuk, ténylegesen beszélünk a szövegkódolásról.
Az Aski - CP866 és a KOI8-R kiterjesztett verziói pszeudográf segítségével kódolva
Tehát elkezdtünk beszélni az ASCII-ről, ami olyan volt, mint egy kiindulópont az összes modern kódolás (Windows 1251, Unicode, UTF 8) fejlesztéséhez.
Kezdetben csak a latin ábécé, az arab számok és valami más 128 jelét helyezték el, de a kiterjesztett verzióban minden 256 értéket lehetett használni, amelyek egy pateinformációban kódolhatók. Azok. Lehetőség arra, hogy a nyelvének levelei szimbólumait adjon.
Itt van szükség arra, hogy ismét megzavarják -uk, hogy tisztázzák - miért van szüksége kódolásra Szövegek és miért olyan fontos. A számítógép képernyőjén lévő karakterek két dolog alapján vannak kialakítva - mindenféle karakterből álló vektorformák (ábrázolások) és a kódok, amelyek lehetővé teszik, hogy kihúzza ezt a vektoros formákat ( betűtípus fájl) Ez a karakter a megfelelő helyre kerül.
Nyilvánvaló, hogy a betűtípusok felelősek a vektorformákért, de az operációs rendszer és programok a kódolásért felelősek. Azok. A számítógépen lévő bármely szöveg a bájtok sorai lesznek, amelyek közül a szöveg egyetlen szimbóluma kódolva van.
A képernyőn megjelenő program (szövegszerkesztő, böngésző, stb.) A kód elemzése során elolvassa a következő jel kódolását, és keresi a megfelelő vektor űrlapot a kívánt fájl A szöveges dokumentum megjelenítéséhez csatlakoztatott betűtípus. Minden egyszerű és trite.
Tehát, hogy kódolja a szükséges szimbólumot (például a nemzeti ábécéből), két körülménynek kell kitöltenie - ennek a jelnek a vektorformát a használt betűtípusban kell, és ezt a szimbólumot a kiterjesztett ASCII kódokba kódolhatjuk egy bájtba . Ezért van egy csomó ilyen lehetőség. Csak az orosz nyelv szimbólumainak kódolására számos kiterjesztett szamár van.
Például kezdetben megjelent CP866.Amelyben az orosz ábécé szimbólumainak használata volt, és az ASCII kiterjesztett változata volt.
Azok. A felső rész teljesen egybeesett az ASA (128 latin szimbólum, számok és bárki más) alapversenyével, amelyet a képernyőképen egy kicsit magasabb, de már alsó rész A CP866 kódoló táblázatok a képernyőképben kissé alacsonyabbak voltak, és megengedték, hogy egy további 128 karaktert (orosz betűk és minden pszeudográfiai) kódoljanak:
Nézze meg, a jobb oldali oszlopban a számok 8-mal kezdődnek, mert A 0 és 7 közötti számok az ASCII alaprészére vonatkoznak (lásd az első képernyőképet). Így Az orosz "M" betű a CP866-ban a 9c kóddal rendelkezik (a megfelelő sorok metszéspontja 9 és az oszlop a C számmal egy hexadecimális számrendszerben), amely egy bájtos információban írható, és ha Van egy megfelelő betűtípus az orosz karakterekkel, ez a levél probléma nélkül jelenik meg a szövegben.
Honnan jött ez a mennyiség pseudographers a CP866-ban.? Mindezek az a tény, hogy az orosz szöveghez való kódolást ezeken a fényes években fejlesztették ki, amikor most már nem volt ilyen grafikus operációs rendszerek elosztása. És a DOSS, és a hasonló szöveges műveletek, a pszeudográfia lehetővé tette, hogy legalább valahogy diverzifikálja a szövegek tervezését, és ezért bővelkedik a CP866-val és az összes többi sorával az Aska kiterjesztett változatainak kibocsátásával.
CP866 elosztott IBM cég, de ezen felül számos kódolás fejlesztettek ki szimbólumok az orosz nyelv, például az azonos típusú (kiterjesztett ASCII) tudható Koi8-r.:
Munkájának elve ugyanúgy maradt, mint a később leírt CP866 - minden egyes szövegszimbólumot egyetlen bájt kódol. A képernyőkép a Koi8-R asztal második felét mutatja, mert Az első félidő teljes mértékben összhangban van az ASUS bázissal, amely az első képernyőképen jelenik meg ebben a cikkben.
A KOI8-R kódolás jellemzői között megjegyezhető, hogy az asztalban lévő orosz betűk nem ábécé sorrendben vannak, például például a CP866-ban készültek.
Ha megnézed az első képernyőképet (alaprész, amely az összes kiterjesztett kódolásba lép), akkor észrevétszik, hogy a KOI8-R-ben az orosz betűk az asztal ugyanazon tábláiban helyezkednek el, mint a latin ábécé betűit az első részből az asztal. Ezt azért végezték, hogy az orosz szimbólumok latinba váltak, csak egy kicsit eldobva (kettő a hetedik fokozatban vagy 128-ban).
Windows 1251 - az ASCII modern változata, és miért jutnak ki a Crackelek
A szövegkódolások továbbfejlesztése annak a ténynek köszönhető, hogy a grafikus operációs rendszerek és a pszeudográfiák használatának szükségessége népszerű volt. Ennek eredményeképpen egy egész csoport merült fel, amely lényegében még mindig fejlett verziók voltak az Asi (egy szöveges szimbólum kódolva csak egy elvékonyabb információval), de pszeudográfiai karakterek használata nélkül.
Az úgynevezett ANSI kódolást kezelték, amelyet az Amerikai Szabványügyi Intézet fejlesztett ki. A cirill nevét még mindig használták az orosz nyelv támogatásával. Példa egy ilyen példára.
A korábban használt CP866 és KOI8-R-tól eltérően különbözött, mivel a pszeudográfiai karakterek helye az orosz tipográfia (a csökkenő jel) hiányzó szimbólumait, valamint az orosz szlávhoz használt szimbólumokat, valamint az orosz szlávhoz használt szimbólumokat Nyelvek (ukrán, fehérorosz stb.):
Az orosz nyelv kódolása, a betűtípusok és gyártók gyártói miatt szoftver Folyamatosan felmerült egy fejfájást, és veled, kedves olvasók, gyakran megkapták azokat a leghíresebbek krakoyabryAmikor a zavart a szövegben használt verzió tanították.
Nagyon gyakran kijöttek, amikor üzeneteket küldtek és fogadtak emailMi okozta a nagyon összetett átkódoló asztalok létrehozását, amelyek valójában nem tudták megoldani ezt a problémát a gyökérben, és gyakran a levelezésre használt felhasználókat arra használták, hogy elkerüljék a hírhedt krakozyabokat, amikor ilyen CP866, KOI8-R vagy Windows 1251 orosz kódolásait alkalmazzák.
Lényegében, Krakoyarbra, az orosz szöveg helyett a kódolás helytelen használatának eredménye volt ebből a nyelvbőlamely nem felel meg azzal, amelyben a szöveges üzenetet eredetileg kódolták.
Tegyük fel, hogy a CP866-mal kódolt szimbólumok, próbáld meg megjeleníteni a Windows 1251 kódtáblázat használatával, majd ezek a leginkább repedt (értelmetlen karakterkészlet) és kijutni, teljesen cserélve az üzenet szövegét.
Hasonló helyzet nagyon gyakran előfordul, fórumok vagy blogok, amikor az orosz karakterekkel való szöveg nem kerül mentésre az alapértelmezett webhelyen, vagy sem abban szöveg szerkesztőamely hozzáadódik a Sebestin kódhoz, amely nem látható szabad szemmel.
Végül, egy ilyen helyzet sok kódolással és folyamatosan feltérképező darubrramokkal, sok fáradt, előfeltételek voltak egy új univerzális változás létrehozásának, amely felváltotta volna az összes meglévő és megoldotta, végül a probléma gyökerére a nem olvasható szövegek. Ráadásul a hasonló kínai nyelvek problémája volt, ahol a nyelv szimbólumai sokkal többek voltak, mint 256.
Unicode (Unicode) - Univerzális kódok UTF 8, 16 és 32
A Délkelet-Ázsia nyelvi csoportjának több ezer jeleit nem lehetett leírni egy olyan papeinformációban, amelyet a fejlett ASCII változatok karaktereinek kódolására osztottak ki. Ennek eredményeként létrejött egy konzorciumot Unicode (Unicode - Unicode konzorcium) az ipar sok informatikai vezetőinek együttműködésében (azok, akik olyan szoftvert hoznak létre, amely vasalatokat kódol, aki betűtípusokat hoz létre), akik érdeklődtek egy univerzális szövegkódolás megjelenésében.
Az Unicode konzorcium égisze alatt közzétett első változat volt UTF 32.. A kódolás nevének számjegye azt jelenti, hogy az egyik szimbólum kódolására használt bitek száma. A 32 bitek 4 bájtos információt tartalmaznak, amelyekre szükségünk lesz az új univerzális UTF kódolásra.
Ennek eredményeként ugyanaz a fájl az ASCII és az UTF-32 kiterjesztett változatában kódolt szöveggel az utóbbi esetben négyszer nagyobb méretű (súlya). Rossz, de most lehetőségünk van arra, hogy az UTF segítségével két-harminc másodperces diplomával megegyező jelek számát kódolja ( milliárd karakterekamely minden valós értéket fogja lefedni egy kolosszális margóval).
Az európai csoporttal rendelkező országok közül azonban sok országnak ilyen hatalmas számú jele van a kódolásban, és nem volt szükség, de az UTF-32 használatakor azonban nem kaptak négyszeres növekedést A szöveges dokumentumok súlya, és ennek eredményeként az internetes forgalom és a mennyiségi tárolt adatok növekedése. Ez sokat, és senki sem engedheti meg magának az ilyen hulladékot.
A Unicode kifejlesztésének eredményeként megjelent UTF-16.amely olyan sikeres kiderült, hogy alapértelmezés szerint az összes használt karakter alapterületét fogadta el. Két bájtot használ, hogy kódoljon egy jelet. Lássuk, hogyan néz ki ez a dolog.
A Windows operációs rendszerben át tudsz haladni az út mentén "Start" - "Programok" - "Standard" - "Service" - "karakterasztal". Ennek eredményeképpen egy táblázat a betűkészleteiben telepített összes vektorformákkal nyílik meg. Ha a "További paraméterek" című részt a Unicode karakterek sorában választja, akkor minden betűtípusra külön láthatjuk, hogy a beillesztett karakterek teljes skálája.
By the way, rákattintva bármelyikükre, akkor láthatja, hogy kettő kód az UTF-16 formátumbannégy hexadecimális számjegyből áll:
Hány karaktert lehet kódolni az UTF-16-ban 16 bit használatával? 65 536 (két-tizenhat), és ezt a számot az Unicode alapterületére vették. Ezenkívül vannak olyan módok, hogy kódoljanak vele és körülbelül kétmillió karakterrel, de egy millió szöveges szimbólumban korlátozódnak.
De még ez a sikeres unicode kódolásának sikeres változata sem sok elégedettséget szenvedett azokkal, akik például csak angol nyelvű programokat írtak, mert az ASCII az UTF-16 kiterjesztett változatából való áttérés után a dokumentumok súlya kétszer nőtt (Egy bájt az egyik szimbólum az Aski és két bájt ugyanazon szimbólum UTF-16).
Ez pontosan kielégíti mindenkit, és mindenki az Unicode konzorciumban úgy döntött, hogy jön létre változó hossza kódolása. Utf-8-nak hívták. A cím nyolc ellenére valójában változó hosszúságú, vagyis van. Minden szövegszimbólumot egy-hat bájt szekvenciájába lehet kódolni.
A gyakorlatban az UTF-8 csak egy-négy bájtból származó tartományt használ, mivel semmi sem létezik még elméletileg, hogy bármit is benyújtson a kód négy bájtára. Minden latin jelet egy bájtban, valamint a régi jó ASCII-ban kódolják.
Ami figyelemre méltó, csak latin kódolás esetén még azok is, amelyek nem értik az Unicode-t, még mindig elolvassa az UTF-8 kódolását. Azok. Az Asa alapvető része egyszerűen kikapcsolta ezt az Unicode konzorciumot.
Az UTF-8-ban lévő cirill jeleket két bájtra kódolják, például Georgian - három bájtban. Az UNICODE konzorcium az UTF 16 és 8 létrehozása után a fő probléma - most már van a betűtípusokban egyetlen kódtér van. És most a gyártók csak erők és lehetőségeik alapján maradnak, hogy betöltsék a szövegszimbólumok vektorformáit. Most a készletekben is.
Az alábbi szimbólum táblázatban látható, hogy a különböző betűtípusok különböző számú karaktert támogatnak. A Unicode betűtípusok néhány szimbóluma nagyon jól mérhető. De most már nem különböztetik meg azt a tényt, hogy különböző kódolásokhoz jönnek létre, de az a tény, hogy a betűtípus gyártója töltötte be vagy nem töltötte be az egyszeri kódot a végéig.
Krakoyabry az orosz betűk helyett - hogyan kell javítani
Most nézzük meg, hogy a Crakozyabe szöveg megjelenik a szöveg helyett, vagy más szóval, hogy a helyes kódolás hogyan jelenik meg az orosz szöveghez. Valójában a programban van beállítva, amelyben létrehozza vagy szerkesztheti ezt a szöveget vagy kódot szöveges töredékekkel.
A szövegfájlok szerkesztéséhez és létrehozásához személyesen nagyon jól használom, véleményem szerint. Azonban kiemelheti a szintaxist még több száz programozási nyelv és jelölés, valamint a bővítmények bővítésével is. Olvas részletes felülvizsgálat Ez a csodálatos program a kapcsolat szerint.
A Notepad ++ felső menüben van egy "kódolási" tétel, ahol képes lesz arra, hogy egy meglévő opciót konvertáljon az alapértelmezett webhelyen:
A Joomla 1.5 és annál magasabb helyszínén, valamint a WordPress blog esetében válassza ki az opciót a Krakoyar megjelenésének elkerülése érdekében UTF 8 BOM nélkül. Mi a BOM előtag?
Az a tény, hogy amikor az ETF-16 kódolást kidolgozták, valamilyen oknál fogva úgy döntött, hogy egy ilyen dolgot rögzít, mint egy szimbólumkód rögzítésének képességét, mind a közvetlen sorrendben (például 0A15) és a fordított (150a) . És annak érdekében, hogy a programok megértsék, hogy melyik sorozat olvasási kódok, és feltalálták BOM. (BYTE megrendelésjelölés vagy más szavakkal, aláírással), amelyet három további bájt hozzáadásával fejeztek ki a dokumentumok kezdetére.
Az UTF-8 kódolásban nem volt bom az Unicode konzorciumban, ezért az aláírás hozzáadása (ezek a leghírbevallóbb további három bájt a dokumentum elejére) Néhány program egyszerűen megakadályozza a kód olvasását. Ezért mindig az UTF-ben lévő fájlok mentésekor válasszon egy opciót BOM nélkül (aláírás nélkül). Így előre van mustrázza magát a krakkolásból.
Amit figyelemre méltó, egyes programok a Windows nem tudják, hogyan kell ezt megtenni (nem tudják megtakarítani a szöveget az UTF-8-ban BOM nélkül), például ugyanaz a hírhedt notebook ablakok. A dokumentumot az UTF-8-ban menti, de még mindig hozzáadja az aláírást az elejére (három további bájt). Ráadásul ezek a bájtok mindig ugyanazok lesznek - olvassa el a kódot közvetlen sorrendben. De a szervereken, mert ez a kis dolgok, lehet, hogy probléma - Crackelek kijutnak.
Ezért semmilyen esetben sem ne használja a szokásos notebook ablakokat A webhelyének dokumentumainak szerkesztése, ha nem szeretné a Krakoyarbra megjelenését. A már említett jegyzettömb ++ szerkesztő legújabb és legkönnyebb lehetőségét tartom, amely gyakorlatilag nem rendelkezik hátrányokkal, és az egyik előnyből áll.
A Jegyzettömb ++ A kódolás kiválasztásakor képes lesz szöveget konvertálni az UCS-2 kódolásra, ami nagyon közel van a Unicode szabványhoz lényegében. Az ANSI-ben, azaz nem típusú nem típusú lehet. Az orosz nyelvre való hivatkozással ez már csak a Windows 1251 felett kerül leírásra. Hol származik ez az információ?
A műszertulajdonban a rendszerleíró adatbázisában van windows rendszerek - Milyen kódolást választhat az ANSI esetében, mit válasszon az OEM (az orosz nyelv esetében, amely CP866 lesz). Ha egy másik alapértelmezett nyelvet telepít a számítógépen, akkor ezek a kódolások az ANSI-hez vagy az OEM-kibocsátáshoz hasonlóan szerepelnek.
A Notepad ++ után mentse el a dokumentumot a kódolásban, amire szüksége van, vagy nyissa meg a dokumentumot a webhelyen szerkesztéséhez, majd a szerkesztő jobb alsó sarkában láthatja a nevét:
Krakoyarbrov elkerülése érdekébenkivéve, ha a fent leírt műveletek hasznosak lesznek a sapkájában való regisztrációhoz forráskód Az összes webhely oldal információi erről a kódolásról, hogy a szerver vagy a helyi gazda nem fordul elő.
Általánosságban elmondható, hogy a HTML-től eltérő hipertext-jelölés minden nyelvén egy speciális XML hirdetést használnak, amely meghatározza a szövegkódolást.
Mielőtt elkezdene szétszerelni a kódot, a böngésző megtudja, melyik verziót használják, és hogy pontosan hogyan kell értelmezni a nyelv karaktereinek kódolását. De amennyire figyelemre méltó, ha megmenti a dokumentumot az alapértelmezett Unicode-ban, ez az XML-nyilatkozat kihagyható (a kódolást UTF-8-nál, ha nincs BOM vagy UTF-16, ha van egy BOM).
Dokumentum esetén hTML nyelv A használt kódolás megadása metaelemamely a nyitó és a zárófej címke között van előírva:
... ...
Ez a bejegyzés meglehetősen különbözik az elfogadott B-től, de teljes mértékben megfelel az újonnan bevezetett lassan a HTML 5 szabványnak, és teljesen helyesen érthetően meg fogja érteni ebben a pillanatban böngészők.
Elméletben, a metaelem, amely jelzi a kódolást HTML dokumentum Jobb, ha elhelyezni a lehető legmagasabb a dokkolófejbenAnnak érdekében, hogy az első jel szövegében az ülés időpontjában ne legyen az alapvető ANSI (ami mindig olvassa el mindig és bármely változatban), a böngészőnek már rendelkeznie kell a karakterek kódolásának módjáról.
Sok szerencsét! A blog oldalak honlapján kétértelmű találkozók
további hengerek megtekinthetők");">
Lehet, hogy érdekel
Mi az URL-címek, mint a helyszín abszolút és relatív linkjei közötti különbség
OpenServer - Modern helyi szerver és egy példa a használatára wordPress telepítések számítógépen
Mi a chmod, amely hozzáférési jogokat rendelhet a fájlok és mappák hozzárendeléséhez (777, 755, 666) és hogyan kell csinálni a PHP-t
Keresés Yandex a helyszínen és az online áruházban
Szimbólum átfedés
A BS szimbólumnak köszönhetően (vissza a lépéshez), a másik felett egy karaktert nyomtathat a nyomtatóra. Az ASCII-ben a diakritikusok betűkkel történő hozzáadásához, például:
- a BS "→ Á
- a BS `→ à
- a BS ^ → →
- o bs / → Ø
- c bs, → ç
- n bs ~ → ñ
jegyzet: A régi betűtípusok Apostrophe "lejtést húztak balra, és Tilda ~ eltolódott, hogy csak megfeleljenek az Akut és a Tilde szerepének.
Ha ugyanazt a szimbólumot a szimbólumra helyezzük, akkor a merész betűtípus hatását kapják, és ha a hangsúly a szimbólumon helyezkedik el, akkor kiderül a szöveget.
- a BS A → a.
- a BS _ → a.
jegyzet: Ezt például az ember referenciarendszerében használják.
Nemzeti ASCII beállítások
Az ISO 646 (ECMA-6) szabvány biztosítja a nemzeti karakterek helyének helyét @ [ \ ] ^ ` { | } ~ . Ezen kívül, a helyén # Lehet elhelyezni £ és helyben $ - ¤ . Az ilyen rendszer alkalmas az európai nyelvekre, ahol csak néhány további karakter szükséges. A nemzeti szimbólumok nélküli ASCII verziót US-ASCII, vagy "nemzetközi referenciaverzió" -nak nevezik.
Ezt követően kényelmesebb volt a 8 bites kódolások (kódoldalak) használatához, ahol a kódasztal (0-127) alsó fele US-ASCII karaktereket foglal el, és a felső (128-255) további karakterek, egy nemzeti szimbólumkészlet. Így az ASCII táblázat felső felét az Unicode mindenütt jelenlétében aktívan használták a lokalizált szimbólumok, helyi betűk ábrázolására. Az ASCII táblázatban lévő cirill karakterek elhelyezésére szolgáló egyetlen szabvány hiánya számos kódolási problémát (KOI-8, Windows-1251 és mások) szállított. Más nyelvek, akik nem tartott írásban is szenvedtek a különböző kódolások jelenléte miatt.
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A.a. | .B | .C.c. | .D. | .E.e. | .F. | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0. | Nul. | Valami | EOA. | Eom | EQT. | WRU. | Ru | Harang. | Bksp. | Ht | Lf. | Vt. | FF. | Cr | ÍGY. | Si |
1. | DC 0. | DC 1. | DC 2. | DC 3. | DC 4. | Téved. | Szinkronizál. | Lem. | S 0 | S 1 | S 2. | S 3. | S 4. | S 5. | S6. | S7. |
2. | ||||||||||||||||
3. | ||||||||||||||||
4. | Üres | ! | " | # | $ | % | & | " | ( | ) | * | + | , | - | . | / |
5. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
6. | ||||||||||||||||
7. | ||||||||||||||||
8. | ||||||||||||||||
9. | ||||||||||||||||
A. | @ | A. | B. | C. | D. | E. | F. | G. | H. | ÉN. | J. | K. | L. | M. | N. | O. |
B. | P. | Q. | R. | S. | T. | U. | V. | W. | X. | Y. | Z. | [ | \ | ] | ← | |
C. | ||||||||||||||||
D. | ||||||||||||||||
E. | a. | b. | c. | d. | e. | f. | g. | h. | ÉN. | j. | k. | l. | m. | n. | o. | |
F. | p. | q. | r. | s. | t. | u. | v. | w. | x. | y. | z. | KILÉPÉS | Del. |
Azokon a számítógépeken, ahol a minimálisan címezhető memóriaegység 36 bites szó volt, kezdetben 6 bites karaktereket alkalmaztunk (1 szó \u003d 6 karakter). Az ilyen számítógépeken az ASCII-re való áttérés után 5 hét bites karaktert kezdett egy szóba helyezni (1 bit maradt felesleges) vagy 4 Ninebitant karakter.
Az ASCII kódokat a programozás alatt álló kulcs meghatározására is használják. A standard QWERTY billentyűzethez a kódasztal így néz ki:
Sok karakter, amellyel a szöveg íródott, hívott Ábécé. Az ábécé karakterek száma az erő. Az információk számának meghatározásához szükséges képlet: N \u003d 2 b, ahol n az ábécé hatalma (a karakterek száma), b - A bitek száma (szimbóluminformáció). Az ábécé 256 karakteres teljesítményű, szinte minden szükséges karaktert elhelyezhet. Az ilyen ábécét hívják elegendő. Mivel 256 \u003d 2 8, majd súlya 1 szimbólum - 8 bit. Mérési egység 8 bit megfelelő név 1 byte: 1 byte \u003d 8 bit. Az egyes szimbólumok bináris kódja a számítógépes szövegben 1 memória bájtot tartalmaz. Milyen módon jelenik meg a szöveges információk a számítógép memóriájában?A túlszárnyaló szimbólumkódolás kényelme nyilvánvaló, mert a bájtok - a memória legkisebb címezhető része, és ezért a processzor külön-külön hivatkozhat a szövegfeldolgozás végrehajtásával. Másrészt 256 karakter elég ahhoz, hogy képviselje a legváltozatosabb szimbolikus információkat. Most felmerül a kérdés, hogy melyik nyolc bites bináris kód, hogy összhangban legyen az egyes szimbólumokkal.Nyilvánvaló, hogy ez egy feltételes kérdés, sok kódolási módszerrel jöhet létre. A számítógép ábécé összes szimbóluma 0 és 255 között számozott. Nyolc bites minden egyes szám. bináris kód 00000000-tól 11111111-ig. Ez a kód egyszerűen a bináris számrendszer szimbólumának sorszáma. Az a táblázat, amelyben a számítógép ábécé összes karakterét a szekvenciaszámok betartásával végezzük, a kódolási táblázatnak nevezik.-Ért különböző típusok Az EUM különböző kódolási táblákat használ. A PC nemzetközi szabványa asztalává vált ASCII.(Aski olvasása) (American Standard Code for information Exchange). Az ASCII-kód táblázat két részre oszlik. A nemzetközi szabvány csak az asztal első felében, azaz Szimbólumok számokkal 0 (00000000), korábban 127 (01111111). ASCII kódolási táblázatszerkezet
Az ASCII kódok első felébenFelhívom a figyelmet arra a tényre, hogy a betű kódolásának táblázata (nagybetűk és kisbetűk) ábécé sorrendben van elrendezve, és a számokat az értékek növelésével rendezik. A szimbólumok elrendezésében a lexikográfiai sorrendben való ragaszkodás az ábécé szekvenciális kódolásának elvét jelenti. Az orosz ábécé betűire a soros kódolás elvét is megfigyelik. Az ASCII kódok második felét táblázatSajnos jelenleg öt különböző cirill kódolása van (KOI8-P, Windows. MS-DOS, Macintosh és ISO). Emiatt a problémák gyakran felmerülnek az orosz szöveg átadásával egy számítógépről a másikra szoftverrendszer másiknak. Az orosz betűk kódolási orosz betűinek kronológiai szintje KOI8 volt ("Információs csere-kód, 8 bites"). Ezt a kódolást az EU EU-sorozatának számítógépén lévő 70-es években használták, és a 80-as évek közepétől az UNIX operációs rendszer első Russified verzióiban kezdték használni. A 90-es évek elejétől kezdve az MS DOS operációs rendszer dominációjának időpontja, a CP866 kódolási maradványok ("CP": "kódlap", "kódlap"). A Mac OS operációs rendszert futtató Apple számítógépek saját MAC kódolását használják. Ezenkívül a Nemzetközi Szabványügyi Szervezet, ISO) jóváhagyott egy másik kódolást az ISO 8859-5 néven, mint az orosz nyelv számára. A leggyakoribb jelenleg kódol. Microsoft Windows.a CP1251 csökkentésével jelölt. A 90-es évek vége óta a szimbólumkódolás szabványosításának problémája megoldódik egy új nemzetközi szabvány bevezetése Unicode.. Ez egy 16 bites kódolás, azaz Benne minden szimbólum 2 bájtot kap. Természetesen a memória mennyisége 2-szer elfoglalt. De ez a kód táblázat lehetővé teszi legfeljebb 65536 karakter engedélyezését. A Unicode szabvány teljes specifikációja magában foglalja a világ összes létező, kihalt és mesterségesen létrehozott ábécéit, valamint számos matematikai, zenei, kémiai és más szimbólumot. Próbáljuk meg használni az ASCII táblát, hogy elképzelhessük, hogy a szavak hogyan fognak megjelenni a számítógép memóriájába.Belső szó nézet a számítógépes memóriábanNéha előfordul, hogy a szöveg, amely a betűk az orosz ábécé nyert egy másik számítógépen, nem lehet olvasni - néhány „abrakadabra” lehet látható a képernyőn. Ez történik, mert a számítógépek különböző kódolást használnak az orosz nyelv szimbólumainak.
ASCII Windows szimbólumok asztal. Meg kell jegyezni, hogy az ASCII táblázat kezdetben ellenőrző szimbólumait használták a telethip-adatok cseréjének biztosítására, az adatbevitelt szúráshoz és a külső eszközök legegyszerűbb kezeléséhez. |
A kód | Leírás |
---|---|
Nul, 00. | Null, üres |
Soh, 01. | A fejléc kezdete, a fejléc elindítása |
STX, 02. | A szöveg kezdete, a szöveg kezdete. |
Etx, 03. | A szöveg vége, vége szöveg |
EOT, 04. | Az átvitel vége, az átadás vége |
Enq, 05. | Érdeklődik. Kérem erősítse meg |
Ack, 06. | Elismerés. Kijelentem |
Bel, 07. | Harang, harang |
BS, 08. | Backspace, térjen vissza egy karakterre |
Tab, 09. | Tab, vízszintes táblázat |
Lf, 0a. | Line feed, sorfordítás. Most a legtöbb programozási nyelven jelezve \\ n |
Vt, 0b. | Függőleges fül, függőleges fül. |
FF, 0C. | Űrlap feed, oldalút, új oldal |
CR, 0D. | Carriage Visszatérés, Visszatérés Carets. Most a legtöbb programozási nyelven a |
Így, 0e. | Shift out, változtassa meg a színező szalag színét a nyomdagépben |
Si, 0f. | Shift in, tegye vissza a színező szalag színét a nyomtatási eszközön |
DLE, 10. | Adatkapcsolat menekülés, átkapcsolás csatorna az adatátvitelhez |
DC1, 11. DC2, 12. DC3, 13. DC4, 14. | Eszközvezérlés, eszközkezelő szimbólumok |
NAK, 15. | Negatív nyugtázás, ne erősítse meg. |
SYN, 16. | Szinkronizálás. Szinkronizálás szimbólum |
Etb, 17. | A szövegblokk vége, a szövegblokk vége |
18. | Mégse, törölve továbbítva |
Em, 19. | A tápközeg vége, az adathordozó vége |
1a. | Helyettesítő, helyettesítő. A szimbólum helyén helyezkedik el, amelynek értéke elveszett vagy elrontott volt az átvitel során |
Esc, 1b. | Escape Control szekvencia |
FS, 1C. | File Separator, fájlelválasztó |
Gs, 1d. | Csoportos elválasztó, csoportos elválasztó |
Rs, 1e. | Rekord elválasztó, rekord elválasztó |
US, 1F. | Egység elválasztó, egység elválasztó |
Del, 7f. | Törölje, törölje az utolsó szimbólumot. |
[8 bites kódolások: ASCII, KOI-8R és CP1251] Az Egyesült Államokban létrehozott első kódolási táblák nem használták a nyolcadik bitet a pate-ban. A szöveget bájtsorozatokként mutatták be, de a nyolcadik bitet nem vették figyelembe (hivatalos célokra alkalmazták).
A táblázat általában elfogadott szabványsá vált. ASCII. Amerikai szabványkód információcsere számára). Az első 32 ASCII asztali szimbólumokat (00-tól 1f) használtuk nem nyomtatható karakterekhez. Úgy tervezték, hogy szabályozzák a nyomtatási eszközt stb. A többi 20-7F - a szokásos (nyomtatott) karakterek.
1. táblázat - ASCII kódolás
|
|
Könnyen észrevehető, hogy csak latin betűk kerülnek bemutatásra ebben a kódolásban, és azok, amelyeket angolul használnak. Vannak aritmetikai és egyéb szolgáltatási karakterek is. De nincsenek orosz betűk, sem különleges latin német vagy francia. Könnyen megmagyarázható - a kódolást amerikai szabványként fejlesztették ki. Amikor a számítógépek kezdtek alkalmazni az egész világon, szükség volt más karakterek kódolására.
Ehhez úgy döntöttek, hogy minden egyes pate nyolcadik bitet használnak. Így 128 további érték állt rendelkezésre (80-tól FF-ig), amely a karakterek kódolására használható. A nyolc bites táblák közül az első a "fejlett ASCII" ( Kiterjesztett ASCII.) - A nyugat-európai nyelveken használt latin karakterek különböző változatait tartalmazta. Más további karakterekkel is rendelkezett, beleértve a pszeudográfiát is.
A pseudográfiai karakterek lehetővé teszik, hogy csak szövegszimbólumokat jelenítsen meg a képernyőn, bizonyos hasonlósági grafikát biztosítson. Pseudográfia segítségével, például a távoli menedzser fájlok kezelésére szolgáló program.
Az orosz betűk a kiterjesztett ASCII asztalban nem voltak. Oroszországban (korábban - az USSR) és más államokban a kódolásaikat létrehozták, lehetővé téve a konkrét "nemzeti" szimbólumokat 8 bites szövegfájlokba - a lengyel és cseh nyelvek latin betűjei, cirill (beleértve az orosz betűket is) és más ábécéket .
Minden olyan kódolásban, amely megkapta az eloszlást, az első 127 karaktert (azaz a bájtok közül nyolc bites értékeket) egybeesnek az ASCII-val. Így az ASCII fájl ezen kódolások bármelyikében működik; Betűk angol nyelvű Ugyanúgy képviselik őket.
Szervezet ISO. Nemzetközi szabványosítási szervezet - Nemzetközi szabványügyi szervezet) Elfogadta a szabványok csoportját ISO 8859.. 8 bites kódolást határoz meg különböző csoportok nyelvek. Tehát az ISO 8859-1 egy kiterjesztett ASCII, asztal az USA és Nyugat-Európa számára. És ISO 8859-5 - asztal cirill (beleértve az orosz).
Azonban történelmi okokból ISO 8859-5 kódolás nem illeszkedik. Tényleg a következő kódolásokat használják az orosz nyelvre:
Kód 866. oldal ( CP866.), ő "dos", ez "alternatív gost kódolás". A 90-es évek közepéig széles körben használták; Most már korlátozott. Gyakorlatilag nem vonatkozik az interneten lévő szövegek terjesztésére.
- KOI-8. A 70-es és 1980-as években alakult ki. Ez egy általánosan elfogadott szabvány az e-mail üzenetek küldésére az orosz interneten. Széles körben használják operációs rendszer UNIX család, beleértve a Linuxot is. Opció KOI-8, az oroszul számított, hívott KOI-8R.; Vannak változatok más cirill nyelvek (így, a koi8-u opció az ukrán nyelv számára).
- kód 1251. oldal, Cp1251, Windows-1251. A Microsoft által kifejlesztett, hogy támogassa az orosz nyelvt a Windows rendszerben.
A CP866 fő előnye az volt, hogy megőrizze a pszeudográfiai karaktereket ugyanabban a helyeken, mint a kiterjesztett ASCII; Ezért nem lehet a tengerentúli munkahelyi munka szöveges programokPéldául a híres Norton parancsnok. Most a CP866-ot a szöveges Windows vagy a teljes képernyős szöveges módban futó Windows programokhoz használják, beleértve a távoli menedzsert is.
A CP866 szövegei az elmúlt években nagyon ritkák (de az orosz fájlnevek kódolására szolgál). Ezért két másik kódolást fogunk lakni - KOI-8R és CP1251.
Amint láthatja, a CP1251 kódolási táblázatban az orosz betűk ábécé sorrendben vannak elrendezve (kivéve azonban az e betűket). Ennek a helynek köszönhetően számítógépes programok Nagyon könnyű rendezni betűrendben.
De KOI-8R-ben, az orosz levelek sorrendje véletlenszerűnek tűnik. De valójában nem.
Számos régi programban a 8. bit elvesztette a szöveg feldolgozása vagy átadása során. (Most az ilyen programok gyakorlatilag "kihaltak", de a 80-as évek végén - 90-es évek elején elterjedtek). Ahhoz, hogy egy 7 bites értéket kapjon egy 8 bites értéktől, elég ahhoz, hogy elvegye a 8-as idősebb ábrát; Például az E1 61-re fordul.
És hasonlítsa össze a KOI-8R-t az ASCII táblával (1. táblázat). Meg fogja találni, hogy az orosz betűk egyértelműen megfelelnek a latinul. Ha a nyolcadik bit eltűnik, a kisbetűs orosz betűk a latin és a tőke oroszok a kisbetűs latin. Tehát E1 a KOI-8-ban az orosz "A", míg 61 ASCII - latin "A".
Tehát a KOI-8 lehetővé teszi, hogy fenntartsa az orosz szöveg olvashatóságát a 8. bitek elvesztésével. A "Hello mindenki" "priwet Wsem" -be fordul.
A közelmúltban a kódolási táblázatban lévő szimbólumok ábécé sorrendje, valamint a 8. bit elvesztett veszteségével elvesztette a döntő fontosságot. Nyolcadik bit B. modern számítógépek Az átvitel vagy a feldolgozás során nem veszik el. És a rendezés betűrendben történik, figyelembe véve a kódolást, és nem egyszerű összehasonlítást a kódok. (Egyébként a CP1251 kódok nem teljesen betűrendben vannak - a levél ё nincs a helyén).
Azzal a ténynek köszönhetően, hogy két közös kódolás kettő, az interneten való együttműködés során (mail, weboldalak megtekintése), néha lehetséges, hogy egy értelmetlen betűket láthatunk orosz szöveg helyett. Például: "Fedezni fogok." Ezek csak a "tisztelettel" szavak; De a CP1251 kódolóban kódolták őket, és a számítógép dekódolta a szöveget a Koo-8 asztalon. Ha ugyanazok a szavak voltak, éppen ellenkezőleg, kódolva van a Koo-8-ban, és a számítógép dekódolta a szöveget a CP1251 táblázatban, az eredmény "a HCHBCEIEN" lesz.
Néha előfordul, hogy a számítógép dekódolja az orosz nyelvű betűket, és egyáltalán egy olyan asztalon, amely nem az orosz nyelv számára készült. Ezután az orosz betűk helyett egy értelmetlen karaktersorozat jelenik meg (például a kelet-európai nyelvű latin betűk); Gyakran "krokaimereknek" nevezik.
A legtöbb esetben a modern programok az internetes dokumentum kódolásainak meghatározásával ( email és weboldalak) önmagukban. De néha "bajba kerülnek", akkor láthatjuk az orosz betűk furcsa szekvenciáit, vagy "krokémátus". Rendszerben, egy ilyen helyzetben, hogy megjelenítse ezt a szöveget, elegendő kiválasztani a kódolást manuálisan a program menüben.
A cikkhez az oldalt http://open-office.edusite.ru/textProcessor/p5aa1.html használták.
Az anyagot az oldalról vesszük: