internetul Windows. Android

Coduri 32 127. Codificarea informațiilor text

Bună ziua, Stimate site-ul de cititoare blog. Astăzi vă vom vorbi despre locul în care provin Cracoyarbra și în programe, care există codificări text și care dintre ele trebuie utilizate. Să luăm în detaliu istoria dezvoltării lor, variind de la ASCII de bază, precum și de versiunile sale extinse de CP866, KOI8-R, Windows 1251 și terminând cu codurile moderne ale consorțiului Unicode UTF 16 și 8.

Cineva pe care aceste informații le poate părea inutil, dar ați ști cât de multe întrebări vin la mine exact în legătură cu fisurile (fără a citi un set de caractere). Acum voi avea ocazia să-i trimit pe toată lumea în textul acestui articol și să-ți caut în mod independent piscinele. Ei bine, pregătiți-vă să absorbiți informațiile și să încercați să monitorizați narațiunea.

ASCII - codarea textului latizei de bază

Dezvoltarea codificărilor de text apare simultan cu formarea industriei IT și în acest timp au avut timp să se supună unor schimbări destul de puține. Din punct de vedere istoric, totul a început cu o pronunție destul de dăunătoare a EBCDIC, care a făcut posibilă codificarea literelor alfabetului latin, numerelor arabe și semne de punctuație cu simboluri de control.

Dar totuși punctul de plecare pentru dezvoltarea codificărilor text moderne ar trebui considerat un faimos ASCII. Standard american. Cod pentru Interfață de informații, care în limba rusă este de obicei pronunțată ca "aski"). Acesta descrie primele 128 de caractere de la cei mai frecvent utilizați utilizatori de limbă engleză - litere latine, numere arabe și semne de punctuație.

Chiar și în aceste 128 de caractere descrise în ASCII, unele simboluri de serviciu au fost zdrobite de paranteze, laturi, asteriscuri etc. De fapt, tu o poți vedea:

Aceste 128 de caractere din versiunea inițială a ASCII au devenit standard, iar în orice altă codificare veți întâlni cu siguranță că vor fi în așa fel.

Dar faptul că este faptul că, cu ajutorul unui octet al informațiilor, puteți codifica 128, dar până la 256 de valori diferite (de două ori până la gradul opt este egal cu 256), astfel încât a apărut o gamă întreagă după versiunea de bază a Aska. coduri avansate ASCII.În plus față de 128 de semne principale, a fost, de asemenea, posibilă codificarea simbolurilor naționale de codificare (de exemplu, rusă).

Aici, probabil, merită mai mult despre sistemul numeric utilizat în descriere. În primul rând, după cum știți totul, computerul funcționează numai cu numere într-un sistem binar, și anume cu zerouri și unități ("Boulev Algebra", dacă cineva a avut loc la Institut sau la școală). Fiecare dintre acestea este o încetare la o diplomă, începând cu zero și la două în al șaptelea:

Nu este greu de înțeles că toate combinațiile posibile de zerouri și unități într-un astfel de design pot fi doar 256. Traduceți numărul din sistemul binar în zecimal este destul de simplu. Este necesar să se plieze pur și simplu toate gradele de mai sus pe care o reprezintă.

În exemplul nostru, se dovedește 1 (2 la gradul de zero) plus 8 (două la grade 3), plus 32 (de două ori în gradul al cincilea), plus 64 (în al șaselea), plus 128 (în al șaptelea) . Total primește 233 într-un sistem de numere zecimale. După cum puteți vedea, totul este foarte simplu.

Dar dacă te uiți la masă cu simboluri ASCII.Veți vedea că sunt prezentate în codificarea hexazecimală. De exemplu, "asteriscul" corespunde paradisului unui număr hexazecimal 2a. Probabil, știți că într-un sistem de număr hexazecimal, literele latine de la A (Mediu TEN) la F (înseamnă cincisprezece) sunt folosite într-un sistem numeric hexazecimal.

Ei bine, deci pentru transfer numere binare În hexazecimal Recurge la următorul mod simplu și vizual. Fiecare octet de informații este rupt în două părți de patru biți, așa cum se arată în captura de ecran de mai sus. Asa de În fiecare jumătate a octetului, codul binar poate fi codificat numai pentru șaisprezece valori (două în gradul al patrulea), care poate fi ușor reprezentat de hexazecimal.

Mai mult, în jumătatea stângă a octetului, va fi necesar să se ia în considerare din nou măsura din zero și nu așa cum se arată în captura de ecran. Ca rezultat, prin computere non-bune, obținem că numărul E9 este codificat în captura de ecran. Sper că cursul raționamentului meu și solidificarea acestui rebus ați fost de înțeles. Ei bine, acum vom continua, vorbim de fapt despre codarea textului.

Versiuni extinse ale lui AKI - CP866 și Koi8-R codificare cu pseudograph

Deci, am început să vorbim despre ASCII, care a fost ca un punct de plecare pentru dezvoltarea tuturor codificărilor moderne (Windows 1251, Unicode, UTF 8).

Inițial, a fost pus doar 128 de semne ale alfabetului latin, numerele arabe și altceva acolo, dar în versiunea extinsă a fost posibilă utilizarea tuturor celor 256 de valori care pot fi codificate într-o singură informație pate. Acestea. O oportunitate de a adăuga simboluri ale literelor limbii lui la ASHA.

Aici va fi necesar să fie distras din nou să clarificați - de ce aveți nevoie de codificare texte și de ce este atât de important. Caracterele de pe ecranul calculatorului dvs. sunt formate pe baza a două lucruri - seturi de formulare vectoriale (reprezentări) de toate tipurile de caractere (sunt în fișiere CO) și cod care vă permite să scoateți acest set de forme vectoriale ( Fișier de font) Este caracterul care urmează să fie introdus în locul potrivit.

Este clar că fonturile sunt responsabile de formularele vectoriale, dar sistemul de operare și programele utilizate în acesta sunt responsabile pentru codificare. Acestea. Orice text de pe computer va fi un set de octeți din fiecare dintre care un singur simbol al acestui text este codificat.

Programul care afișează acest text pe ecran (editor de text, browser etc.), când parsarea codului, citește codificarea următorului semn și căutări pentru formularul vectorial corespunzător dosarul dorit. Fontul care este conectat pentru a afișa acest document text. Totul este simplu și trite.

Astfel, pentru a codifica orice simbol de care avem nevoie (de exemplu, de la alfabetul național), trebuie completate două condiții - forma vectorială a acestui semn ar trebui să fie în fontul utilizat și acest simbol ar putea fi codificat în codificările extinse ASCII într-un byte . Prin urmare, există o mulțime de astfel de opțiuni. Numai pentru codificarea simbolurilor limbii rusești există mai multe soiuri de ascensoare extinse.

De exemplu, a apărut inițial CP866.În care a fost posibilă utilizarea simbolurilor alfabetului rus și a fost o versiune extinsă a ASCII.

Acestea. Partea sa superioară a coincis complet cu versiunea de bază a lui ASHA (128 simboluri din latină, numere și oricine altcineva), care este prezentată pe screenshot, dată puțin mai mare, dar deja partea de jos Tabelele CP866 au fost specificate în captura de ecran ușor mai scăzute și permise să codifice încă 128 de caractere (litere ruse și fiecare pseudografică):

Vedeți, în coloana din dreapta, numerele încep cu 8, pentru că Numerele de la 0 la 7 se referă la partea de bază a ASCII (a se vedea primul screenshot). Asa de Scrisoarea rusă "M" în CP866 va avea codul 9c (se află pe intersecția rândurilor corespunzătoare cu 9 și coloana cu un număr C într-un sistem de număr hexazecimal), care poate fi scris într-o singură informație de byte și dacă Există un font adecvat cu caractere rusești, această scrisoare fără probleme va fi afișată în text.

De unde a venit această cantitate psedografi în CP866.? Aici este lucrul că această codificare a textului rusesc a fost dezvoltată în acei ani luminoși, când nu a existat o astfel de distribuție a graficului sisteme de operare ca acum. Și în dosare și în operații de text similare, pseudografia a permis cel puțin să diversifice designul textelor și, prin urmare, se abundă cu CP866 și toate celelalte rânduri ale descărcării versiunilor extinse ale ASHA.

CP866 distribuită Compania IBM, dar în plus, au fost elaborate un număr de codificări pentru simbolurile limbii ruse, de exemplu, același tip (extins ASCII) poate fi atribuit Koi8-r.:

Principiul lucrării sale a rămas la fel ca CP866 descris mai târziu - fiecare simbol text este codificat de un singur octet. Screenshot-ul prezintă a doua jumătate a mesei Koi8-R, deoarece Prima repriză este pe deplin compatibilă cu baza ASUS, care este prezentată pe primul ecran din acest articol.

Printre caracteristicile codificării KOI8-R, se poate observa că literele ruse din tabelul său nu sunt în ordine alfabetică, cum ar fi aceasta, de exemplu, făcută în CP866.

Dacă vă uitați la primul screenshot (partea de bază, care intră în toate codificările extinse), observați că în KOI8-R, literele ruse sunt situate în aceleași tabele ale tabelului ca literele alfabetului latin din prima parte a masa. Acest lucru a fost făcut pentru comoditatea de a trece de la simbolurile rusești în latină prin aruncarea unui singur bit (două în gradul al șaptelea sau 128).

Windows 1251 - O versiune modernă a ASCII și de ce se scot backerii

Dezvoltarea ulterioară a codificărilor de text se datorează faptului că sistemele de operare grafice și necesitatea utilizării pseudografelor în ele au câștigat popularitate. Ca rezultat, a apărut un grup întreg, care, la esența lor, a fost încă versiuni avansate ale lui ASTI (un singur simbol text este codificat cu o singură debit de informații), dar fără a folosi caractere pseudografice.

Ei au tratat așa-numita codificare ANSI, care au fost dezvoltate de Institutul American de Standardizare. Numele chirilic a fost folosit în continuare în cea de-adirecție pentru o opțiune cu sprijinul limbii ruse. Un exemplu de un astfel de exemplu.

Acesta a fost favorabil diferit de CP866 și KOI8-R utilizat anterior, în care locul personajelor pseudografică a luat simbolurile lipsă ale tipografiei ruse (semnul descrescător), precum și simbolurile utilizate în apropierea lui Rusia slavică Limbi (ucrainene, Belarus, etc.):

Din cauza acestei abundențe a codificărilor limbii ruse, producătorii de fonturi și producători software. El a apărut în mod constant o durere de cap, și cu tine, dragi cititori, de multe ori cele mai notorii krakoyabry.Când confuzia a fost predată cu versiunea utilizată în text.

Foarte des, au ieșit la trimiterea și primirea de mesaje prin e-mail, ceea ce a dus la crearea de mese transversale foarte complexe, care, de fapt, nu au putut rezolva această problemă în rădăcină și adesea utilizatorii pentru corespondență au fost folosiți pentru a evita krakozimaburile notorii atunci când se utilizează Codificări rusești similare CP866, KOI8-R sau Windows 1251.

În esență, Cracoyarbra, împărtășind în loc de textul rusesc, au fost rezultatul utilizării incorecte a codificării din această limbăcare nu se potrivesc cu cel în care mesajul text a fost codificat inițial.

Să presupunem că simbolurile codificate cu CP866, încercați să afișați utilizând tabelul de cod Windows 1251, apoi aceste cele mai crăpate (set de caractere fără sens) și ieșiți, înlocuind complet textul mesajului.

O situație similară se întâmplă foarte adesea la, forumuri sau bloguri, când textul cu caractere rusești din greșeală nu este salvat în aceeași codificare care este utilizată pe site-ul implicit sau nu în editorul de text, care adaugă la codul Sebestin nu vizibilă la ochiul liber.

În cele din urmă, o astfel de situație cu numeroase codificări și cranberamuri constante de crawlere, mulți obosiți, au fost premise pentru crearea unei noi variații universale, care ar fi înlocuit toate existente și rezolvate, în cele din urmă, la rădăcina problemei cu apariția nu texte citite. În plus, a existat o problemă a limbilor chineze similare, unde simbolurile limbii au fost mult mai mult de 256.

Unicode (Unicode) - Coduri universale UTF 8, 16 și 32

Aceste mii de semne ale grupului lingvistic din Asia de Sud-Est nu au putut fi descrise într-o singură informație Pape care a fost alocată pentru codarea personajelor în versiunile ASCII avansate. Ca rezultat, a fost creat un consorțiu numit Unicode (Consorțiu Unicode - Unicode) în colaborarea multor lideri IT ai industriei (cei care produc un software care codifică fierul, care creează fonturi) care erau interesați de apariția unui text universal care codifică.

Prima variație publicată sub auspiciile consorțiului Unicode a fost UTF 32.. Cifra din numele codării înseamnă numărul de biți utilizați pentru a codifica un simbol. 32 de biți sunt 4 octeți de informații care vor fi necesare pentru a codifica un singur semn în noua codificare UTF universală.

Ca rezultat, același fișier cu textul codificat în versiunea extinsă a ASCII și UTF-32 va avea dimensiunea (cântărește) de patru ori mai mult. Este rău, dar acum avem ocazia de a codifica numărul de semne egale cu două până la treizeci de grade secunde, cu ajutorul UTF ( miliarde de caractere.care va acoperi orice valoare reală cu o marjă colosală).

Dar multe țări cu limbile Grupului european au un număr mare de semne de utilizat în codificare și nu a fost nevoie, totuși, atunci când se utilizează UTF-32, nu au primit o creștere de patru ori În greutatea documentelor text și, ca urmare, o creștere a datelor pe Internet și a datelor stocate de volum. Aceasta este o mulțime și nimeni nu și-ar putea permite astfel de deșeuri.

Ca urmare a dezvoltării Unicode a apărut UTF-16.care sa dovedit a fi atât de reușită, care a fost adoptată în mod implicit ca un spațiu de bază pentru toate personajele pe care le folosim. Utilizează doi octeți pentru a codifica un semn. Să vedem cum arată acest lucru.

În camera de operație sistemul Windows. Puteți trece de-a lungul căii "Start" - "Programe" - "Standard" - "Service" - "Tabel de caractere". Ca rezultat, o masă se deschide cu forme vectoriale ale tuturor instalate în fonturile dvs. Dacă alegeți în "parametri suplimentari" un set de caractere Unicode, puteți vedea pentru fiecare font separat întreaga gamă de caractere incluse în acesta.

Apropo, făcând clic pe oricare dintre ele, îl puteți vedea pe două codul în format UTF-16constând din patru cifre hexazecimale:

Câte caractere pot fi codificate în UTF-16 folosind 16 biți? 65 536 (două până la șaisprezece), iar acest număr a fost luat pentru spațiul de bază din Unicode. În plus, există modalități de a codifica cu el și aproximativ două milioane de caractere, dar se limitează la spațiul extins într-un milion de simboluri text.

Dar chiar și această versiune de succes a codificării lui Unicode nu a adus multă satisfacție celor care au scris, de exemplu, programele numai pe limba englezaPentru aceștia, după trecerea de la versiunea extinsă a ASCII la UTF-16, greutatea documentelor a crescut de două ori (un octet pe simbol în ASTI și doi octeți pe același simbol în UTF-16).

Asta e tocmai pentru a satisface toată lumea și tot în consorțiul Unicode a fost decis să vină codând lungimea variabilă. Ea a fost numită UTF-8. În ciuda celor opt din titlu, are într-adevăr o lungime variabilă, adică. Fiecare simbol text poate fi codificat într-o secvență de unul la șase octeți.

În practică, UTF-8 utilizează doar o gamă de la unul la patru octeți, deoarece nu există nimic nici măoretic posibil să se supună nimic celor patru octeți ai codului. Toate semnele latine sunt codificate într-un octet, precum și în vechiul ASCII.

Ceea ce este demn de remarcat, în cazul codificării numai latinei, chiar și acele programe care nu înțeleg Unicode vor citi încă ceea ce este codificat în UTF-8. Acestea. Partea de bază a lui ASHA a trecut pur și simplu la acest consorțiu de la Unicode.

Semnele chirilice din UTF-8 sunt codificate în doi octeți și, de exemplu, georgiană - în trei octeți. Consorțiul Unicode după crearea UTF 16 și 8 a decis problema principală - acum avem În fonturi există un spațiu unic de cod. Și acum producătorii lor rămân doar pe baza forțelor și oportunităților lor de ao umple cu forme vectoriale de simboluri de text. Acum în seturi chiar.

În tabelul de simbol de mai jos, se poate observa că diferite fonturi suportă un număr diferit de caractere. Unele simboluri ale fonturilor Unicode pot cântări foarte bine. Dar acum nu se disting prin faptul că sunt create pentru diferite codificări, dar de faptul că producătorul de fonturi a umplut sau nu a umplut spațiul unic de cod de către acelea sau alte forme vectoriale până la capăt.

Krakoyabry în loc de scrisori ruse - cum să remedieze

Să vedem acum cum apare textul Crakozimabe în loc de text sau, cu alte cuvinte, cum este selectată codarea corectă pentru textul rusesc. De fapt, este setat în programul în care creați sau editați același text sau cod folosind fragmente de text.

Pentru editarea și crearea fișierelor text, folosesc personal foarte bine, în opinia mea. Cu toate acestea, poate evidenția sintaxa încă o sută de limbi de programare și de marcare, și are, de asemenea, capacitatea de a se extinde cu pluginurile. Citit revizuire detaliată Acest program minunat conform link-ului.

În meniul Top Notepad ++, există un element "codificare", unde veți avea capacitatea de a converti o opțiune existentă la una care este utilizată pe site-ul dvs. implicit:

În cazul unui site din Joomla 1.5 și mai sus, precum și în cazul unui blog pe WordPress, ar trebui să alegeți opțiunea pentru a evita apariția Krakoyar UTF 8 fără BOM. Care este prefixul BOM?

Faptul este că atunci când codarea ETF-16 a fost dezvoltată, din anumite motive a decis să fixeze un astfel de lucru ca abilitatea de a înregistra un cod de simbol, atât în \u200b\u200bsecvența directă (de exemplu, 0A15), cât și în invers (150a) . Și pentru ca programele să înțeleagă ce coduri de citire a secvenței și a fost inventată BOM. (Marcajul de octeți sau, cu alte cuvinte, semnătura), care a fost exprimată în adăugarea a trei octeți suplimentari la începutul documentelor.

În codificarea UTF-8, nu au existat nici un BOM în consorțiul Unicode și, prin urmare, adăugând semnătură (cei mai cunoscuți trei octeți suplimentari la începutul documentului) Unele programe pur și simplu împiedică citirea codului. Prin urmare, întotdeauna, când salvăm fișiere în UTF, trebuie să selectați o opțiune fără BOM (fără semnătură). Deci sunteți în avans mustrați-vă de la crackering.

Ceea ce este demn de remarcat, unele programe în Windows nu știu cum să facă acest lucru (nu puteți salva text în UTF-8 fără BOM), de exemplu, aceleași ferestre notebook notive. Salvează documentul în UTF-8, dar încă adaugă semnătura la început (trei octeți suplimentari). Mai mult, acești octeți vor fi întotdeauna la fel - citiți codul în secvență directă. Dar pe servere, din cauza lucrurilor mici, poate exista o problemă - Crackels va ieși afară.

Prin urmare, în nici un caz nu utilizați ferestrele obișnuite de notebook Pentru a edita documente ale site-ului dvs., dacă nu doriți aspectul Krakoyarbra. Consider că cea mai recentă și cea mai ușoară opțiune pentru editorul Notepad ++ deja menționat, care practic nu are dezavantaje și constă în unul dintre avantaje.

În Notepad ++ Când alegeți o codificare, veți avea capacitatea de a converti textul la codarea UCS-2, care este foarte aproape de standardul Unicode în esență. De asemenea, într-un non-tip poate fi codificat în ANSI, adică Cu referire la limba rusă, aceasta va fi deja descrisă de noi chiar deasupra Windows 1251. De unde provin aceste informații?

Este afișat în registrul sistemului dvs. de operare Windows - care codifică este alegerea în cazul ANSI, ce să alegeți în cazul OEM (pentru limba rusă va fi CP866). Dacă instalați o altă limbă implicită pe computer, atunci aceste codificări vor fi înlocuite cu ANSI sau OEM descărcare pentru aceeași limbă.

După tine în Notepad ++, salvați documentul în codarea de care aveți nevoie sau deschideți un document de pe site pentru a edita, apoi în colțul din dreapta jos al editorului vă puteți vedea numele:

Pentru a evita Cracoyarbrov.Cu excepția faptului că acțiunile descrise mai sus vor fi utile pentru înregistrarea în capacul său cod sursa Toate paginile site-ului informații despre această codificare, astfel încât serverul sau gazda locală să nu apară.

În general, în toate limbile marcajului hipertext, altele decât HTML, se utilizează un anunț XML special, care specifică codarea textului.

Înainte de a începe să dezasamblați codul, browserul va afla ce versiune este utilizată și cum trebuie exact să interpretați codurile personajelor acestei limbi. Dar ceea ce este demn de remarcat, în cazul în care salvați documentul în Unicode implicit, această declarație XML poate fi omisă (codarea va fi considerată UTF-8, dacă nu există nici un BOM sau UTF-16 dacă există un BOM).

În cazul unui document limba HTML. Pentru a specifica codificarea utilizată meta elementcare este prescris între eticheta capului de deschidere și închidere:

... ...

Această intrare este destul de diferită de cea acceptată B, dar respectă pe deplin noul introdus lent prin standardul HTML 5 și va fi absolut corect înțeles de cineva folosit acest moment browsere.

În teorie, elementul meta cu o indicație a codării HTML a documentului va fi mai bine de pus cât mai mare posibil în antetul doculuiAstfel încât, la momentul întâlnirii din textul primului semn să nu fie din ANSI de bază (care citiți întotdeauna întotdeauna și în orice variație), browserul trebuie să aibă deja informații despre cum să interpreteze codurile acestor caractere.

Multă baftă! La întâlnirile ambigue pe site-ul web al blogului

vedeți mai multe rolele pe care le puteți continua
");">

S-ar putea să fiți interesat

Care sunt adresele URL decât diferența dintre legăturile absolute și relative pentru site-ul
OpenServer - Modern. server local și un exemplu de utilizare a acesteia instalații WordPress. pe calculator
Ceea ce este chmod, care accesează drepturile de atribuire a fișierelor și a dosarelor (777, 755, 666) și cum să facă prin PHP
Căutați Yandex pe site și magazin online

Simbol Slaylay

Datorită simbolului BS (reveniți la pas), un caracter peste celălalt poate fi imprimat pe imprimantă. În ASCII, a fost adresată adăugării diacritice la litere, de exemplu:

  • un bs "→ á
  • un bs `→ à
  • un bs ^ → â
  • o BS / → Ø
  • c BS, → Ç
  • n bs ~ → ñ

Notă: În vechile fonturi, apostroful "a atras o pantă spre stânga, și Tilda ~ a fost mutat, astfel încât să se potrivească doar rolul lui Akut și Tilde de sus.

Dacă același simbol este suprapus pe simbol, se obține efectul fontului îndrăzneț și dacă accentul este suprapus pe simbol, se dovedește subdependent textul.

  • a BS A → a.
  • un bs _ → a.

Notă: Acesta este folosit, de exemplu, în sistemul de referință al omului.

Opțiunile naționale ASCII

Standardul ISO 646 (ECMA-6) prevede posibilitatea de a plasa caractere naționale în vigoare @ [ \ ] ^ ` { | } ~ . În plus față de aceasta, în loc # Pot fi plasate £ și în loc $ - ¤ . Un astfel de sistem este potrivit pentru limbile europene, unde sunt necesare doar câteva caractere suplimentare. O versiune ASCII fără simboluri naționale este numită US-ASCII sau "versiune internațională de referință".

Ulterior, sa dovedit mai convenabil pentru a utiliza codificări pe 8 biți (pagini de cod), unde jumătatea inferioară a tabelului de cod (0-127) ocupă caractere din SUA-ASCII, iar partea superioară (128-255) sunt caractere suplimentare, inclusiv un set de simboluri naționale. Astfel, jumătatea superioară a mesei ASCII la implementarea omniprezentă a Unicode a fost utilizată în mod activ pentru a reprezenta simboluri localizate, scrisori locale. Absența unui singur standard pentru plasarea caracterelor chirilice în tabelul ASCII a livrat multe probleme de codificare (KOI-8, Windows-1251 și altele). Alte limbi cu scriere non-colină au suferit, de asemenea, datorită prezenței mai multor codificări diferite.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
0. Nul. Som. EOA. Eom. Eqt. Wru. RU. Clopot. BKSP. Ht. LF. VT. FF. Cr. ASA DE. SI
1. DC 0. DC 1. DC 2. DC 3. DC 4. Err. Sincronizare. Lem. S 0. S 1. S 2. S 3. S 4. S 5. S 6. S 7.
2.
3.
4. Gol ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A. B. C. D. E. F. G. H. I. J. K. L. M. N. O.
B. P. Q. R. S. T. U. V. W. X. Y. Z. [ \ ]
C.
D.
E. a. b. c. d. e. f. g. h. i. j. k. l. m. n. o.
F. p. q. r. s. t. u. v. w. x. y. z. ESC Del.

Pe acele computere unde unitatea de memorie minim adresabilă a fost un cuvânt de 36 de biți, au fost utilizate inițial caractere pe 6 biți (1 cuvânt \u003d 6 caractere). După trecerea la ASCII pe astfel de computere, fie 5 caractere pe șapte biți au început să fie plasate într-un singur cuvânt (1 bit au rămas superflune) sau 4 caractere nouă.

Codurile ASCII sunt, de asemenea, utilizate pentru a determina cheia sub programare. Pentru tastatura standard QWERTY, tabelul de cod arată astfel:

Computerul înseamnă procesul transformării sale într-o formă care vă permite să organizați mai multă transmisie, depozitarea sau procesarea automată a acestor date. În acest scop, se utilizează diverse tabele. Codificarea ASCII este primul sistem dezvoltat în Statele Unite pentru a lucra cu textul limbii engleze, care a fost ulterior distribuit în întreaga lume. Descrierile, caracteristicile, proprietățile și utilizarea ulterioară sunt dedicate articolului prezentat mai jos.

Afișați și stocați informații în computer

Simbolurile de pe un monitor de calculator sau pe un gadget digital mobil sunt formate pe bază de seturi de forme vectoriale de toate tipurile de semne și cod care vă permit să găsiți caracterul dintre ele pe care doriți să le introduceți în locul potrivit. Este o secvență de biți. Astfel, fiecare simbol trebuie să se potrivească cu siguranță unui set de zerouri și unități care stau într-o anumită ordine unică.

Cum a început totul

Din punct de vedere istoric, primele computere au fost vorbind în limba engleză. Pentru a codifica informații simbolice în ele, a fost suficient să folosiți doar 7 biți de memorie, în timp ce în acest scop a fost 1 octet, alcătuit din 8 biți. Numărul de semne înțelese de calculator în acest caz a fost egal cu 128. Numărul unor astfel de caractere a inclus un alfabet englez cu semne de punctuație, numere și câteva caractere speciale. O codificare cu șapte codată în limba engleză cu tabelul corespunzător (pagina de cod), dezvoltată în 1963, a fost numită Cod standard american pentru schimbul de informații. De obicei, pentru desemnarea sa, abrevierea "Codificarea ASCII" a fost utilizată și utilizată în această zi.

Tranziție la multiplicarea

De-a lungul timpului, computerele au devenit utilizate pe scară largă în țările care nu sunt angajate. În acest sens, a existat o nevoie de codificări care ne permit să folosim limbile naționale. Sa decis să nu reinventeze bicicleta și să ia ca bază a ASCII. Tabelul de codificare din noua ediție sa extins semnificativ. Utilizarea a 8-a biți a permis 256 de caractere pentru a se traduce într-un limbaj de calculator.

Descriere

Codificarea ASCII are un tabel care este împărțit în 2 părți. Standardul internațional general acceptat este considerat doar prima sa repriză. Include:

  • Simboluri cu numere de secvență de la 0 la 31, codificate prin secvențe de la 00000000 la 00011111. Acestea sunt atribuite pentru a controla caracterele care urmează procesul de ieșire a textului pe ecran sau imprimanta, semnalul de sunet etc.
  • Simboluri cu NN în tabelul de la 32 la 127, codificați prin secvențe de la 00100000 la 01111111 constituie o parte standard a tabelului. Acestea includ un spațiu (N 32), literele alfabetului latin (litere mici și majuscule), numere de zece cifre de la 0 la 9, semne de punctuație, paranteze de inscripție diferită și alte caractere.
  • Simboluri cu numere de secvențe de la 128 la 255, codificate prin secvențe de la 10.000.000 la 1111111. Acestea sunt scrisorile alfabetelor naționale, altele decât latinele. Este această parte alternativă a tabelului de codificare ASCII care este utilizat pentru a converti simbolurile rusești la formularul de calculator.

Unele proprietăți

Caracteristicile codării ASCII includ diferența dintre literele "A" - "Z" ale registrelor inferioare și superioare cu un singur bit. Această circumstanță simplifică foarte mult transformarea registrului, precum și verificarea acestuia aparțin domeniului specificat de valori. În plus, toate literele din sistemul de codare ASCII sunt reprezentate de numerele de ordine proprii în alfabetul care sunt scrise 5 cifre într-un sistem de număr binar, în fața căruia pentru literele din registrul inferior costă 011 2 și partea superioară - 010 2.

Caracteristicile caracteristicilor de codare ASCII pot fi, de asemenea, clasificate și reprezentând 10 cifre - "0" - "9". În cel de-al doilea sistem numeric, încep cu 00112 și se termină cu 2 valori ale numerelor. Deci, 0101 2 este echivalent cu un număr zecimal cinci, astfel încât simbolul "5" este scris ca 0011 01012. Bazându-se pe cele de mai sus, puteți converti cu ușurință numerele zecimale binare la șirul din codificarea ASCII prin adăugarea secvenței de biți stângi 00112 pentru fiecare MB.

"Unicode"

După cum știți, mii de caractere sunt obligați să afișeze texte în limbile Grupului Asiei de Sud-Est. Această sumă nu este descrisă în nici un fel într-o singură informație pate, deci chiar și versiunile extinse ale ASCII nu mai pot îndeplini nevoile sporite ale utilizatorilor din diferite țări.

Deci, a fost necesară o codificare universală a textului, a căror dezvoltare, cu cooperarea cu mulți lideri ai industriei IT mondiale, a fost angajat un consorțiu "Unicode". Experții săi au creat sistemul UTF 32. În ea, 32 de biți constituie 4 octeți de informații au fost eliberați pentru codarea 1 a simbolului. Principalul dezavantaj a fost o creștere accentuată a cantității de memorie necesară de 4 ori, ceea ce a însemnat multe probleme.

În același timp, pentru majoritatea țărilor cu limbi oficiale referitoare la grupul indo-european, numărul de semne egal cu 2 32 este mai mult decât redundant.

Ca urmare a lucrărilor ulterioare ale specialiștilor din consorțiul "Unicode", a apărut o codificare UTF-16. Acesta a devenit opțiunea de a converti informațiile simbolice care au aranjat toate atât de volumul memoriei necesare, cât și de numărul de simboluri codificate. De aceea UTF-16 a fost acceptat în mod implicit și în el pentru o marcă trebuie să rezervați 2 octeți.

Chiar și această versiune destul de avansată și de succes a "Unicode" a avut unele dezavantaje, iar după trecerea de la versiunea extinsă a ASCII la UTF-16 a crescut de două ori greutatea documentului.

În acest sens, sa decis utilizarea codificării variabilelor variabile UTF-8. În acest caz, fiecare pictogramă de text sursă este codificată de o secvență de 1 până la 6 octeți.

Comunicare cu codul standard american pentru schimbul de informații

Toate semnele alfabetului latin în lungimea variabilă UTF-8 sunt codificate în 1 octet, ca în sistemul de codificare ASCII.

O caracteristică a UTF-8 este că, în cazul textului din Latinia fără a utiliza alte caractere, chiar și programele care nu înțeleg "Unicode" vă vor permite să o citiți. Cu alte cuvinte, partea de bază a textului ASCII care codifică pur și simplu la noua variabilă de lungime UTF. Semnele chirilice în UTF-8 ocupă 2 octeți și, de exemplu, georgiană - 3 octeți. Crearea UTF-16 și 8 a fost rezolvată principala problemă de a crea un spațiu unic de cod în fonturi. De atunci, producătorii de fonturi rămân doar pentru a completa formele vectoriale de tabel ale simbolurilor text pe baza nevoilor acestora.

În diferite sisteme de operare, se acordă preferință diferitelor codificări. Pentru a putea citi și edita texte marcate într-o altă codificare, se aplică programele transcodare ale textului rusesc. niste editori de text Conține transcoderii încorporați și vă permit să citiți textul indiferent de codificare.

Acum știi câte personaje în codificarea ASCII și, cum și de ce a fost proiectat. Desigur, astăzi am primit cea mai mare distribuție în lume. Unicode. Cu toate acestea, este imposibil să uităm că este creată pe baza ASCII, deci ar trebui să fie apreciată de contribuția dezvoltatorilor săi la domeniul de aplicare al IT.

Amintiți-ne unele fapte cunoscute:

Multe caractere cu care este scris textul, se numește alfabetul.

Numărul de caractere din alfabet este puterea sa.

Formula pentru determinarea cantității de informații: n \u003d 2 B,

unde n este puterea alfabetului (numărul de caractere),

b - numărul de biți (informații despre simbol).

Alfabetul cu o putere de 256 de caractere poate fi plasat aproape toate caracterele necesare. Un astfel de alfabet este numit suficient.

pentru că 256 \u003d 2 8 , Greutatea de 1 simbol este de 8 biți.

Unitatea de măsurare 8 Bits APROPRIAT Nume 1 Byte:

1 BYTE \u003d 8 biți.

Codul binar al fiecărui simbol din textul computerului durează 1 octet de memorie.

În ce fel sunt prezentate informații despre text în memoria computerului?

Codificarea este că fiecare simbol este pus în linie cu un cod zecimal unic de la 0 la 255 sau codul binar corespunzător acestuia de la 00000000 la 11111111. Astfel, o persoană distinge caracterele la designul lor și calculatorul - conform codului lor.

Comoditatea de codificare a simbolului supra-off este evidentă, deoarece octeți - cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul se poate referi la fiecare caracter separat prin efectuarea procesării textului. Pe de altă parte, 256 de caractere sunt destul de suficient pentru a reprezenta cele mai variate informații simbolice.

Acum apare întrebarea pe care un cod binar de opt pentru a pune în linie cu fiecare simbol.

Este clar că aceasta este o chestiune condiționată, puteți veni cu multe metode de codare.

Standardul internațional pentru PC-uri a devenit masa ASCII (AKI citit) (american cod standard. Pentru schimbul de informații).

Standardul internațional este doar prima jumătate a tabelului, adică. Simboluri cu numere de la 0 (00000000), până la 127 (01111111).

Număr de serie

Simbol

00000000 - 00011111


Funcția lor este de a controla procesul de ieșire a textului pe ecran sau imprimare, semnalul de sunet, marcajul de text etc.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


A doua jumătate a tabelului de cod ASCII, numit pagina de cod (128 coduri, începând cu 10.000.000 și terminând 11111111), poate avea diferite opțiuni, fiecare opțiune are propriul număr.


Îți atrag atenția asupra faptului că în tabelul de codificare litera (majusculă și minusculă) sunt aranjate în ordine alfabetică, iar numerele sunt comandate prin creșterea valorilor. Această aderare la ordinea lexicografică în aranjarea simbolurilor se numește principiul codificării secvențiale a alfabetului.


Cel mai frecvent este codificarea în prezent. Microsoft Windows.notat de reducerea CP1251.

De la sfârșitul anilor '90, problema standardizării codării simbolurilor este rezolvată prin introducerea unui nou standard internațional numit Unicode . Aceasta este o codificare pe 16 biți, adică. În el, fiecare simbol este dat 2 octeți de memorie. Desigur, cantitatea de memorie ocupată de 2 ori. Dar această masă de cod vă permite să activați până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial ale lumii, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Să încercăm să folosim masa ASCII pentru a ne imagina cum vor arăta cuvintele în memoria calculatorului.

Cuvintele

Memorie

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

La introducerea informațiilor text într-un computer, caracterele (litere, numere, caractere) sunt codificate utilizând diferite sisteme de cod care constau dintr-un set de tabele de cod postate pe paginile de standarde corespunzătoare pentru codarea informațiilor text. În astfel de mese, fiecare caracter i se atribuie un cod numeric specific într-un sistem hexazecimal sau zecimal, adică tabelele de cod reflectă corespondența dintre imaginile simbolurilor și codurile numerice și sunt concepute pentru codificarea și decodificarea informațiilor text. La introducerea informațiilor despre text utilizând o tastatură a computerului, fiecare caracter introdus este codificat, adică este convertit într-un cod numeric, când informațiile text sunt afișate pe dispozitivul de ieșire a computerului (afișaj, imprimantă sau plotter), imaginea sa este construită pe Codul numeric al simbolului. Atribuirea unui cod numeric specific este rezultatul acordului dintre organizațiile relevante din diferite țări. În prezent, nu există un tabel de cod universal uniform care satisface scrisorile alfabetelor naționale din diferite țări.

Tabelele moderne de cod includ o parte internațională și națională, care conține scrisorile alfabetelor, numerelor, numerelor, semnelor de operațiuni aritmetice și semne de punctuație, simboluri matematice și de control, simboluri pseudografice. Partea internațională a tabelului de cod bazat pe standard ASCII (codul standard american pentru schimbul de informații),codifică prima jumătate a simbolurilor tabelului de cod cu coduri numerice de la 0 la 7 F 16,sau într-un sistem zecimal de la 0 la 127. În același timp, codurile de la 0 la 20 16 (0? 32 10) sunt decontate cu tastele funcționale (F1, F2, F3, etc.) ale tastaturii personale ale computerului . În fig. 3.1 prezintă partea internațională a tabelului de cod bazat pe standard ASCII.Celulele de tabele sunt numerotate în mod corespunzător într-un sistem numeric zecimal și hexterior.

Figura 3.1. Partea internațională a tabelului de cod (standard ASCII)cu numerele celulelor prezentate în sistemul zecimal (a) și hexazecimal (B) al numărului de număr


Partea națională a tabelelor de cod conține coduri de alfabete naționale, care se numește și tabelul Symbol Set (Charset).

În prezent, există mai multe tabele de cod (codificări) pentru a sprijini literele alfabetului rus (chirilic), care sunt utilizate de diferite sisteme de operare, care reprezintă un dezavantaj semnificativ și, în unele cazuri, duce la probleme asociate cu operațiunile de decodificare a valorilor simbolului numeric . În fila. 3.1 Numele paginilor de cod (standarde) sunt afișate pe ce tabele de cod (codificare) ale chirilicului sunt postate.

Tabelul 3.1.

Unul dintre primele standarde de codificare chirilică pe computere a fost standardul KOI8-R. Partea națională a tabelului de cod din acest standard este prezentată în fig. 3.2.

Smochin. 3.2. Partea Națională a Codului Tabel Standard KOI8-R


În prezent, se aplică și un tabel de cod pe pagina CP866 a standardului de codare a informațiilor text care este utilizat în sistemul de operare. Dosul dos.sau sesiunea de lucru Dosul dos.pentru codarea Cirillic (figura 3.3, dar).

Smochin. 3.3. Partea națională a tabelului de cod Postat pe pagina CP866 (a) și pe pagina CP1251 (b) din standardul de codare a informațiilor text


În prezent, un tabel de cod postat pe pagina CP1251 a standardului corespunzător, care este utilizat în sistemele de operare a familiei, a fost cel mai distribuit pe scară largă pentru codificarea chirilică. Windows.firme Microsoft.(Fig. 3.2, b).În toate tabelele de cod prezentate, cu excepția tabelului standard Unicode,pentru codificarea unui simbol, sunt date 8 deversari binare (8 biți).

La sfârșitul secolului trecut a apărut un nou standard internațional Unicode,În care un caracter este reprezentat de un cod binar dublu. Aplicarea acestui standard este de a continua dezvoltarea unui standard internațional universal, ceea ce face posibilă rezolvarea problemei compatibilității codificării simbolurilor naționale. Prin intermediul acest standard pot fi codificate 2 16 \u003d 65536 diferite caractere. În fig. 3.4 prezintă codul de cod 0400 (alfabetul rus) al standardului Unicode.

Smochin. 3.4. Unicode Cod standard Tabel 0400


Să explicăm ceea ce sa spus cu privire la codificarea informațiilor text, pe exemplu.

Exemplul 3.1.

Codând cuvântul "computer" sub forma unei secvențe de numere zecimale și hexazecimale utilizând codarea CP1251. Ce caractere vor fi afișate în tabele CP866 și în KOI8-P atunci când se utilizează codul rezultat.

Secvențele de cuvânt hexazecimal și binar "computer", pe baza tabelului de codificare CP1251 (vezi figura 3.3, b)va arăta astfel:

Această secvență de cod în codificările CP866 și KOI8-P va avea ca rezultat următoarele simboluri:

Pentru a converti documentele de text din limbă rusă de la un standard pentru codarea informațiilor text la altul, sunt utilizate programe speciale - convertoare. Convertoarele sunt de obicei încorporate în alte programe. Un exemplu este programul browserului - Internet Explorer. (Adică),care are un convertor încorporat. Programul Browser este un program special pentru vizualizarea conținutului. pagini webÎn Global. rețea de calculatoare Internetul. Folosim acest program pentru a confirma rezultatele afișajului de caractere obținute în Exemplul 3.1. Pentru a face acest lucru, efectuați următoarele acțiuni.

1. Porniți programul Notepad (Notepad).Program de notebook în sistemul de operare Windows XP.Începe utilizarea comenzii: [buton start - Programe standard - Notepad]. În fereastra programului Notepad care se deschide, tastați cuvântul "computer" utilizând sintaxa limbajului de marcare a documentelor hipertext - HTML (Limba de marcare hyper text).Această limbă este utilizată pentru a crea documente pe Internet. Textul ar trebui să arate astfel:

Calculator

Unde

și

Etichete (modele speciale) Limba HTML.pentru marcarea anteturilor. În fig. 3.5 a prezentat rezultatul acestor acțiuni.

Smochin. 3.5. Afișarea textului în fereastra Notepad


Salvați acest text prin rularea comenzii: [File - Salvare ca ...] În folderul corespunzător al computerului, când salvați fișierul text, atribuiți numele - aprox, cu extensia fișierului. HTML.

2. Porniți programul Internet Explorer,prin comandarea comenzii: [buton start - Programe - Internet Explorer].Când porniți programul, apare o fereastră în fig. 3.6.

Smochin. 3.6. Fereastra de acces offline.


Selectați și activați butonul Deconectatacest lucru nu va conecta un computer la un internet global. Fereastra principală a programului va apărea. Microsoft Internet Explorator,prezentat în fig. 3.7.

Smochin. 3.7. De bază fereastra Microsoft. Internet Explorer.


Efectuați următoarea comandă: [File - Open], va apărea o fereastră (figura 3.8), în care doriți să specificați numele fișierului și faceți clic pe buton O.K Sau apăsați butonul Prezentare generală…și găsiți fișierul aproximativ.html.

Smochin. 3.8. Fereastră "deschisă"


Fereastra principala programe Internet. Explorer va lua vizualizarea prezentată în fig. 3.9. Cuvântul "computer" apare în fereastră. Apoi, utilizând meniul de sus al programului Internet Explorer,vom executa următoarea comandă: [Vizualizare - Coding - Cyrilic (DOS)].După executarea acestei comenzi în fereastra programului Internet Explorerse vor afișa simbolurile prezentate în figură. 3.10. Când executați o echipă: [View - Codificare - Cyrilic (Koi8-r)]În fereastra programului Internet Explorer.se vor afișa simbolurile prezentate în figură. 3.11.

Smochin. 3.9. Simboluri afișate la codificarea CP1251


Smochin. 3.10. Simbolurile afișate când codarea CP866 este pornită pentru secvența de cod supusă codării CP1251


Smochin. 3.11. Simbolurile afișate atunci când codarea KOOO8-P este activată pentru secvența de cod supusă codificării CP1251


Astfel obținut utilizând programul Internet Explorer.secvențele caracterelor coincid cu secvențele caracterelor obținute utilizând tabele CP866 și KOI8-P în Exemplul 3.1.

3.2. Codarea informațiilor grafice.

Informații grafice prezentate sub formă de desene, fotografii, diapozitive, imagini în mișcare (animație, video), scheme, desene, pot fi create și editate folosind un computer, în timp ce este codificat în mod corespunzător. În prezent, există un număr suficient de mare de programe de aplicații pentru procesarea informațiilor grafice, dar toate implementează trei tipuri de grafică de calculator: raster, vector și fractal.

Dacă luați în considerare îndeaproape imaginea grafică pe ecranul monitorului computerului, puteți vedea un numar mare de Doturi multicolore (pixeli - din engleză. pixel,educat OT. element de imagine -un element al imaginii), care, fiind asamblat împreună și formează această imagine grafică. Din aceasta putem concluziona: imaginea grafică din computer este cu siguranță codificată și trebuie să fie reprezentată ca fișier grafic. Fișierul este principala unitate structurală a organizației și stocării în calculator și, în acest caz, ar trebui să conțină informații despre modul de prezentare a acestui set de puncte pe ecranul monitorului.

Fișierele create pe baza graficelor vectoriale conțin informații sub formă de dependențe matematice (funcții matematice care descriu dependențele liniare) și datele corespunzătoare despre modul de a construi o imagine a unui obiect utilizând segmente de linie (vectori) atunci când îl transmite la monitorul computerului ecran.

Fișierele create pe baza graficelor raster presupune stocarea datelor fiecărui punct de imagine individual. Nu sunt necesare calcule matematice complexe pentru a afișa grafice raster, este suficient să obțineți date despre fiecare punct de imagine (coordonatele și culoarea acestuia) și afișați-le pe ecranul monitorului computerului.

În procesul de codificare a imaginii, se efectuează eșantionarea sa spațială, adică imaginea este împărțită în puncte separate și fiecare punct este setat la codul de culoare (galben, roșu, albastru etc.). Pentru codificarea fiecărui punct de imagine grafică a culorilor, se utilizează principiul descompunerii culorii arbitrare pe componentele sale principale, care utilizează trei culori principale: roșu (cuvânt în limba engleză roșudenotă scrisoarea LA),verde (Verde,denotă scrisoarea G)albastru (ALBASTRU,denotă fagul ÎN).Orice culoare a punctului perceput de ochiul uman poate fi obținută prin adăugarea aditivă (proporțională) (amestecare) a celor trei culori principale - roșu, verde și albastru. Un astfel de sistem de codificare se numește sistemul de culori RGB.Fișiere. imagini graficeîn care se aplică sistemul de culori RGB,reprezintă fiecare punct al imaginii sub forma unui triplet color - trei valori numerice R, G.și ÎN,corespunzătoare intensităților de roșu, verde și albastru. Procesul de codificare a unei imagini grafice se efectuează utilizând diverse mijloace tehnice (scaner, cameră digitală, cameră video digitală etc.); Ca rezultat, se obține o imagine de raster. La redarea imaginilor grafice de culoare pe ecranul monitorului color, culoarea fiecărui punct (pixel) din această imagine este obținută prin amestecarea celor trei culori principale R, G. și B.

Calitate imaginea raster. Determinată de doi parametri principali - rezoluție (după numărul de puncte orizontale și verticale) și paleta de culori utilizate (numărul de culori specificate pentru fiecare punct al imaginii). Rezoluția este setată prin indicarea numărului de puncte orizontal și vertical, de exemplu 800 cu 600 de puncte.

Între numărul de culori definite de punctul de imagine raster și cantitatea de informații care trebuie alocate stocării culorii punctului, există o dependență determinată de relația (Formula R. Hartley):

unde I. - cantitatea de informații; N -numărul de punct de referință de culori.

Cantitatea de informații necesare pentru stocarea culorii punctului este numită și adâncimea culorii sau calitatea culorii.

Deci, dacă numărul de culori definite pentru punctul de imagine, N \u003d256, atunci cantitatea de informații necesare pentru depozitarea acesteia (adâncimea de culoare) în conformitate cu formula (3.1) va fi egală I. \u003d 8 biți.

În computere pentru a fi afișate informații grafice. Sunt utilizate diferite moduri de funcționare a monitorului grafic. Aici trebuie remarcat faptul că, în plus față de modul grafic de funcționare al monitorului, există, de asemenea, un mod text în care ecranul monitorului este împărțit în mod condiționat în 25 de rânduri de 80 de caractere în rând. Aceste moduri grafice sunt caracterizate prin rezoluția ecranului monitorului și a calității reproducerii culorilor (adâncimea de culoare). Pentru a seta modul ecranului monitorului grafic în sistemul de operare MS Windows XP.trebuie să executați comanda: [buton start - Configurare - Panou de control - Ecran]. În caseta de dialog "Proprietăți: ecran" (figura 3.12), trebuie să selectați fila "Parametri" și utilizând cursorul rezoluției ecranului pentru a selecta rezoluția ecranului corespunzător (800 la 600 de puncte, 1024 până la 768 de puncte etc.). Folosind lista de redare a culorilor, puteți selecta adâncimea de culoare - "cel mai mare (32 biți)", "înseamnă (16 biți)", etc., cu numărul de culori setate de fiecare punct de imagine, respectiv, egal cu 2 32 (4294967296), 2 16 (65536) etc.

Smochin. 3.12. Caseta de dialog "Proprietăți: ecran"


Pentru a implementa fiecare dintre modurile grafice, ecranul monitorului necesită un volum specific informativ al memoriei video computerului. Informații necesare Volumul memoriei video (V)determinată din relație

unde La -numărul de puncte de imagine de pe ecranul monitorului (K \u003d a · b); DAR -numărul de puncte orizontale de pe ecranul monitorului; În -numărul de puncte pe verticală pe ecranul monitorului; I. - cantitatea de informații (adâncimea de culoare).

Deci, dacă ecranul monitorului are o rezoluție de 1024 până la 768 de puncte și o paletă constând din 65.536 de culori, adâncimea de culoare în conformitate cu formula (3.1) va fi i \u003d log 2 65 538 \u003d 16 biți, numărul de puncte de imagine va fi: K \u003d.1024 x 768 \u003d 786432, iar volumul informativ necesar memoriei video în conformitate cu (3.2) va fi egal

V \u003d.786432 · 16 biți \u003d 12582912 BIT \u003d 1572864 BYTE \u003d 1536 KB \u003d 1,5 MB.

În concluzie, trebuie remarcat faptul că, în plus față de caracteristicile enumerate ale celor mai importante caracteristici ale monitorului, sunt dimensiunile geometrice ale ecranului și punctelor de imagine. Dimensiunile geometrice ale ecranului sunt specificate de valoarea diagonală diagonală. Diagonala monitoarelor este așezată în inci (1 inch \u003d 1 "\u003d 25,4 mm) și poate lua valori egale cu: 14", 15 ", 17", 21 ", etc. Tehnologiile moderne pentru producția de monitoare pot oferi Dimensiunea punctului de imagine este egală cu 0,22 mm.

Astfel, pentru fiecare monitor, există fizic rezoluția maximă posibilă a ecranului, determinată de dimensiunea diagonală și de dimensiunea punctului de imagine.

Exerciții pentru auto-execuție

1. Utilizarea programului MS Excel.convertiți tabelele de cod ASCII, CP866, CP1251, KOI8-P la tabele de tip: în celulele primei coloane a tabelelor, scrieți în ordine alfabetică și apoi literele mici ale latinei și chirilice, în celulele a doua Coloana - corespunzătoare codurilor de litere din sistemul numeric zecimal, în celulă, a treia coloană este codurile corespunzătoare într-un sistem numeric hexazecimal. Codurile trebuie selectate din tabelele de cod corespunzătoare.

2. Codificarea și înregistrarea ca o secvență de numere într-un sistem numeric zecimal și hexazecimal următoarele cuvinte:

a) Internet Explorer,b) Microsoft Office;în) Corel Draw.

Codificarea producerii utilizării unui tabel de codificare ASCII actualizat obținut în exercițiul anterior.

3. Decodarea utilizând o tabel de codificare modernizată KOI8-P secvență de numere înregistrate într-un sistem de număr hexazecimal:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CD D2 CD CD CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE CD CD.

4. Cum va fi înregistrată cuvântul "Cybernetics" în codificarea CP1251, atunci când se utilizează codificări CP866 și KOI8-P? Verificați rezultatele cu programul Internet Explorer.

5. Utilizarea tabelului de cod prezentat în fig. 3.1. dar,decodați următoarele secvențe de cod înregistrate în sistemul de număr binar:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Determinați volumul informativ al cuvântului "Economie" codificat utilizând tabele CP866, CP1251, UNICODE și KOI8-P.

7. Determinați volumul informațiilor din fișierul obținut ca rezultat al unei scanări de imagine de 12x12, cm. Rezoluția scanerului utilizat la scanarea acestei imagini este de 600 dpi. Scanerul stabilește adâncimea culorii imaginii de 16 biți.

Rezolvarea scanerului 600 dpi (Dotper inch -inch Dots) Determină capacitatea de scanare cu o astfel de rezoluție pe un segment de 1 inch disting de 600 de puncte.

8. Determinați fișierul de informații care rezultă din scanarea unei imagini de culoare A4. Rezoluția scanerului utilizat la scanarea acestei imagini este de 1200 dpi. Scanerul stabilește adâncimea culorii punctului de culori de 24 de biți.

9. Determinați numărul de culori din paletă la o adâncime de culoare de 8, 16, 24 și 32 de biți.

10. Determinați volumul necesar de memorie video pentru modurile grafice ale ecranului monitorului 640 până la 480, 800 până la 600, 1024 până la 768 și 1280 la 1024 puncte la o adâncime de culoare a punctului de imagine 8, 16, 24 și 32 de biți. Rezultate pentru a reduce tabelul. Dezvoltați B. MS Excel.program pentru automatizarea calculelor.

11. Determinați numărul maxim de culori care i se permite să fie utilizat pentru a stoca o imagine cu o dimensiune de 32 la 32 de puncte dacă computerul este evidențiat sub imaginea de 2 kB de memorie.

12. Determinați maximul posibil permițând capacitatea ecranului monitorului care are o lungime diagonală 15 "și dimensiunea punctului de imagine este de 0,28 mm.

13. Care sunt modurile grafice ale monitorului pot oferi memorie video cu un volum de 64 MB?

Burling

I. Istoria codării informațiilor .................................... ..3

II. Informații de codare ................................................ 4.

III. Codificarea informațiilor text .................................. 4

IV. Tipuri de tabele de codare .............................................. .. ... 6.

V. Calcularea numărului de informații despre text ............................ 14

Lista literaturii utilizate ......................................... 16

I. . Istoricul codului de informare

Umanitatea utilizează criptarea (codificarea) de text de la momentul în care a apărut prima dată informații secrete. Iată câteva tehnici de codificare a textului, care au fost inventate în diferite etape ale dezvoltării gândirii umane:

Criptografia este un gradient, un sistem de schimbare a scrisorii pentru a face textul incomprehensibil persoanelor neinstituite;

Morse alfabet sau cod de telegraf inegal în care fiecare literă sau semn este reprezentată de combinația de parcele elementare scurte curent electric (puncte) și colete elementare ale duratei triple (linia);

slurgoes - Limba de gest utilizat de persoane cu insuficiență auditivă.

Una dintre primele metode cunoscute de criptare este numele împăratului roman Julia Caesar (I Century BC). Această metodă se bazează pe înlocuirea fiecărei litere a textului criptat, la alta, prin deplasare în alfabetul din litera originală la numărul fix de caractere, iar alfabetul este citit într-un cerc, adică după litera I sunt considerat a. Deci, cuvântul "octet" atunci când a fost deplasat două caractere în dreapta este codificat de cuvântul "GVF". Procesul invers al decriptării acestui cuvânt - este necesar să înlocuiți fiecare literă criptată, la al doilea din stânga.

II. Codarea informațiilor

Codul este un set de denumiri condiționate (sau semnale) pentru înregistrarea (sau transmiterea) unor concepte predeterminate.

Codificarea informațiilor este procesul de formare a unei anumite prezentări a informațiilor. Într-un sens mai restrâns, termenul "codificare" înțeleg adesea tranziția de la o formă de prezentare a informațiilor la altul, mai convenabil pentru depozitare, transmisie sau prelucrare.

De obicei, fiecare imagine la codificare (uneori spun - criptată) reprezentând un semn separat.

Semnul este elementul setului final de elemente, altele decât unele.

Într-un sens mai restrâns, termenul "codificare" înțeleg adesea tranziția de la o formă de prezentare a informațiilor la alta, mai convenabil pentru depozitare, transmisie sau prelucrare.

Pe computer puteți procesa informații despre text. La intrarea în computer, fiecare literă este codificată de un anumit număr și când afișați un dispozitiv extern (ecran sau tipărire), imaginile de litere sunt construite pentru percepția acestor numere. Corespondența dintre setul de litere și numere se numește codificarea caracterelor.

De regulă, toate numerele din computer sunt prezentate folosind zerouri și unități (și nu zece cifre, așa cum este familiar pentru oameni). Cu alte cuvinte, computerele funcționează de obicei într-un sistem de număr binar, deoarece dispozitivele de prelucrare sunt obținute mult mai ușor. Introducerea numerelor în computer și retragerea acestora pentru a citi de către o persoană poate fi efectuată în forma zecimală obișnuită și toate transformările necesare efectuează programe care rulează pe computer.

III. Codificarea informațiilor text.

Aceleași informații pot fi prezentate (codificate) în mai multe forme. Cu apariția computerelor, era necesar să coordim toate tipurile de informații cu care o persoană separată și o umanitate în ansamblu. Dar pentru a rezolva sarcina de a codifica informațiile, omenirea a început cu mult înainte de computere. Marele realizări ale omenirii - scriere și aritmetică - nu există nimic mai mult decât un sistem de codare a vorbirii și informații numerice. Informațiile nu apar niciodată în forma sa pură, este întotdeauna prezentată, cumva codificată.

Codificarea binară este una dintre modalitățile comune de a prezenta informații. În mașinile de calcul, în roboți și mașini de control numeric, de regulă, toate informațiile cu care dispozitivul are un caz sunt codificate ca cuvinte ale alfabetului binar.

Începând cu sfârșitul anilor '60, computerele au devenit din ce în ce mai folosite pentru a gestiona informațiile text și acum cota principală calculatoare personale În lume (și de cele mai multe ori) este ocupată de prelucrarea informațiilor text. Toate aceste tipuri de informații din computer sunt prezentate în cod binar, adică alfabetul este utilizat cu o putere de două (doar două caractere 0 și 1). Acest lucru se datorează faptului că este convenabil să se prezinte informații sub forma unei secvențe de impulsuri electrice: impulsul lipsește (0), impulsul este (1).

O astfel de codificare se numește binar, iar secvențele logice ale zerourilor și unităților sunt limba mașinii.

Din punctul de vedere al computerului, textul constă în caractere individuale. Nu numai scrisori (capital sau litere mici, latine sau rusești), dar, de asemenea, numere, semne de punctuație, amestecuri speciale cum ar fi "\u003d", "(", ", etc. și chiar (acordă o atenție deosebită!) Spații între cuvinte.

Textele sunt introduse în memoria computerului utilizând tastatura. Literele, numerele, semnele de punctuație și alte caractere sunt scrise pe chei. ÎN berbec Ei cad în cod binar. Aceasta înseamnă că fiecare simbol pare a fi un cod binar pe 8 biți.

În mod tradițional, pentru codificarea unui caracter, cantitatea de informații este utilizată egală cu 1 octeți, adică I \u003d 1 byte \u003d 8 biți. Cu ajutorul unei formule care leagă numărul de evenimente posibile la și cantitatea de informații, puteți calcula câte caractere diferite pot fi codificate (numărând că simbolurile sunt posibile evenimente): K \u003d 2 I \u003d 2 8 \u003d 256, IE Pentru prezentările de informații textuale puteți utiliza alfabetul cu o putere de 256 de caractere.

Un astfel de număr de caractere este destul de suficient pentru a prezenta informații despre text, inclusiv literele majuscule și litere mici ale alfabetului rus și latin, numerele, semnele, simbolurile grafice etc.

Codificarea este că fiecare simbol este pus în linie cu un cod zecimal unic de la 0 la 255 sau codul binar corespunzător acestuia de la 00000000 la 11111111. Astfel, o persoană distinge caracterele la designul lor și calculatorul - conform codului lor.

Comoditatea de codificare a simbolului supra-off este evidentă, deoarece octeți - cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul se poate referi la fiecare caracter separat prin efectuarea procesării textului. Pe de altă parte, 256 de caractere sunt destul de suficient pentru a reprezenta cele mai variate informații simbolice.

În timpul ieșirii simbolului de pe ecranul computerului, procesul de inversare este făcut - decodarea, adică conversia codului de simbol în imaginea sa. Este important ca atribuirea unui anumit simbol de cod să fie o chestiune de acord care este fixată în tabelul de cod.

Acum apare întrebarea pe care un cod binar de opt pentru a pune în linie cu fiecare simbol. Este clar că aceasta este o chestiune condiționată, puteți veni cu multe metode de codare.

Toate simbolurile alfabetului de calculator sunt numerotate de la 0 la 255. Chiar și numărul corespunde codului binar cu opt biți de la 00000000 la 11111111. Acest cod este pur și simplu numărul de secvență al simbolului în sistemul numeric binar.

IV. . Tipuri de tabele de codare

Un tabel în care toate caracterele alfabetului de calculator sunt realizate în conformitate cu numerele de secvență, se numește tabelul de codificare.

Pentru tipuri diferite EUM utilizează diferite tabele de codare.

Ca standard internațional, se adoptă tabelul de cod ASCII (codul standard american pentru schimbul de informații - codul standard american pentru schimbul de informații), codificarea primei jumătăți de caractere cu coduri numerice de la 0 la 127 (codurile de la 0 la 32 nu sunt setate ca simboluri, dar tastele funcționale).

Tabelul de cod ASCII este împărțit în două părți.

Standardul internațional este doar prima jumătate a tabelului, adică. Simboluri cu numere de la 0 (00000000), până la 127 (01111111).

ASCII Codificarea structurii mesei

Număr de serie Codul Simbol
0 - 31 00000000 - 00011111

Simbolurile cu numere de la 0 la 31 sunt numite manageri.

Funcția lor este de a controla procesul de ieșire a textului pe ecran sau imprimare, semnalul de sunet, marcajul de text etc.

32 - 127 0100000 - 01111111

Partea standard a tabelului (engleză). Acestea includ litere mici și majuscule ale alfabetului latin, numere zecimale, semne de punctuație, toate tipurile de paranteze, comerciale și alte caractere.

Simbol 32 - Spațiu, adică Poziția goală în text.

Toate celelalte sunt reflectate de anumite semne.

128 - 255 10000000 - 11111111

Parte alternativă a tabelului (rusă).

A doua jumătate a tabelului de cod ASCII, numit pagina de cod (128 coduri, începând cu 10.000.000 și terminând 11111111), poate avea diferite opțiuni, fiecare opțiune are propriul număr.

Pagina de cod este utilizată în principal pentru a găzdui alfabete naționale, altele decât latinele. În codificările naționale rusești, simbolurile alfabetului rus sunt plasate în această parte a mesei.

Prima jumătate a tabelului Codurilor ASCII

Este atras de faptul că în tabelul de codificare, literele (majuscule și minuscule) sunt aranjate în ordine alfabetică, iar numerele sunt comandate prin creșterea valorilor. Această aderare la ordinea lexicografică în aranjarea simbolurilor se numește principiul codificării secvențiale a alfabetului.

Pentru scrisorile alfabetului rus, se observă, de asemenea, principiul codificării seriale.

A doua jumătate a tabelului Codurilor ASCII

Din păcate, în prezent există cinci codificări chirilice diferite (KOI8-P, Windows. MS-DOS, Macintosh și ISO). Din acest motiv, problemele apar adesea cu transferul textului rusesc de la un computer la altul, de la unul sistem software. altcuiva.

Din punct de vedere cronologic unul dintre primele standarde de codificare a literelor ruse pe computere a fost KOI8 ("Codul schimbului de informații, 8 biți"). Această codificare a fost utilizată în anii '70 pe computerele seriei UE, iar de la mijlocul anilor 80 a început să fie utilizat în primele versiuni rusive ale sistemului de operare Unix.

De la începutul anilor '90, momentul dominației sistemului de operare MS DOS, codificarea CP866 rămâne ("CP" înseamnă "pagina de cod", "Pagina de cod").

Computerele Apple care rulează sistemul de operare Mac OS utilizează propria lor codificare MAC.

În plus, organizația internațională de standarde, ISO) a aprobat o altă codificare numită ISO 8859-5 ca standard pentru limba rusă.

Cele mai frecvente sunt în prezent codificarea Microsoft Windows, notată prin reducerea CP1251. Introdus de Microsoft; Având în vedere diseminarea pe scară largă a sistemelor de operare (OS) și a altor produse software ale acestei companii în Federația Rusă, aceasta a fost larg răspândită.

De la sfârșitul anilor '90, problema standardizării codificării simbolice este rezolvată prin introducerea unui nou standard internațional numit Unicode.

Aceasta este o codificare pe 16 biți, adică. În el, fiecare simbol este dat 2 octeți de memorie. Desigur, cantitatea de memorie ocupată de 2 ori. Dar această masă de cod vă permite să activați până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial ale lumii, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Vizualizare internă în memoria calculatorului

folosind tabelul ASCII

Uneori se întâmplă că textul format din literele alfabetului rus, obținut de la un alt computer, nu poate fi citit - unele "Abrakadabra" pot fi vizibile pe ecranul monitorului. Acest lucru se întâmplă deoarece computerele utilizează codificarea diferită a simbolurilor limbii ruse.

Astfel, fiecare codificare este setată de tabelul său de cod propriu. După cum se poate vedea din tabel, același cod binar în diferite codificări se face în conformitate cu diferite caractere.

De exemplu, secvența codurilor numerice 221, 194, 204 în codarea CP1251 formează cuvântul "computer", în timp ce în alte codificări va fi un set de caractere fără sens.

Din fericire, în majoritatea cazurilor, utilizatorul nu trebuie să aibă grijă de transcodarea documentelor text, deoarece acestea fac programe speciale de conversie integrate în aplicații.

V. . Calcularea numărului de informații text

Sarcina 1: Ștergeți cuvântul "Roma" utilizând mesele de codare KOO8-P și CP1251.

Decizie:

Sarcina 2: Având în vedere că fiecare caracter este codificat de un octet, apreciați volumul informațiilor despre următoarea teză:

"Unchiul meu de reguli cele mai cinstite,

Când nu o glumă,

El sa forțat

Și a fost mai bine să inventați nu ar putea. "

Decizie: În această expresie, 108 de caractere, având în vedere semnele, citatele și spațiile de punctuație. Înmulțiți această sumă cu 8 biți. Avem 108 * 8 \u003d 864 biți.

Sarcina 3: Două texte conțin același număr de caractere. Primul text este înregistrat în limba rusă, iar al doilea în limba tribului Naguri, alfabetul constă din 16 caractere. Al cărui text poartă mai multe informații?

Decizie:

1) I \u003d K * A (Volumul informativ al textului este egal cu produsul numărului de caractere la greutatea informației a unui simbol).

2) Deoarece. Ambele texte au același număr de caractere (k), atunci diferența depinde de informativitatea unui singur simbol alfabet (a).

3) 2 A1 \u003d 32, adică A 1 \u003d 5 biți, 2 A2 \u003d 16, adică A 2 \u003d 4 biți.

4) i 1 \u003d k * 5 biți, i 2 \u003d k * 4 biți.

5) Deci, textul înregistrat în limba rusă este de 5/4 ori mai multe informații.

Sarcina 4: Volumul unui mesaj care conține 2048 de caractere a fost de 1/512 parte din MB. Determină puterea alfabetului.

Decizie:

1) I \u003d 1/512 * 1024 * 1024 * 8 \u003d 16384 biți - Informații transferate Informații în biți.

2) A \u003d I / K \u003d 16384/1024 \u003d 16 biți - Conturi pentru un simbol alfabet.

3) 2 * 16 * 2048 \u003d 65536 caractere - puterea alfabetului folosit.

Sarcina 5: Imprimanta laser Canon LBP imprimă la o medie de 6,3 kbps pe secundă. Cât timp va trebui să imprimați un document de 8 pagini, dacă este cunoscut faptul că pe o singură pagină în medie 45 de linii, în linie 70 caractere (1 simbol - 1 octet)?

Decizie:

1) găsim cantitatea de informații conținute pe 1 pagină: 45 * 70 * 8 biți \u003d 25200 biți

2) Găsiți cantitatea de informații despre 8 pagini: 25200 * 8 \u003d 201600 biți

3) duce la unități unice de măsurare. Pentru această mbty, traducem în biți: 6,3 * 1024 \u003d 6451,2 biți / s.

4) Găsiți un timp de imprimare: 201600: 6451.2 \u003d 31 de secunde.

Bibliografie

1. AGEEV V.M. Teoria informațiilor și codificării: eșantionarea și codificarea informațiilor de măsurare. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Elementele de bază ale teoriei informațiilor și codării. - Kiev, vice-școală, 1986.

3. Cele mai simple metode de criptare a textului / d.M. Zlatopolsky. - M.: Batel curat, 2007 - 32 s.

4. Ugrinovich n.d. Informatică I. tehnologia de informație. Tutorial pentru orele 10-11 / N.D. Vugrinovich. - M.: Binom. Laboratorul de cunoștințe, 2003. - 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n.

Material pentru auto-studiu privind prelegerile 2

Codificarea ASCII.

ASCII Tabelul de codificare (ASCII - Cod standard american pentru schimbul de informații - Codul standard american pentru informații despre Exchange).

În total, folosind tabelul de codificare ASCII (Figura 1), puteți codifica 256 de caractere diferite. Acest tabel este împărțit în două părți: principalul (cu codurile OOH de până la 7fh) și o suplimentare (de la 80h la FFH, unde litera H denotă codurile la sistemul numeric hexazecimal).

Imaginea 1.

Pentru codificarea unui caracter din tabel, sunt date 8 biți (1 octet). La procesarea informațiilor text, un octet poate conține un cod de simbol - litere, numere, semn de punctuație, semn de acțiuni etc. Fiecare personaj corespunde codului său sub forma unui număr întreg. În același timp, toate codurile sunt colectate în tabele speciale numite codificare. Cu ajutorul lor, codul de simbol este convertit în vizualizarea vizibilă pe ecranul monitorului. Ca rezultat, orice text din memoria calculatorului este reprezentat ca o secvență de octeți cu coduri de simboluri.

De exemplu, cuvântul Bună ziua! vor fi codificate după cum urmează (Tabelul 1).

tabelul 1

Cod binar

Codul zecimal.

Figura 1 prezintă simbolurile incluse în standard (engleză) și enorm (rusă) care codifică ASCII.

Prima jumătate a mesei ASCII este standardizată. Acesta conține coduri de control (de la 00h la 20h și 77h). Aceste coduri din tabel sunt confiscate, deoarece nu aparțin elementelor de text. Există, de asemenea, semne de semne de punctuație și semne matematice: 2LH -! 26H - & 28H - (, 2bh - +, ..., litere latine mari și mici: 41h - A, 61h - a.

A doua jumătate a tabelului conține fonturi naționale, simboluri ale pseudograficelor, din care pot fi construite semne matematice speciale. Partea inferioară a tabelului de codificare poate fi înlocuită utilizând programele auxiliare de control corespunzătoare. Această tehnică vă permite să aplicați mai multe fonturi și căștile lor.

Afișajul pentru fiecare cod de simbol ar trebui să afișeze imaginea simbolului - nu doar un cod digital, ci imaginea corespunzătoare corespunzătoare acesteia, deoarece fiecare simbol are propria sa formă. Forma formei fiecărui caracter este stocată într-o memorie specială de afișare - un semnaloganator. Evidențiați simbolul de pe ecranul de afișare IBM PC, de exemplu, se efectuează folosind puncte care formează o matrice simbolică. Fiecare pixel într-o astfel de matrice este un element de imagine și poate fi luminos sau întunecat. Punctul întunecat este codificat cu un număr 0, luminos (luminos) - 1. Dacă descrieți pixelii întunecați din câmpul Matrix din câmpul Matrix și un asterisc luminos, puteți descrie grafic forma simbolului.

Oamenii din diferite țări folosesc simboluri pentru a înregistra cuvintele zykovului lor nativ. În zilele noastre, majoritatea aplicațiilor, inclusiv sisteme e-mail Și browserele web sunt pure pe 8 biți, adică pot arăta și percepe corect caracterele de 8 biți, conform ISO-8859-1.

Există mai mult de 256 de caractere în lume (dacă luați în considerare limbile chirilică, arabă, chineză, japoneză, coreeană și thailandeză) și toate simbolurile noi și noi apar. Și creează următoarele lacune pentru mulți utilizatori:

Nu este posibilă utilizarea caracterelor diferitelor seturi de codare în același document. Deoarece fiecare document text utilizează propriul set de codificări, există mari dificultăți cu recunoașterea automată a textului.

Personajele noi apar (de exemplu: Euro), ca urmare a căreia ISO dezvoltă un nou standard ISO-8859-15, care este foarte asemănător cu standardul ISO-8859-1. Diferența este după cum urmează: Simbolurile pentru desemnarea monedelor vechi sunt eliminate din tabelul de codificare ISO-8859-1, care nu sunt utilizate în prezent pentru a face spațiu pentru caracterele recent apărute (cum ar fi euro). Ca urmare, utilizatorii de pe discuri pot să afle aceleași documente, dar în diferite codificări. Soluția la aceste probleme este adoptarea unui singur set internațional de codificări, numit codificare universală sau Unicode.

Codificarea Unicode.

Standardul a fost propus în 1991 de către organizația non-profit "Unicode Consortium" (Inc. UniCode Consortium, Unicode Inc.). Aplicarea acestui standard vă permite să codificați foarte mult număr mare. Simboluri din diferite limbi scrise: caractere chinezești, simboluri matematice, litere ale alfabetului grecesc, latină și chirilică și chirilică, pot fi adiacente în documentele Unicode și devine pagini de cod de comutare inutile.

Standardul este alcătuit din două secțiuni principale: un set universal de caractere (Eng. UCS, set de caractere universale) și o familie de codificare (în engleză UTF, format de transformare Unicode). Setul universal de caractere stabilește conformitatea definită a caracterelor cu coduri - elemente ale spațiului de cod reprezentând întregi ne-negative. Familia de codare determină reprezentarea mașinii a secvenței codurilor UCS.

Standardul Unicode a fost conceput pentru a crea o singură codificare a simbolurilor tuturor limbilor moderne și mai vechi. Fiecare simbol din acest standard este codificat cu 16 biți, ceea ce îi permite să acopere incomparabil mai multe caractere decât codificările pe 8 biți luate mai devreme. O altă distincție importantă a Unicode din alte sisteme de codificare este că nu numai că atribuie fiecărui simbol. cod unic., dar determină, de asemenea, diferitele caracteristici ale acestui simbol, de exemplu:

    tip de simbol (litere mari, litere mici, cifre, semn de punctuație etc.);

    atribute de simbol (afișaj din stânga la dreapta sau dreapta stânga, spațiu, pauză de rând etc.);

    litere mari sau litere mici (pentru litere mici și majuscule, respectiv);

    valoarea numerică corespunzătoare (pentru caractere digitale).

Întreaga gamă de coduri de la 0 la FFFF este împărțită în mai multe subseturi standard, fiecare corespunde fie alfabetului de un fel de limbă, fie unui grup de caractere speciale similare funcțiilor sale. Următoarea schemă conține o listă totală de subseturi Unicode 3.0 (Figura 2).

Figura 2.

UniCode Standard este baza pentru stocarea și textul în multe sisteme informatice moderne. Cu toate acestea, nu este compatibil cu majoritatea protocoalelor de Internet, deoarece codurile sale pot conține valori octeți, iar protocoalele utilizează de obicei octeți 00 - 1f și Fe - FF ca serviciu. Pentru a realiza compatibilitatea, au fost dezvoltate mai multe formate de conversie Unicode (UTFS, formate de transformare Unicode), din care astăzi este cel mai comun UTF-8. Acest format definește următoarele reguli pentru conversia fiecărui cod Unicode într-un set de octeți (de la unul la trei) adecvat pentru transportul protocoalelor de internet.

Aici x, Y, Z Denotați biții codului sursă, care trebuie eliminat de la cel mai tânăr și care va fi introdus în rezultatele din stânga spre stânga până când toate pozițiile specificate sunt umplute.

Dezvoltarea ulterioară a standardului Unicode este asociată cu adăugarea de planuri noi de limbă, adică Simboluri în intervalele de 10.000 - 1FFFF, 20.000 - 2FFFFF, etc., în cazul în care se presupune că este codificarea pentru scrierile limbajelor moarte care nu au căzut în tabelul de mai sus. Pentru a codifica aceste caractere suplimentare, a fost dezvoltat un nou format UTF-16.

Astfel, există 4 modalități principale de codificare a octeților în format Unicode:

UTF-8: 128 de caractere sunt codificate de un octet (format ASCII), 1920 caractere sunt codificate cu 2 octeți (roman, greci, chirilici, coptice, armean, ebraici, simboluri arabe), 63488 de caractere sunt codificate de 3 octeți (chinezi , Japoneză și colab.) Celelalte 2 147 418 112 caractere (nepublicate încă) pot fi codificate cu 4, 5 sau 6 octeți.

UCS-2: Fiecare simbol este reprezentat de 2 octeți. Această codificare include doar primele 65.535 de caractere din format Unicode.

UTF-16: Este o extensie a UCS-2, include 1 114 112 caractere de format Unicode. Primele 65.535 de caractere sunt reprezentate de 2 octeți, restul - 4 octeți.

USC-4: Fiecare caracter este codificat de 4 octeți.

Unicode (în limba engleză Unicode) este standardul standard de codare. Pur și simplu puneți, acesta este un tabel de conformitate al semnelor de text (litere, elemente de punctuație) coduri binare. Computerul înțelege numai secvența de zerouri și unități. Astfel încât el știa exact ce trebuie afișat pe ecran, trebuie să atribuiți numărul dvs. unic fiecărui simbol. În anii optzeci, semnele au fost codificate de un octet, adică opt biți (fiecare bit este 0 sau 1). Astfel, sa dovedit că o masă (este aceeași codificare sau setată) poate găzdui doar 256 de caractere. Acest lucru nu poate fi suficient chiar și pentru o singură limbă. Prin urmare, au apărut multe codificări diferite, confuzia cu care a dus adesea la faptul că au apărut pe ecran un krakozyabry ciudat în locul textului citit. Standardul unificat a fost necesar, care a devenit Unicode. Cea mai folosită codificare - UTF-8 (format de transformare Unicode) pentru imaginea simbolului implică de la 1 la 4 octeți.

Simboluri

Simbolurile din tabelele Unicode sunt numerotate de numere hexazecimale. De exemplu, chirilic majusculă M este notat de u + 041c. Aceasta înseamnă că se află la intersecția șirului 041 și a coloanei din C. Poate fi pur și simplu copiată și apoi introdusă undeva. Pentru a nu ruma în lista de mai multe kilometri, ar trebui să utilizați căutarea. Mergeți la pagina de simbol, veți vedea numărul său în Unicode și o modalitate de desen în diferite fonturi. Puteți să conduceți în șirul de căutare și în semnul în sine, chiar dacă pătratul este desenat, cel puțin pentru a afla ce a fost. De asemenea, pe acest site există seturi speciale (și aleatorii) de același tip de icoane colectate din diferite secțiuni pentru confortul utilizării acestora.

Unicod Standard - International. Aceasta include semne de aproape toată scrisul lumii. Inclusiv cele care nu se mai aplică. Hieroglife egiptene, rune germane, scrierea maya, clinp și alfabete ale statelor antice. Prezentat și desemnați de măsuri și scale, alfabetizare muzicală, concepte matematice.

Consorțiul Unicode însăși nu inventează noi simboluri. Tabelele sunt adăugate la mesele care își găsesc utilizarea în societate. De exemplu, semnul ruble a fost utilizat în mod activ timp de șase ani înainte de a fi adăugat la Unicode. Pictogramele Emoji (emoticoane) au câștigat mai întâi utilizarea pe scară largă în Japonia înainte de a fi incluse în codificare. Dar mărcile comerciale și logo-urile companiei nu sunt adăugate fundamental. Chiar și pavilionul Apple Apple sau Windows. Până în prezent, aproximativ 120 mii de caractere sunt codificate în versiunea 8.0.