Nu există caractere ASCII. Codificarea informațiilor text.

Computerul înseamnă procesul transformării sale într-o formă care vă permite să organizați mai multă transmisie, depozitarea sau procesarea automată a acestor date. În acest scop, se utilizează diverse tabele. Codificarea ASCII este primul sistem dezvoltat în Statele Unite pentru a lucra cu textul limbii engleze, care a fost ulterior distribuit în întreaga lume. Descrierile, caracteristicile, proprietățile și utilizarea ulterioară sunt dedicate articolului prezentat mai jos.

Afișați și stocați informații în computer

Simbolurile de pe un monitor de calculator sau pe un gadget digital mobil sunt formate pe bază de seturi de forme vectoriale de toate tipurile de semne și cod care vă permit să găsiți caracterul dintre ele pe care doriți să le introduceți în locul potrivit. Este o secvență de biți. Astfel, fiecare simbol trebuie să se potrivească cu siguranță unui set de zerouri și unități care stau într-o anumită ordine unică.

Cum a început totul

Din punct de vedere istoric, primele computere au fost vorbind în limba engleză. Pentru a codifica informații simbolice în ele, a fost suficient să folosiți doar 7 biți de memorie, în timp ce în acest scop a fost 1 octet, alcătuit din 8 biți. Numărul de semne înțelese de calculator în acest caz a fost egal cu 128. Numărul unor astfel de caractere a inclus un alfabet englez cu semne de punctuație, numere și câteva caractere speciale. O codificare cu șapte codată în limba engleză cu tabelul corespunzător (pagina de cod), dezvoltată în 1963, a fost numită Cod standard american pentru schimbul de informații. De obicei, pentru desemnarea sa, abrevierea "Codificarea ASCII" a fost utilizată și utilizată în această zi.

Tranziție la multiplicarea

De-a lungul timpului, computerele au devenit utilizate pe scară largă în țările care nu sunt angajate. În acest sens, a existat o nevoie de codificări care ne permit să folosim limbile naționale. Sa decis să nu reinventeze bicicleta și să ia ca bază a ASCII. Tabelul de codificare din noua ediție sa extins semnificativ. Utilizarea a 8-a biți a permis 256 de caractere pentru a se traduce într-un limbaj de calculator.

Descriere

Codificarea ASCII are un tabel care este împărțit în 2 părți. Standardul internațional general acceptat este considerat doar prima sa repriză. Include:

Simboluri cu numere de secvență de la 0 la 31, codificate prin secvențe de la 00000000 la 00011111. Acestea sunt atribuite pentru a controla caracterele care urmează procesul de ieșire a textului pe ecran sau imprimanta, semnalul de sunet etc.
Simboluri cu NN în tabelul de la 32 la 127, codificați prin secvențe de la 00100000 la 01111111 constituie o parte standard a tabelului. Acestea includ un spațiu (N 32), literele alfabetului latin (litere mici și majuscule), numere de zece cifre de la 0 la 9, semne de punctuație, paranteze de inscripție diferită și alte caractere.
Simboluri cu numere de secvențe de la 128 la 255, codificate prin secvențe de la 10.000.000 la 1111111. Acestea sunt scrisorile alfabetelor naționale, altele decât latinele. Este această parte alternativă a tabelului de codificare ASCII care este utilizat pentru a converti simbolurile rusești la formularul de calculator.

Unele proprietăți

Caracteristicile codării ASCII includ diferența dintre literele "A" - "Z" ale registrelor inferioare și superioare cu un singur bit. Această circumstanță simplifică foarte mult transformarea registrului, precum și verificarea acestuia aparțin domeniului specificat de valori. În plus, toate literele din sistemul de codare ASCII sunt reprezentate de numerele de ordine proprii în alfabetul care sunt scrise 5 cifre într-un sistem de număr binar, în fața căruia pentru literele din registrul inferior costă 011 2 și partea superioară - 010 2.

Caracteristicile caracteristicilor de codare ASCII pot fi, de asemenea, clasificate și reprezentând 10 cifre - "0" - "9". În cel de-al doilea sistem numeric, încep cu 00112 și se termină cu 2 valori ale numerelor. Deci, 0101 2 este echivalent cu un număr zecimal cinci, astfel încât simbolul "5" este scris ca 0011 01012. Bazându-se pe cele de mai sus, puteți converti cu ușurință numerele zecimale binare la șirul din codificarea ASCII prin adăugarea secvenței de biți stângi 00112 pentru fiecare MB.

"Unicode"

După cum știți, mii de caractere sunt obligați să afișeze texte în limbile Grupului Asiei de Sud-Est. Această sumă nu este descrisă în nici un fel într-o singură informație pate, deci chiar și versiunile extinse ale ASCII nu mai pot îndeplini nevoile sporite ale utilizatorilor din diferite țări.

Deci, a fost necesară o codificare universală a textului, a căror dezvoltare, cu cooperarea cu mulți lideri ai industriei IT mondiale, a fost angajat un consorțiu "Unicode". Experții săi au creat sistemul UTF 32. În ea, 32 de biți constituie 4 octeți de informații au fost eliberați pentru codarea 1 a simbolului. Principalul dezavantaj a fost o creștere accentuată a cantității de memorie necesară de 4 ori, ceea ce a însemnat multe probleme.

În același timp, pentru majoritatea țărilor cu limbi oficiale referitoare la grupul indo-european, numărul de semne egal cu 2 32 este mai mult decât redundant.

Ca urmare a lucrărilor ulterioare ale specialiștilor din consorțiul "Unicode", a apărut o codificare UTF-16. Acesta a devenit opțiunea de a converti informațiile simbolice care au aranjat toate atât de volumul memoriei necesare, cât și de numărul de simboluri codificate. De aceea UTF-16 a fost acceptat în mod implicit și în el pentru o marcă trebuie să rezervați 2 octeți.

Chiar și această versiune destul de avansată și de succes a "Unicode" a avut unele dezavantaje, iar după trecerea de la versiunea extinsă a ASCII la UTF-16 a crescut de două ori greutatea documentului.

În acest sens, sa decis utilizarea codificării variabilelor variabile UTF-8. În acest caz, fiecare pictogramă de text sursă este codificată de o secvență de 1 până la 6 octeți.

Comunicare cu codul standard american pentru schimbul de informații

Toate semnele alfabetului latin în lungimea variabilă UTF-8 sunt codificate în 1 octet, ca în sistemul de codificare ASCII.

O caracteristică a UTF-8 este că, în cazul textului din Latinia fără a utiliza alte caractere, chiar și programele care nu înțeleg "Unicode" vă vor permite să o citiți. Cu alte cuvinte, partea de bază a textului ASCII care codifică pur și simplu la noua variabilă de lungime UTF. Semnele chirilice în UTF-8 ocupă 2 octeți și, de exemplu, georgiană - 3 octeți. Crearea UTF-16 și 8 a fost rezolvată principala problemă de a crea un spațiu unic de cod în fonturi. De atunci, producătorii de fonturi rămân doar pentru a completa formele vectoriale de tabel ale simbolurilor text pe baza nevoilor acestora.

În diferite sisteme de operare, se acordă preferință diferitelor codificări. Pentru a putea citi și edita texte marcate într-o altă codificare, se aplică programele transcodare ale textului rusesc. Unii editori de text conțin transcoderi încorporați și vă permit să citiți textul indiferent de codificare.

Acum știi câte personaje în codificarea ASCII și, cum și de ce a fost proiectat. Desigur, astăzi am primit cea mai mare distribuție în lume. Unicode. Cu toate acestea, este imposibil să uităm că este creată pe baza ASCII, deci ar trebui să fie apreciată de contribuția dezvoltatorilor săi la domeniul de aplicare al IT.

Bună ziua, Stimate site-ul de cititoare blog. Astăzi vă vom vorbi despre locul în care provin Cracoyarbra și în programe, care există codificări text și care dintre ele trebuie utilizate. Să luăm în detaliu istoria dezvoltării lor, variind de la ASCII de bază, precum și de versiunile sale extinse de CP866, KOI8-R, Windows 1251 și terminând cu codurile moderne ale consorțiului Unicode UTF 16 și 8.

Cineva pe care aceste informații le poate părea inutil, dar ați ști cât de multe întrebări vin la mine exact în legătură cu fisurile (fără a citi un set de caractere). Acum voi avea ocazia să-i trimit pe toată lumea în textul acestui articol și să-ți caut în mod independent piscinele. Ei bine, pregătiți-vă să absorbiți informațiile și să încercați să monitorizați narațiunea.

ASCII - codarea textului latizei de bază

Dezvoltarea codificărilor de text apare simultan cu formarea industriei IT și în acest timp au avut timp să se supună unor schimbări destul de puține. Din punct de vedere istoric, totul a început cu o pronunție destul de dăunătoare a EBCDIC, care a făcut posibilă codificarea literelor alfabetului latin, numerelor arabe și semne de punctuație cu simboluri de control.

Dar totuși punctul de plecare pentru dezvoltarea codificărilor text moderne ar trebui considerat un faimos ASCII. (Codul standard american pentru schimbul de informații, care în limba rusă este de obicei pronunțat ca "aski"). Acesta descrie primele 128 de caractere de la cei mai frecvent utilizați utilizatori de limbă engleză - litere latine, numere arabe și semne de punctuație.

Chiar și în aceste 128 de caractere descrise în ASCII, unele simboluri de serviciu au fost zdrobite de paranteze, laturi, asteriscuri etc. De fapt, tu o poți vedea:

Aceste 128 de caractere din versiunea inițială a ASCII au devenit standard, iar în orice altă codificare veți întâlni cu siguranță că vor fi în așa fel.

Dar faptul este faptul că, cu ajutorul unui octet al informațiilor, nu este de 128, ci de 256 de valori diferite (două până la gradul opt este egal cu 256), așa că după aceea versiunea de bază Aski a apărut un număr de coduri avansate ASCII.În plus față de 128 de semne principale, a fost, de asemenea, posibilă codificarea simbolurilor naționale de codificare (de exemplu, rusă).

Aici, probabil, merită mai mult despre sistemul numeric utilizat în descriere. În primul rând, după cum știți totul, computerul funcționează numai cu numere într-un sistem binar, și anume cu zerouri și unități ("Boulev Algebra", dacă cineva a avut loc la Institut sau la școală). Fiecare dintre acestea este o încetare la o diplomă, începând cu zero și la două în al șaptelea:

Nu este greu de înțeles că toate combinațiile posibile de zerouri și unități într-un astfel de design pot fi doar 256. Traduceți numărul din sistemul binar în zecimal este destul de simplu. Este necesar să se plieze pur și simplu toate gradele de mai sus pe care o reprezintă.

În exemplul nostru, se dovedește 1 (2 la gradul de zero) plus 8 (două la grade 3), plus 32 (de două ori în gradul al cincilea), plus 64 (în al șaselea), plus 128 (în al șaptelea) . Total primește 233 într-un sistem de numere zecimale. După cum puteți vedea, totul este foarte simplu.

Dar dacă vă uitați la masă cu caractere ASCII, veți vedea că acestea sunt prezentate în codarea hexazecimală. De exemplu, "asteriscul" corespunde paradisului unui număr hexazecimal 2a. Probabil, știți că într-un sistem de număr hexazecimal, literele latine de la A (Mediu TEN) la F (înseamnă cincisprezece) sunt folosite într-un sistem numeric hexazecimal.

Ei bine, deci pentru transfer numere binare În hexazecimal Recurge la următorul mod simplu și vizual. Fiecare octet de informații este rupt în două părți de patru biți, așa cum se arată în captura de ecran de mai sus. Asa de În fiecare jumătate a octetului, codul binar poate fi codificat numai pentru șaisprezece valori (două în gradul al patrulea), care poate fi ușor reprezentat de hexazecimal.

Mai mult, în jumătatea stângă a octetului, va fi necesar să se ia în considerare din nou măsura din zero și nu așa cum se arată în captura de ecran. Ca rezultat, prin computere non-bune, obținem că numărul E9 este codificat în captura de ecran. Sper că cursul raționamentului meu și solidificarea acestui rebus ați fost de înțeles. Ei bine, acum vom continua, vorbim de fapt despre codarea textului.

Versiuni extinse ale lui AKI - CP866 și Koi8-R codificare cu pseudograph

Deci, am început să vorbim despre ASCII, care a fost ca un punct de plecare pentru dezvoltarea tuturor codificărilor moderne (Windows 1251, Unicode, UTF 8).

Inițial, a fost pus doar 128 de semne ale alfabetului latin, numerele arabe și altceva acolo, dar în versiunea extinsă a fost posibilă utilizarea tuturor celor 256 de valori care pot fi codificate într-o singură informație pate. Acestea. O oportunitate de a adăuga simboluri ale literelor limbii lui la ASHA.

Aici va fi necesar să fie distras din nou să clarificați - de ce aveți nevoie de codificare texte și de ce este atât de important. Caracterele de pe ecranul calculatorului dvs. sunt formate pe baza a două lucruri - seturi de formulare vectoriale (reprezentări) de toate tipurile de caractere (sunt în fișiere CO) și cod care vă permite să scoateți acest set de forme vectoriale ( Fișier de font) Este caracterul care urmează să fie introdus în locul potrivit.

Este clar că fonturile sunt responsabile de formularele vectoriale, dar sistemul de operare și programele utilizate în acesta sunt responsabile pentru codificare. Acestea. Orice text de pe computer va fi un set de octeți din fiecare dintre care un singur simbol al acestui text este codificat.

Programul care afișează acest text pe ecran (editor de text, browser etc.), când parsarea codului, citește codificarea următorului semn și căutări pentru formularul vectorial corespunzător dosarul dorit Fontul care este conectat pentru a afișa acest document text. Totul este simplu și trite.

Astfel, pentru a codifica orice simbol de care avem nevoie (de exemplu, de la alfabetul național), trebuie completate două condiții - forma vectorială a acestui semn ar trebui să fie în fontul utilizat și acest simbol ar putea fi codificat în codificările extinse ASCII într-un byte . Prin urmare, există o mulțime de astfel de opțiuni. Numai pentru codificarea simbolurilor limbii rusești există mai multe soiuri de ascensoare extinse.

De exemplu, a apărut inițial CP866.În care a fost posibilă utilizarea simbolurilor alfabetului rus și a fost o versiune extinsă a ASCII.

Acestea. Partea sa superioară a coincis complet cu versiunea de bază a lui ASHA (128 simboluri din latină, numere și oricine altcineva), care este prezentată pe screenshot, dată puțin mai mare, dar deja partea de jos Tabelele CP866 au fost specificate în captura de ecran ușor mai scăzute și permise să codifice încă 128 de caractere (litere ruse și fiecare pseudografică):

Vedeți, în coloana din dreapta, numerele încep cu 8, pentru că Numerele de la 0 la 7 se referă la partea de bază a ASCII (a se vedea primul screenshot). Asa de Scrisoarea rusă "M" în CP866 va avea codul 9c (se află pe intersecția rândurilor corespunzătoare cu 9 și coloana cu un număr C într-un sistem de număr hexazecimal), care poate fi scris într-o singură informație de byte și dacă Există un font adecvat cu caractere rusești, această scrisoare fără probleme va fi afișată în text.

De unde a venit această cantitate psedografi în CP866.? Este tot faptul că această codificare a textului rusesc a fost dezvoltată în acele ani luminoși, când nu a existat o astfel de distribuție a sistemelor de operare grafică ca acum. Și în dosare și în operații de text similare, pseudografia a permis cel puțin să diversifice designul textelor și, prin urmare, se abundă cu CP866 și toate celelalte rânduri ale descărcării versiunilor extinse ale ASHA.

CP866 distribuită Compania IBM, dar în plus, au fost elaborate un număr de codificări pentru simbolurile limbii ruse, de exemplu, același tip (extins ASCII) poate fi atribuit Koi8-r.:

Principiul lucrării sale a rămas la fel ca CP866 descris mai târziu - fiecare simbol text este codificat de un singur octet. Screenshot-ul prezintă a doua jumătate a mesei Koi8-R, deoarece Prima repriză este pe deplin compatibilă cu baza ASUS, care este prezentată pe primul ecran din acest articol.

Printre caracteristicile codificării KOI8-R, se poate observa că literele ruse din tabelul său nu sunt în ordine alfabetică, cum ar fi aceasta, de exemplu, făcută în CP866.

Dacă vă uitați la primul screenshot (partea de bază, care intră în toate codificările extinse), observați că în KOI8-R, literele ruse sunt situate în aceleași tabele ale tabelului ca literele alfabetului latin din prima parte a masa. Acest lucru a fost făcut pentru comoditatea de a trece de la simbolurile rusești în latină prin aruncarea unui singur bit (două în gradul al șaptelea sau 128).

Windows 1251 - O versiune modernă a ASCII și de ce se scot backerii

Dezvoltarea ulterioară a codificărilor de text se datorează faptului că sistemele de operare grafice și necesitatea utilizării pseudografelor în ele au câștigat popularitate. Ca rezultat, a apărut un grup întreg, care, la esența lor, a fost încă versiuni avansate ale lui ASTI (un singur simbol text este codificat cu o singură debit de informații), dar fără a folosi caractere pseudografice.

Ei au tratat așa-numita codificare ANSI, care au fost dezvoltate de Institutul American de Standardizare. Numele chirilic a fost folosit în continuare în cea de-adirecție pentru o opțiune cu sprijinul limbii ruse. Un exemplu de un astfel de exemplu.

Acesta a fost favorabil diferit de CP866 și KOI8-R utilizat anterior, în care locul personajelor pseudografică a luat simbolurile lipsă ale tipografiei ruse (semnul descrescător), precum și simbolurile utilizate în apropierea lui Rusia slavică Limbi (ucrainene, Belarus, etc.):

Din cauza acestei abundențe a codificărilor limbii ruse, producătorii de fonturi și producători software. El a apărut în mod constant o durere de cap, și cu tine, dragi cititori, de multe ori cele mai notorii krakoyabry.Când confuzia a fost predată cu versiunea utilizată în text.

Foarte des au ieșit la trimiterea și primirea de mesaje e-mailCeea ce a cauzat crearea de mese transversale foarte complexe, care, de fapt, nu au putut rezolva această problemă în rădăcină și adesea utilizatorii pentru corespondență au fost folosiți pentru a evita krakozimele notorii atunci când se utilizează codificări ruse de astfel de CP866, KOI8-R sau Windows 1251.

În esență, Cracoyarbra, împărtășind în loc de textul rusesc, au fost rezultatul utilizării incorecte a codificării din această limbăcare nu se potrivesc cu cel în care mesajul text a fost codificat inițial.

Să presupunem că simbolurile codificate cu CP866, încercați să afișați utilizând tabelul de cod Windows 1251, apoi aceste cele mai crăpate (set de caractere fără sens) și ieșiți, înlocuind complet textul mesajului.

O situație similară se întâmplă foarte des la, forumuri sau bloguri, când textul cu caractere rusești din greșeală nu este salvat în această codificare care este utilizată pe site-ul implicit sau nu în acest sens editor de textcare adaugă la codul Sebestin nu este vizibil la ochiul liber.

În cele din urmă, o astfel de situație cu numeroase codificări și cranberamuri constante de crawlere, mulți obosiți, au fost premise pentru crearea unei noi variații universale, care ar fi înlocuit toate existente și rezolvate, în cele din urmă, la rădăcina problemei cu apariția nu texte citite. În plus, a existat o problemă a limbilor chineze similare, unde simbolurile limbii au fost mult mai mult de 256.

Unicode (Unicode) - Coduri universale UTF 8, 16 și 32

Aceste mii de semne ale grupului lingvistic din Asia de Sud-Est nu au putut fi descrise într-o singură informație Pape care a fost alocată pentru codarea personajelor în versiunile ASCII avansate. Ca rezultat, a fost creat un consorțiu numit Unicode (Consorțiu Unicode - Unicode) în colaborarea multor lideri IT ai industriei (cei care produc un software care codifică fierul, care creează fonturi) care erau interesați de apariția unui text universal care codifică.

Prima variație publicată sub auspiciile consorțiului Unicode a fost UTF 32.. Cifra din numele codării înseamnă numărul de biți utilizați pentru a codifica un simbol. 32 de biți sunt 4 octeți de informații care vor fi necesare pentru a codifica un singur semn în noua codificare UTF universală.

Ca rezultat, același fișier cu textul codificat în versiunea extinsă a ASCII și UTF-32 va avea dimensiunea (cântărește) de patru ori mai mult. Este rău, dar acum avem ocazia de a codifica numărul de semne egale cu două până la treizeci de grade secunde, cu ajutorul UTF ( miliarde de caractere.care va acoperi orice valoare reală cu o marjă colosală).

Dar multe țări cu limbile Grupului european au un număr mare de semne de utilizat în codificare și nu a fost nevoie, totuși, atunci când se utilizează UTF-32, nu au primit o creștere de patru ori În greutatea documentelor text și, ca urmare, o creștere a datelor pe Internet și a datelor stocate de volum. Aceasta este o mulțime și nimeni nu și-ar putea permite astfel de deșeuri.

Ca urmare a dezvoltării Unicode a apărut UTF-16.care sa dovedit a fi atât de reușită, care a fost adoptată în mod implicit ca un spațiu de bază pentru toate personajele pe care le folosim. Utilizează doi octeți pentru a codifica un semn. Să vedem cum arată acest lucru.

În sistemul de operare Windows, puteți trece de-a lungul căii "Start" - "Programe" - "Standard" - "Service" - "Tabel de caractere". Ca rezultat, o masă se deschide cu forme vectoriale ale tuturor instalate în fonturile dvs. Dacă alegeți în "parametri suplimentari" un set de caractere Unicode, puteți vedea pentru fiecare font separat întreaga gamă de caractere incluse în acesta.

Apropo, făcând clic pe oricare dintre ele, îl puteți vedea pe două codul în format UTF-16constând din patru cifre hexazecimale:

Câte caractere pot fi codificate în UTF-16 folosind 16 biți? 65 536 (două până la șaisprezece), iar acest număr a fost luat pentru spațiul de bază din Unicode. În plus, există modalități de a codifica cu el și aproximativ două milioane de caractere, dar se limitează la spațiul extins într-un milion de simboluri text.

Dar chiar și această versiune de succes a codificării lui Unicode nu a adus multă satisfacție celor care au scris, de exemplu, programele numai pe limba englezaPentru aceștia, după trecerea de la versiunea extinsă a ASCII la UTF-16, greutatea documentelor a crescut de două ori (un octet pe simbol în ASTI și doi octeți pe același simbol în UTF-16).

Asta e tocmai pentru a satisface toată lumea și tot în consorțiul Unicode a fost decis să vină codând lungimea variabilă. Ea a fost numită UTF-8. În ciuda celor opt din titlu, are într-adevăr o lungime variabilă, adică. Fiecare simbol text poate fi codificat într-o secvență de unul la șase octeți.

În practică, UTF-8 utilizează doar o gamă de la unul la patru octeți, deoarece nu există nimic nici măoretic posibil să se supună nimic celor patru octeți ai codului. Toate semnele latine sunt codificate într-un octet, precum și în vechiul ASCII.

Ceea ce este demn de remarcat, în cazul codificării numai latinei, chiar și acele programe care nu înțeleg Unicode vor citi încă ceea ce este codificat în UTF-8. Acestea. Partea de bază a lui ASHA a trecut pur și simplu la acest consorțiu de la Unicode.

Semnele chirilice din UTF-8 sunt codificate în doi octeți și, de exemplu, georgiană - în trei octeți. Consorțiul Unicode după crearea UTF 16 și 8 a decis problema principală - acum avem În fonturi există un spațiu unic de cod. Și acum producătorii lor rămân doar pe baza forțelor și oportunităților lor de ao umple cu forme vectoriale de simboluri de text. Acum în seturi chiar.

În tabelul de simbol de mai jos, se poate observa că diferite fonturi suportă un număr diferit de caractere. Unele simboluri ale fonturilor Unicode pot cântări foarte bine. Dar acum nu se disting prin faptul că sunt create pentru diferite codificări, dar de faptul că producătorul de fonturi a umplut sau nu a umplut spațiul unic de cod de către acelea sau alte forme vectoriale până la capăt.

Krakoyabry în loc de scrisori ruse - cum să remedieze

Să vedem acum cum apare textul Crakozimabe în loc de text sau, cu alte cuvinte, cum este selectată codarea corectă pentru textul rusesc. De fapt, este setat în programul în care creați sau editați același text sau cod folosind fragmente de text.

Pentru editarea și crearea fișierelor text, folosesc personal foarte bine, în opinia mea. Cu toate acestea, poate evidenția sintaxa încă o sută de limbi de programare și de marcare, și are, de asemenea, capacitatea de a se extinde cu pluginurile. Citit revizuire detaliată Acest program minunat conform link-ului.

În meniul Top Notepad ++, există un element "codificare", unde veți avea capacitatea de a converti o opțiune existentă la una care este utilizată pe site-ul dvs. implicit:

În cazul unui site din Joomla 1.5 și mai sus, precum și în cazul unui blog pe WordPress, ar trebui să alegeți opțiunea pentru a evita apariția Krakoyar UTF 8 fără BOM. Care este prefixul BOM?

Faptul este că atunci când codarea ETF-16 a fost dezvoltată, din anumite motive a decis să fixeze un astfel de lucru ca abilitatea de a înregistra un cod de simbol, atât în \u200b\u200bsecvența directă (de exemplu, 0A15), cât și în invers (150a) . Și pentru ca programele să înțeleagă ce coduri de citire a secvenței și a fost inventată BOM. (Marcajul de octeți sau, cu alte cuvinte, semnătura), care a fost exprimată în adăugarea a trei octeți suplimentari la începutul documentelor.

În codificarea UTF-8, nu au existat nici un BOM în consorțiul Unicode și, prin urmare, adăugând semnătură (cei mai cunoscuți trei octeți suplimentari la începutul documentului) Unele programe pur și simplu împiedică citirea codului. Prin urmare, întotdeauna, când salvăm fișiere în UTF, trebuie să selectați o opțiune fără BOM (fără semnătură). Deci sunteți în avans mustrați-vă de la crackering.

Ceea ce este demn de remarcat, unele programe în Windows nu știu cum să facă acest lucru (nu puteți salva text în UTF-8 fără BOM), de exemplu, aceleași ferestre notebook notive. Salvează documentul în UTF-8, dar încă adaugă semnătura la început (trei octeți suplimentari). Mai mult, acești octeți vor fi întotdeauna la fel - citiți codul în secvență directă. Dar pe servere, din cauza lucrurilor mici, poate exista o problemă - Crackels va ieși afară.

Prin urmare, în nici un caz nu utilizați ferestrele obișnuite de notebook Pentru a edita documente ale site-ului dvs., dacă nu doriți aspectul Krakoyarbra. Consider că cea mai recentă și cea mai ușoară opțiune pentru editorul Notepad ++ deja menționat, care practic nu are dezavantaje și constă în unul dintre avantaje.

În Notepad ++ Când alegeți o codificare, veți avea capacitatea de a converti textul la codarea UCS-2, care este foarte aproape de standardul Unicode în esență. De asemenea, într-un non-tip poate fi codificat în ANSI, adică Cu referire la limba rusă, aceasta va fi deja descrisă de noi chiar deasupra Windows 1251. De unde provin aceste informații?

Ea este scrisă în registrul camerei dvs. de operație sisteme Windows. - Ce codificare de a alege în cazul ANSI, ce să alegeți în cazul OEM (pentru limba rusă va fi CP866). Dacă instalați o altă limbă implicită pe computer, atunci aceste codificări vor fi înlocuite cu ANSI sau OEM descărcare pentru aceeași limbă.

După tine în Notepad ++, salvați documentul în codarea de care aveți nevoie sau deschideți un document de pe site pentru a edita, apoi în colțul din dreapta jos al editorului vă puteți vedea numele:

Pentru a evita Cracoyarbrov.Cu excepția faptului că acțiunile descrise mai sus vor fi utile pentru înregistrarea în capacul său cod sursa Toate paginile site-ului informații despre această codificare, astfel încât serverul sau gazda locală să nu apară.

În general, în toate limbile marcajului hipertext, altele decât HTML, se utilizează un anunț XML special, care specifică codarea textului.

Înainte de a începe să dezasamblați codul, browserul va afla ce versiune este utilizată și cum trebuie exact să interpretați codurile personajelor acestei limbi. Dar ceea ce este demn de remarcat, în cazul în care salvați documentul în Unicode implicit, această declarație XML poate fi omisă (codarea va fi considerată UTF-8, dacă nu există nici un BOM sau UTF-16 dacă există un BOM).

În cazul unui document limba HTML. Pentru a specifica codificarea utilizată meta elementcare este prescris între eticheta capului de deschidere și închidere:

... ...

Această intrare este destul de diferită de cea acceptată B, dar respectă pe deplin noul introdus lent prin standardul HTML 5 și va fi absolut corect înțeles de cineva folosit acest moment browsere.

În teorie, elementul meta cu o indicație de codificare HTML Document. Mai bine să-l aducă cât mai mare posibil în antetul doculuiAstfel încât, la momentul întâlnirii din textul primului semn să nu fie din ANSI de bază (care citiți întotdeauna întotdeauna și în orice variație), browserul trebuie să aibă deja informații despre cum să interpreteze codurile acestor caractere.

Multă baftă! La întâlnirile ambigue pe site-ul web al blogului

vedeți mai multe rolele pe care le puteți continua

");">

S-ar putea să fiți interesat

Care sunt adresele URL decât diferența dintre legăturile absolute și relative pentru site-ul
OpenServer - Modern. server local. și un exemplu de utilizare a acesteia instalații WordPress. pe calculator
Ceea ce este chmod, care accesează drepturile de atribuire a fișierelor și a dosarelor (777, 755, 666) și cum să facă prin PHP
Căutați Yandex pe site și magazin online

Apropo, pe site-ul nostru puteți traduce orice text într-un cod binar zecimal, hexazecimal, utilizând Calculatorul de cod online.

Tabelul ASCII.

ASCII (codul standard american pentru schimbul de informații)

ASCII Rezumatul tabelului.

ASCII Masa simbolurilor Windows (Win-1251)

		Simbol









		specialist. Tabulare
		specialist. LF (Carucioare exclusive)


		specialist. Cr ( Linie nouă)


















		ceașcă. Sp (spațiu)

		Simbol

Extinderea tabelului de cod ASCII

Formatarea simbolurilor.

	Backspace (reveniți la un caracter). Afișează mișcarea mecanismului de imprimare sau a cursorului afișajului înapoi într-o poziție.
	Tabelul orizontal (tabulare orizontală). Afișează mișcarea mecanismului de imprimare sau a cursorului de afișare în următoarea poziție prescrisă "Tab".
	Linie de alimentare. Afișează mișcarea mecanismului de imprimare sau a cursorului afișajului la începutul liniei următoare (o linie în jos).
	Tabelul vertical (tablă verticală). Afișează mișcarea mecanismului de imprimare sau a cursorului afișajului la următorul grup de șiruri de caractere.
	Formați furajele. Afișează mișcarea mecanismului de imprimare sau a cursorului de afișare în poziția inițială a paginii următoare, a formei sau a ecranului.
	Returnarea transportului (traducere de transport). Afișează mișcarea mecanismului de imprimare sau a cursorului de afișare în poziția originală (extremă stânga) a liniei curente.

Transfer de date.

	Începutul titlului. Se utilizează pentru a determina începutul titlului, care poate conține informații sau adrese de rutare.
	Începeți textul. Afișează începutul textului și, în același timp, capătul antetului.
	Sfârșitul textului. Se aplică la sfârșitul textului care a început de la simbolul STX.
	Anchetă. Solicitați date de identitate (tipul "Cine sunteți?") De la stația de la distanță.
	Confirmați (confirmare). Dispozitivul de recepție transmite acest simbol al expeditorului ca confirmând recepția de succes a datelor.
	Confirmare negativă. Dispozitivul de recepție transmite acest simbol al expeditorului în cazul refuzului de primire a datelor.
	Sincron / inactiv (sincronizare). Utilizate în sistemele de transmisie sincronizate. În absența transmisiei de date, sistemul trimite continuu caractere SYN pentru a oferi sincronizare.
	Sfârșitul blocului de transmisie (capătul blocului de transmisie). Afișează sfârșitul blocului de date în scopuri de comunicare. Este folosit pentru a împărți în blocuri separate de volume mari de date.

Semne de separare la transferarea informațiilor.

Alte caractere.

	NUL. (Fără caracter - fără date). Aplicată la transmiterea în absența datelor.
	Bell (apel). Se utilizează pentru a controla dispozitivele de alarmă.
	Shift. Arată că toate combinațiile de cod ulterioare trebuie interpretate în funcție de set extern Caractere înainte de sosirea simbolului SI.
	SCHIMBĂ ÎN. Indică faptul că combinațiile de cod ulterioare ar trebui interpretate în conformitate cu un set de caractere standard.
	Link de evacuare de date. Schimbarea valorii caracterelor care coboară în jos. Se utilizează pentru control suplimentar sau pentru a transmite o combinație de biți arbitrari.
DC1, DC2, DC3, DC4	Controlul dispozitivului. Simboluri pentru gestionarea dispozitivelor auxiliare (funcții speciale).
	Anulare. Indică faptul că datele precedate de acest simbol în mesaj sau bloc trebuie să fie ignorate (de obicei, în cazul detectării erorilor).
	Sfârșitul mediului (capătul transportatorului). Indică capătul fizic al benzii sau a altor medii
	Înlocuitor (substituent). Se utilizează pentru a înlocui un simbol eronat sau inacceptabil.
	Evadare. Se utilizează pentru a extinde codul, indicând faptul că simbolul ulterior are o valoare alternativă.
	Spaţiu. Un simbol neimprimat pentru împărțirea cuvintelor sau mutarea mecanismului de imprimare sau a cursorului de afișare înainte într-o singură poziție.
	Șterge. Folosit pentru a elimina (ștergerea) semnului anterior în mesaj

Excel pentru Office 365 cuvântul pentru Office 365 PowerPoint pentru Office 365 Editura pentru Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 Onenote 2016 Editura 2019 Visio Professional 2019. Visio Standard 2019. Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 Onenote 2013 Editura 2016 Visio 2013 Visio Professional 2016. Visio Standard 2016. Excel 2013 Outlook 2013 PowerPoint 2013 Editura 2013 Excel 2010 Outlook 2010 PowerPoint 2010 Peenote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Editura 2007 Acces 2007 Visio 2007 Onenote 2007 Office 2010 Visio Standard 2007. Visio Standard 2010. Mai puțin

În acest articol

Introduceți un simbol ASCII sau Unicode într-un document

Dacă trebuie să introduceți doar câteva caractere speciale sau caractere, puteți utiliza sau tastele de comenzi rapide. Pentru o listă de caractere ASCII, consultați următoarele tabele sau articole de introducere a literelor alfabetelor naționale utilizând comenzile rapide de la tastatură.

NOTE:

ASCII Caractere Insert.

Pentru a introduce simbolul ASCII, apăsați și țineți apăsată tasta ALT, introducând codul de simbol. De exemplu, pentru a introduce un simbol de grad (º), apăsați și țineți apăsată tasta ALT, apoi introduceți 0176 pe tastatura numerică.

Pentru a introduce numere, utilizați o tastatură digitală, nu numerele de pe tastatura principală. Dacă aveți nevoie să introduceți numerele de pe tastatura numerică, asigurați-vă că indicatorul NOL Lock este activat.

Introducerea simbolurilor UNICODE

Pentru a introduce simbolul Unicode, introduceți codul de caractere, apoi apăsați în mod consecvent keys Alt. și X. De exemplu, pentru a introduce un simbol al dolarului ($), introduceți 0024 și apăsați secvențial tastele Alt și X. Toate codurile de caractere Unicode văd.

Important: niste programe Microsoft. Office, cum ar fi PowerPoint și InfoPath, nu acceptă conversia codurilor Unicode în caractere. Dacă aveți nevoie să introduceți un simbol Unicode într-unul din aceste programe, utilizați.

NOTE:

Dacă, după apăsarea tastelor ALT + X, este afișat un simbol incorect Unicode, selectați codul corect, apoi apăsați din nou Alt + X.

În plus, în fața codului trebuie introdus "U +". De exemplu, dacă introduceți "1U + B5" și apăsați tastele Alt + X, va apărea textul "1μ" și dacă introduceți "1B5" și apăsați tastele Alt + X, va apărea simbolul "ƶ".

Folosind o masă de simbol

Tabelul de caractere este un program încorporat Microsoft Windows.care vă permite să vizualizați caracterele disponibile pentru fontul selectat.

Folosind tabelul de caractere, puteți copia caractere individuale sau un grup de caractere în clipboard și le puteți introduce în orice program care susține afișarea acestor caractere. Deschiderea unei mese de caractere

În Windows 10. Introduceți cuvântul "simbol" în câmpul de căutare din bara de activități și selectați tabelul de caractere din rezultatele căutării.

În Windows 8. Introduceți cuvântul "simbol" de pe ecranul inițial și selectați tabelul de caractere din rezultatele căutării.

În Windows 7. apasa butonul startSelectați secvențial Toate programele, Standard, Serviciu și faceți clic pe Tabelul de simbol.

Simbolurile sunt grupate în font. Faceți clic pe lista de fonturi pentru a selecta un set adecvat de caractere. Pentru a selecta un simbol, faceți clic pe acesta, apoi faceți clic pe Alege. Pentru a introduce un caracter, faceți clic dreapta pe locația dorită din document și selectați Introduce.

Coduri de simboluri utilizate frecvent

Lista plina Pentru simboluri, consultați pe computer, tabelele de caractere ASCII sau tabelele de simbol Unicod comandate de seturi.

Glif.

Unități de numerar

Simboluri juridice

Simboluri matematice

Drobi.

Semne de punctuație și simboluri dialecte

Simboluri ale formei

Codurile semnelor diacritice utilizate frecvent

Lista completă a glifelor și a codurilor relevante, a se vedea.

Glif.

ASCII fără semne de gestionare

Semnele folosite pentru a gestiona unele dispozitiv perifericDe exemplu, imprimantele, tabelul ASCII are numere 0-31. De exemplu, traducerea paginii / pagina nouă corespunde numărului 12. Acest semn indică imprimanta pentru a accesa partea de sus a paginii următoare.

Tabel de semne de manipulare neimprimate ASCII

Numar decimal	Semn	Numar decimal	Semn
		Eliberarea canalelor de date
Porniți antetul		Primul cod de gestionare a dispozitivului
Începutul textului		A doua cod de gestionare a dispozitivului
Sfârșitul textului		Codul de gestionare a dispozitivului al treilea dispozitiv
Sfârșitul transferului		A patra cod de gestionare a dispozitivului
	cinci arăt	Confirmare negativă
confirmarea		Modul de transmisie sincronă
Semnal sonor		Sfârșitul blocului transmis de date

Tabelul orizontal		Sfârșitul transportatorului
Rând / rânduri noi		Simbol al înlocuirii
Tabulare verticală			depășește.
Pagina / pagina nouă	Doisprezece	Separator de fișiere
Întoarcerea transportului		Grupul de separare
Schimbarea fără a salva descărcările		Înregistrări separatoare
Descărcarea de descărcare	cincisprezece	Separator de date

Unicode (în limba engleză Unicode) este standardul standard de codare. Pur și simplu puneți, acesta este un tabel de conformitate al semnelor de text (litere, elemente de punctuație) coduri binare. Computerul înțelege numai secvența de zerouri și unități. Așa că știa exact ce trebuie să fie afișat pe ecran, trebuie să vă atribuiți propriul caracter număr unic.. În anii optzeci, semnele au fost codificate de un octet, adică opt biți (fiecare bit este 0 sau 1). Astfel, sa dovedit că o masă (este aceeași codificare sau setată) poate găzdui doar 256 de caractere. Acest lucru nu poate fi suficient chiar și pentru o singură limbă. Prin urmare, au apărut multe codificări diferite, confuzia cu care a dus adesea la faptul că au apărut pe ecran un krakozyabry ciudat în locul textului citit. Standardul unificat a fost necesar, care a devenit Unicode. Cea mai folosită codificare - UTF-8 (format de transformare Unicode) pentru imaginea simbolului implică de la 1 la 4 octeți.

Simboluri

Simbolurile din tabelele Unicode sunt numerotate de numere hexazecimale. De exemplu, chirilic majusculă M este notat de u + 041c. Aceasta înseamnă că se află la intersecția șirului 041 și a coloanei din C. Poate fi pur și simplu copiată și apoi introdusă undeva. Pentru a nu ruma în lista de mai multe kilometri, ar trebui să utilizați căutarea. Mergeți la pagina de simbol, veți vedea numărul său în Unicode și o modalitate de desen în diferite fonturi. Puteți să conduceți în șirul de căutare și în semnul în sine, chiar dacă pătratul este desenat, cel puțin pentru a afla ce a fost. De asemenea, pe acest site există seturi speciale (și aleatorii) de același tip de icoane colectate din diferite secțiuni pentru confortul utilizării acestora.

Unicod Standard - International. Aceasta include semne de aproape toată scrisul lumii. Inclusiv cele care nu se mai aplică. Hieroglife egiptene, rune germane, scrierea maya, clinp și alfabete ale statelor antice. Prezentat și desemnați de măsuri și scale, alfabetizare muzicală, concepte matematice.

Consorțiul Unicode însăși nu inventează noi simboluri. Tabelele sunt adăugate la mesele care își găsesc utilizarea în societate. De exemplu, semnul ruble a fost utilizat în mod activ timp de șase ani înainte de a fi adăugat la Unicode. Pictogramele Emoji (emoticoane) au câștigat mai întâi utilizarea pe scară largă în Japonia înainte de a fi incluse în codificare. Dar mărcile comerciale și logo-urile companiei nu sunt adăugate fundamental. Chiar și pavilionul Apple Apple sau Windows. Până în prezent, aproximativ 120 mii de caractere sunt codificate în versiunea 8.0.