internetul Windows. Android

Codificarea koi8-r. Ce fel de codificare Koi8-R și ce a dat ea? Tabelul Koi 8 versiunea rusă

Codificarea Koi8-R

ISO 8859-5 Codificare

ISO 8859-5

Codificarea alternativă

"Codificarea alternativă" - Bazat pe pagina CP437, unde toate simbolurile europene specifice din a doua jumătate sunt înlocuite cu chirilic, lăsând caractere pseudografice intacte. În consecință, acest lucru nu strică tipul de programe care utilizează ferestre text și oferă, de asemenea, utilizarea caracterelor chirilice în ele.

Din punct de vedere istoric, au existat multe opțiuni de codificare alternative, dar toate diferențele se referă numai la regiunea 0xF0 - 0xFF (240-255). Standardul final a fost codarea IBM CP866, a căror suport a fost adăugată la MS-DOS versiunea 6.22 (s-au folosit tot felul de fisuri "auto-fabricate". Codificarea alternativă este încă în viață și extrem de populară în mediul DOS și OS / 2 . În plus, această codificare este înregistrată nume B. sistemul de fișiere Gras. CP866 este încă utilizat în consola de spuse Systems Family Systems.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. A 410. B 411. În 412. G 413. D 414. E 415. 416. S 417. Și 418. Th 419. K 41A. L 41b. M 41C. H 41D. O 41e. P 41F.
9. R 420. Cu 421. T 422. 423. F 424. X 425. C 426. H 427. W 428. Shch 429. Kommersant 42a. 42b. B 42C. E 42D. Yu 42e. Sunt 42f.
A. A 430. B 431. în 432. G 433. D 434. E 435. 2036. S 437. și 438. Th 439. La 43a. L 43b. M 43C. H 43D. Aproximativ 43e. P 43F.
B. ░ 2591 ▒ 2592 ▓ 2593 │ 2502 ┤ 2524 ╡ 2561 ╢ 2562 ╖ 2556 ╕ 2555 ╣ 2563 ║ 2551 ╗ 2557 ╝ 255D. ╜ 255C. ╛ 255b. ┐ 2510
C. └ 2514 ┴ 2534. ┬ 252C. ├ 251C. ─ 2500 ┼ 253C. ╞ 255e. ╟ 255f. ╚ 255a. ╔ 2554 ╩ 2569 ╦ 2566 ╠ 2560 ═ 2550 ╬ 256C. ╧ 2567
D. ╨ 2568 ╤ 2564 ╥ 2565 ╙ 2559 ╘ 2558 ╒ 2552 ╓ 2553 ╫ 256b. ╪ 256A. ┘ 2518 ┌ 250c. █ 2588 ▄ 2584 ▌ 258C. ▐ 2590 ▀ 2580
E. P 440. de la 441. T 442. în 443. F 444. X 445. C 446. H 447. SH 448. Shch 449. Kommersant 44a. S 44B. B 44C. E4d. Yu 44e. Sunt 44f.
F. E 301. ё 451. Є 404. є 454. «407. ● 457. Ў 40e. ў 45e. ° B0. ∙ 2219 · B7. √ 221a. № 2116 ¤ A4. ■ 25a0. A0.

Deci 8859-5 - Codificarea pe 8 biți din seria ISO-8859 pentru înregistrarea chirilică. În Rusia nu este aproape folosită. În general, ISO 8859-5 nu este o codificare foarte convenabilă, deoarece nu are multe simboluri, cum ar fi linia (-), choke-copac (""), grade (°) etc.



.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. 80 81 82 83 84 85 86 87 88 89 8A. 8b. 8c. 8 D. 8e. 8f.
9. 90 91 92 93 94 95 96 97 98 99 9a. 9b. 9c. 9d. 9e. 9f.
A. A0. E 301. € 402. Ѓ 403. Є 404. 145. І 406. «407. Ј 408. Љ 409. Њ 40a. Ћ 40b. Ќ 40c. ANUNȚ Ў 40e. Џ 40f.
B. A 410. B 411. În 412. G 413. D 414. E 415. 416. S 417. Și 418. Th 419. K 41A. L 41b. M 41C. H 41D. O 41e. P 41F.
C. R 420. Cu 421. T 422. 423. F 424. X 425. C 426. H 427. W 428. Shch 429. Kommersant 42a. 42b. B 42C. E 42D. Yu 42e. Sunt 42f.
D. A 430. B 431. în 432. G 433. D 434. E 435. 2036. S 437. și 438. Th 439. La 43a. L 43b. M 43C. H 43D. Aproximativ 43e. P 43F.
E. P 440. de la 441. T 442. în 443. F 444. X 445. C 446. H 447. SH 448. Shch 449. Kommersant 44a. S 44B. B 44C. E4d. Yu 44e. Sunt 44f.
F. № 2116 ё 451. 452. ѓ 453. є 454. 145. І 456. ● 457. ј 458. љ 459. њ 45a. ћ 45b. ќ 45C. § A7. ў 45e. џ 45f.

KOI-8 (codul de partajare a informațiilor, 8 biți), KOI8 - un standard de codificare a simbolului cu opt biți în domeniul informaticii. Proiectat pentru codarea literelor alfabetelor chirilice. Există, de asemenea, o versiune de șapte biți a versiunii codificatoare - KOI-7. KOI-7 și KOI-8 sunt descrise în GOST 19768-74 (acum invalid).

Dezvoltatorii KOI-8 au plasat simbolurile alfabetului rus în partea superioară a tabelului ASCII extins în așa fel încât pozițiile de caractere chirilice corespund analogilor lor fonetici în alfabetul englez din partea de jos a tabelului. Acest lucru înseamnă că, dacă în textul scris în KOI-8, pentru a elimina al optulea bit al fiecărui simbol, atunci se oprește un text "citit", deși este scris de simbolurile latine. De exemplu, cuvintele "Text rusesc" s-ar transforma în "Russkij tekst". Ca efect secundar, simbolurile chirilice s-au dovedit a fi aranjate în ordine alfabetică.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. ─ 2500 │ 2502 ┌ 250c. ┐ 2510 └ 2514 ┘ 2518 ├ 251C. ┤ 2524 ┬ 252C. ┴ 2534. ┼ 253C. ▀ 2580 ▄ 2584 █ 2588 ▌ 258C. ▐ 2590
9. ░ 2591 ▒ 2592 ▓ 2593 ⌠ 2320 ■ 25a0. ∙ 2219 √ 221a. ≈ 2248 ≤ 2264 ≥ 2265 A0. ⌡ 2321 ° B0. ² B2. · B7. ÷ f7.
A. ═ 2550 ║ 2551 ╒ 2552 ё 451. ╓ 2553 ╔ 2554 ╕ 2555 ╖ 2556 ╗ 2557 ╘ 2558 ╙ 2559 ╚ 255a. ╛ 255b. ╜ 255C. ╝ 255D. ╞ 255e.
B. ╟ 255f. ╠ 2560 ╡ 2561 E 301. ╢ 2562 ╣ 2563 ╤ 2564 ╥ 2565 ╦ 2566 ╧ 2567 ╨ 2568 ╩ 2569 ╪ 256A. ╫ 256b. ╬ 256C. © A9.
C. Yu 44e. A 430. B 431. C 446. D 434. E 435. F 444. G 433. X 445. și 438. Th 439. La 43a. L 43b. M 43C. H 43D. Aproximativ 43e.
D. P 43F. Sunt 44f. P 440. de la 441. T 442. în 443. 2036. în 432. B 44C. S 44B. S 437. SH 448. E4d. Shch 449. H 447. Kommersant 44a.
E. Yu 42e. A 410. B 411. C 426. D 414. E 415. F 424. G 413. X 425. Și 418. Th 419. K 41A. L 41b. M 41C. H 41D. O 41e.
F. P 41F. Sunt 42f. R 420. Cu 421. T 422. 423. 416. În 412. B 42C. 42b. S 417. W 428. E 42D. Shch 429. H 427. Kommersant 42a.

Codificarea Koi8-U (ucraineană)

KOI-8 (codul de partajare a informațiilor, 8 biți), KOI8 - un standard de codificare a simbolului cu opt biți în domeniul informaticii. Proiectat pentru codarea literelor alfabetelor chirilice. Există, de asemenea, o versiune de șapte biți a versiunii codificatoare - KOI-7. KOI-7 și KOI-8 sunt descrise în GOST 19768-74 (acum invalid).

Dezvoltatorii KOI-8 au plasat simbolurile alfabetului rus în partea superioară a tabelului ASCII extins în așa fel încât pozițiile de caractere chirilice corespund analogilor lor fonetici în alfabetul englez din partea de jos a tabelului. Acest lucru înseamnă că, dacă în textul scris în KOI-8, pentru a elimina al optulea bit al fiecărui simbol, atunci se oprește un text "citit", deși este scris de simbolurile latine. De exemplu, cuvintele "Text rusesc" s-ar transforma în "Russkij tekst". Ca efect secundar, simbolurile chirilice s-au dovedit a fi aranjate în ordine alfabetică.

Codificarea Koi8-R

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

8.

2500

2502

250c.

2510

2514

2518

251c.

2524

252C.

2534

253c.

2580

2584

2588

258C.

2590

9.

2591

2592

2593

2320

25a0.

2219

221A.

2248

2264

2265

A0.

2321
°
B0.
²
B2.
·
B7.
÷
F7.

A.

2550

2551

2552
e.
451

2553

2554

2555

2556

2557

2558

2559

255a.

255b.

255c.

255D.

255e.

B.

255f.

2560

2561
E.
401

2562

2563

2564

2565

2566

2567

2568

2569

256A.

256b.

256c.
©
A9.

C.
yu.
44e.
dar
430
b.
431
c.
446
d.
434
e.
435
f.
444
g.
433
h.
445
și
438
j.
439
la
43a.
l.
43b.
m.
43c.
n.
43d.
despre
43e.

D.
p.
43f.
i.
44f.
r.
440
din
441
t.
442
w.
443
j.
436
în
432
b.
44c.
s.
44b.
z.
437
sH
448
e.
44d.
sH
449
c.
447
kommersant.
44a.

E.
Yu.
42e.
DAR
410
B.
411
C.
426
D.
414
E.
415
F.
424
G.
413
H.
425
ȘI
418
J.
419
LA
41a.
L.
41b.
M.
41c.
N.
41d.
DESPRE
41e.

F.
P.
41f.
I.
42f.
R.
420
DIN
421
T.
422
W.
423
J.
416
ÎN
412
B.
42C.
S.
42b.
Z.
417
SH
428
E.
42D.
SH
429
C.
427
Kommersant.
42a.
>

Codificarea Koi8-U (ucraineană)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

A.

2550

2551

2552
e.
451
є
454

2554
і
456
ї
457

2557

2558

2559

255a.

255b.
ґ
491

255D.

255e.

B.

255f.

2560

2561
E.
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256A.
Ґ
490

256c.
©
A9.

Astăzi vă vom vorbi despre locul în care provin Cracoyarbra și în programe, care există codificări text și care dintre ele trebuie utilizate. Să luăm în detaliu istoria dezvoltării lor, variind de la ASCII de bază, precum și versiunile extinse ale CP866, KOI8-R, Windows 1251 și terminând cu coduri moderne ale consorțiului Unicode UTF 16 și 8. Cuprins: Cineva pe care aceste informații le poate părea inutil, dar ați ști cât de multe întrebări vin la mine exact în legătură cu fisurile (fără a citi un set de caractere). Acum voi avea ocazia să-i trimit pe toată lumea în textul acestui articol și să-ți caut în mod independent piscinele. Ei bine, pregătiți-vă să absorbiți informațiile și să încercați să monitorizați narațiunea.

ASCII - codarea textului latizei de bază

Dezvoltarea codificărilor de text apare simultan cu formarea industriei IT și în acest timp au avut timp să se supună unor schimbări destul de puține. Din punct de vedere istoric, totul a început cu o pronunție destul de dăunătoare a EBCDIC, care a făcut posibilă codificarea literelor alfabetului latin, numerelor arabe și semne de punctuație cu simboluri de control. Dar totuși punctul de plecare pentru dezvoltarea codificărilor text moderne ar trebui considerat un faimos ASCII. (Cod standard american pentru Schimbul de informații.care în limba rusă este de obicei pronunțată ca "aski"). Acesta descrie primele 128 de caractere de la cei mai frecvent utilizați utilizatori de limbă engleză - litere latine, numere arabe și semne de punctuație. Chiar și în aceste 128 de caractere descrise în ASCII, unele simboluri de serviciu au fost zdrobite de paranteze, laturi, asteriscuri etc. De fapt, tu o poți vedea:
Aceste 128 de caractere din versiunea inițială a ASCII au devenit standard, iar în orice altă codificare veți întâlni cu siguranță că vor fi în așa fel. Dar faptul este faptul că, cu ajutorul unui octet al informațiilor, nu este de 128, ci de 256 de valori diferite (două până la gradul opt este egal cu 256), așa că după aceea versiunea de bază Aski a apărut un număr de coduri avansate ASCII.În plus față de 128 de semne principale, a fost, de asemenea, posibilă codificarea simbolurilor naționale de codificare (de exemplu, rusă). Aici, probabil, merită mai mult despre sistemul numeric utilizat în descriere. În primul rând, după cum știți totul, computerul funcționează numai cu numere într-un sistem binar, și anume cu zerouri și unități ("Boulev Algebra", dacă cineva a avut loc la Institut sau la școală). Un octet constă din opt biți, fiecare dintre acestea fiind un decend la o diplomă, începând cu zero și la două în al șaptelea:
Nu este greu de înțeles că toate combinațiile posibile de zerouri și unități într-un astfel de design pot fi doar 256. Traduceți numărul din sistemul binar în zecimal este destul de simplu. Este necesar să se plieze pur și simplu toate gradele de mai sus pe care o reprezintă. În exemplul nostru, se dovedește 1 (2 la gradul de zero) plus 8 (două la grade 3), plus 32 (de două ori în gradul al cincilea), plus 64 (în al șaselea), plus 128 (în al șaptelea) . Total primește 233 într-un sistem de numere zecimale. După cum puteți vedea, totul este foarte simplu. Dar dacă te uiți la masă cu simboluri ASCII.Veți vedea că sunt prezentate în codificarea hexazecimală. De exemplu, "asteriscul" corespunde paradisului unui număr hexazecimal 2a. Probabil, știți că într-un sistem de număr hexazecimal, literele latine de la A (Mediu TEN) la F (înseamnă cincisprezece) sunt folosite într-un sistem numeric hexazecimal. Ei bine, deci pentru transfer numere binare În hexazecimal Recurge la următorul mod simplu și vizual. Fiecare octet de informații este rupt în două părți de patru biți, așa cum se arată în captura de ecran de mai sus. Asa de În fiecare jumătate a octetului cod binar Puteți codifica doar șaisprezece valori (două în gradul IV), care poate fi ușor prezentă cu un număr hexazecimal. Mai mult, în jumătatea stângă a octetului, va fi necesar să se ia în considerare din nou măsura din zero și nu așa cum se arată în captura de ecran. Ca rezultat, prin computere non-bune, obținem că numărul E9 este codificat în captura de ecran. Sper că cursul raționamentului meu și solidificarea acestui rebus ați fost de înțeles. Ei bine, acum vom continua, vorbim de fapt despre codarea textului.

Versiuni extinse ale lui AKI - CP866 și Koi8-R codificare cu pseudograph

Deci, am început să vorbim despre ASCII, care a fost ca un punct de plecare pentru dezvoltarea tuturor codificărilor moderne (Windows 1251, Unicode, UTF 8). Inițial, a fost pus doar 128 de semne ale alfabetului latin, numerele arabe și altceva acolo, dar în versiunea extinsă a fost posibilă utilizarea tuturor celor 256 de valori care pot fi codificate într-o singură informație pate. Acestea. O oportunitate de a adăuga simboluri ale literelor limbii lui la ASHA. Aici va fi necesar să fie distras din nou să clarificați - de ce aveți nevoie de codare text Și de ce este atât de important. Simbolurile de pe ecranul calculatorului dvs. se formează pe baza a două lucruri - set de formulare vectoriale (prezentări) de toate tipurile de caractere (acestea sunt în fișiere cu fonturi care sunt instalate pe computer) și cod care vă permite să scoateți afară Acest set de formulare vectoriale (fișier font) personajul pe care doriți să îl introduceți în locul potrivit. Este clar că fonturile sunt responsabile de formularele vectoriale, dar sistemul de operare și programele utilizate în acesta sunt responsabile pentru codificare. Acestea. Orice text de pe computer va fi un set de octeți din fiecare dintre care un singur simbol al acestui text este codificat. Programul care afișează acest text pe ecran (editor de text, browser etc.), când parsarea codului, citește codificarea următorului semn și căutări pentru formularul vectorial corespunzător dosarul dorit Fontul care este conectat pentru a afișa acest document text. Totul este simplu și trite. Astfel, pentru a codifica orice simbol de care avem nevoie (de exemplu, de la alfabetul național), trebuie completate două condiții - forma vectorială a acestui semn ar trebui să fie în fontul utilizat și acest simbol ar putea fi codificat în codificările extinse ASCII într-un byte . Prin urmare, există o mulțime de astfel de opțiuni. Numai pentru codificarea simbolurilor limbii rusești există mai multe soiuri de ascensoare extinse. De exemplu, a apărut inițial CP866.În care a fost posibilă utilizarea simbolurilor alfabetului rus și a fost o versiune extinsă a ASCII. Acestea. Partea sa superioară a coincis complet cu versiunea de bază a lui ASHA (128 simboluri din latină, numere și oricine altcineva), care este prezentată pe screenshot, dată puțin mai mare, dar deja partea de jos Tabelele CP866 au fost specificate în captura de ecran ușor mai scăzute și permise să codifice încă 128 de caractere (litere ruse și fiecare pseudografică):
Vedeți, în coloana din dreapta, numerele încep cu 8, pentru că Numerele de la 0 la 7 se referă la partea de bază a ASCII (a se vedea primul screenshot). Asa de Scrisoarea rusă "M" în CP866 va avea codul 9c (se află pe intersecția rândurilor corespunzătoare cu 9 și coloana cu un număr C într-un sistem de număr hexazecimal), care poate fi scris într-o singură informație de byte și dacă Există un font adecvat cu caractere rusești, această scrisoare fără probleme va fi afișată în text. De unde a venit această cantitate psedografi în CP866.? Este tot faptul că această codificare a textului rusesc a fost dezvoltată în acele ani luminoși, când nu a existat o astfel de distribuție a sistemelor de operare grafică ca acum. Și în dosare și în operații de text similare, pseudografia a permis cel puțin să diversifice designul textelor și, prin urmare, se abundă cu CP866 și toate celelalte rânduri ale descărcării versiunilor extinse ale ASHA. CP866 distribuită Compania IBM, dar în plus, au fost elaborate un număr de codificări pentru simbolurile limbii ruse, de exemplu, același tip (extins ASCII) poate fi atribuit Koi8-r.:
Principiul lucrării sale a rămas la fel ca CP866 descris mai târziu - fiecare simbol text este codificat de un singur octet. Screenshot-ul prezintă a doua jumătate a mesei Koi8-R, deoarece Prima repriză este pe deplin compatibilă cu baza ASUS, care este prezentată pe primul ecran din acest articol. Printre caracteristicile codificării KOI8-R, se poate observa că literele ruse din tabelul său nu sunt în ordine alfabetică, cum ar fi aceasta, de exemplu, făcută în CP866. Dacă vă uitați la primul screenshot (partea de bază, care intră în toate codificările extinse), observați că în KOI8-R, literele ruse sunt situate în aceleași tabele ale tabelului ca literele alfabetului latin din prima parte a masa. Acest lucru a fost făcut pentru comoditatea de a trece de la simbolurile rusești în latină prin aruncarea unui singur bit (două în gradul al șaptelea sau 128).

Windows 1251 - O versiune modernă a ASCII și de ce se scot backerii

Dezvoltarea ulterioară a codificărilor de text se datorează faptului că sistemele de operare grafice și necesitatea utilizării pseudografelor în ele au câștigat popularitate. Ca rezultat, a apărut un grup întreg, care, la esența lor, a fost încă versiuni avansate ale lui ASTI (un singur simbol text este codificat cu o singură debit de informații), dar fără a folosi caractere pseudografice. Ei au tratat așa-numita codificare ANSI, care au fost dezvoltate de Institutul American de Standardizare. Numele chirilic a fost folosit în continuare în cea de-adirecție pentru o opțiune cu sprijinul limbii ruse. Exemplu, astfel de pot servi Windows 1251.. Acesta a fost favorabil diferit de CP866 și KOI8-R utilizat anterior, în care locul personajelor pseudografică a luat simbolurile lipsă ale tipografiei ruse (semnul descrescător), precum și simbolurile utilizate în apropierea lui Rusia slavică Limbi (ucrainene, Belarus, etc.):
Din cauza acestei abundențe a codificărilor limbii ruse, producătorii de fonturi și producători software. El a apărut în mod constant o durere de cap, și cu tine, dragi cititori, de multe ori cele mai notorii krakoyabry.Când confuzia a fost predată cu versiunea utilizată în text. Foarte des au ieșit la trimiterea și primirea de mesaje e-mailCe a cauzat crearea de mese transversale foarte complexe, care, de fapt, nu au putut rezolva această problemă în rădăcină și adesea utilizatorii de corespondență au folosit litere latine translite pentru a evita krakozimele notorii atunci când se utilizează codificări ruse de astfel de CP866, KOI8-R sau Windows 1251. În esență, Krakoyarbra, împărtășind în loc de textul rusesc, au fost rezultatul unei utilizări incorecte a codificării din această limbăcare nu se potrivesc cu cel în care mesajul text a fost codificat inițial. Să presupunem că simbolurile codificate cu CP866, încercați să afișați utilizând tabelul de cod Windows 1251, apoi aceste cele mai crăpate (set de caractere fără sens) și ieșiți, înlocuind complet textul mesajului.
O situație similară se întâmplă foarte des la crearea și configurarea site-urilor, a forumurilor sau a blogurilor, atunci când textul cu caractere rusești din greșeală nu este salvat în această codificare care este utilizată pe site-ul implicit sau nu editor de textcare adaugă la codul Sebestin nu este vizibil la ochiul liber. În cele din urmă, o astfel de situație cu numeroase codificări și cranberamuri constante de crawlere, mulți obosiți, au fost premise pentru crearea unei noi variații universale, care ar fi înlocuit toate existente și rezolvate, în cele din urmă, la rădăcina problemei cu apariția nu texte citite. În plus, a existat o problemă a limbilor chineze similare, unde simbolurile limbii au fost mult mai mult de 256.

Unicode (Unicode) - Coduri universale UTF 8, 16 și 32

Aceste mii de semne ale grupului lingvistic din Asia de Sud-Est nu au putut fi descrise într-o singură informație Pape care a fost alocată pentru codarea personajelor în versiunile ASCII avansate. Ca rezultat, a fost creat un consorțiu numit Unicode (Consorțiu Unicode - Unicode) în colaborarea multor lideri IT ai industriei (cei care produc un software care codifică fierul, care creează fonturi) care erau interesați de apariția unui text universal care codifică. Prima variație publicată sub auspiciile consorțiului Unicode a fost UTF 32.. Cifra din numele codării înseamnă numărul de biți utilizați pentru a codifica un simbol. 32 de biți sunt 4 octeți de informații care vor fi necesare pentru a codifica un singur semn în noua codificare UTF universală. Ca rezultat, același fișier cu textul codificat în versiunea extinsă a ASCII și UTF-32 va avea dimensiunea (cântărește) de patru ori mai mult. Este rău, dar acum avem ocazia de a codifica numărul de semne egale cu două până la treizeci de grade secunde, cu ajutorul UTF ( miliarde de caractere.care va acoperi orice valoare reală cu o marjă colosală). Dar multe țări cu limbile Grupului european au un număr mare de semne de utilizat în codificare și nu a fost nevoie, totuși, atunci când se utilizează UTF-32, nu au primit o creștere de patru ori În greutatea documentelor text și, ca urmare, o creștere a datelor pe Internet și a datelor stocate de volum. Aceasta este o mulțime și nimeni nu și-ar putea permite astfel de deșeuri. Ca urmare a dezvoltării Unicode a apărut UTF-16.care sa dovedit a fi atât de reușită, care a fost adoptată în mod implicit ca un spațiu de bază pentru toate personajele pe care le folosim. Utilizează doi octeți pentru a codifica un semn. Să vedem cum arată acest lucru. În sistemul de operare Windows, puteți trece de-a lungul căii "Start" - "Programe" - "Standard" - "Service" - "Tabel de caractere". Ca rezultat, o masă se deschide cu forme vectoriale ale tuturor instalate în fonturile dvs. Dacă alegeți în "parametri suplimentari" un set de caractere Unicode, puteți vedea pentru fiecare font separat întreaga gamă de caractere incluse în acesta. Apropo, făcând clic pe oricare dintre ele, îl puteți vedea pe două codul în format UTF-16constând din patru cifre hexazecimale:
Câte caractere pot fi codificate în UTF-16 folosind 16 biți? 65 536 (două până la șaisprezece), iar acest număr a fost luat pentru spațiul de bază din Unicode. În plus, există modalități de a codifica cu el și aproximativ două milioane de caractere, dar se limitează la spațiul extins într-un milion de simboluri text. Dar chiar și această versiune de succes a codificării lui Unicode nu a adus multă satisfacție celor care au scris, de exemplu, programele numai pe limba englezaPentru aceștia, după trecerea de la versiunea extinsă a ASCII la UTF-16, greutatea documentelor a crescut de două ori (un octet pe simbol în ASTI și doi octeți pe același simbol în UTF-16). Asta e tocmai pentru a satisface toată lumea și tot în consorțiul Unicode a fost decis. veniți cu codarea lungime variabilă. Ea a fost numită UTF-8. În ciuda celor opt din titlu, are într-adevăr o lungime variabilă, adică. Fiecare simbol text poate fi codificat într-o secvență de unul la șase octeți. În practică, UTF-8 utilizează doar o gamă de la unul la patru octeți, deoarece nu există nimic nici măoretic posibil să se supună nimic celor patru octeți ai codului. Toate semnele latine sunt codificate într-un octet, precum și în vechiul ASCII. Ceea ce este demn de remarcat, în cazul codificării numai latinei, chiar și acele programe care nu înțeleg Unicode vor citi încă ceea ce este codificat în UTF-8. Acestea. Partea de bază a lui ASHA a trecut pur și simplu la acest consorțiu de la Unicode. Semnele chirilice din UTF-8 sunt codificate în doi octeți și, de exemplu, georgiană - în trei octeți. Consorțiul Unicode după crearea UTF 16 și 8 a rezolvat problema principală - acum avem în fonturi Există un spațiu unic de cod. Și acum producătorii lor rămân doar pe baza forțelor și oportunităților lor de ao umple cu forme vectoriale de simboluri de text. În tabelul de simbol de mai jos, se poate observa că diferite fonturi suportă un număr diferit de caractere. Unele simboluri ale fonturilor Unicode pot cântări foarte bine. Dar acum nu se disting prin faptul că sunt create pentru diferite codificări, dar de faptul că producătorul de fonturi a umplut sau nu a umplut spațiul unic de cod de către acelea sau alte forme vectoriale până la capăt.

Krakoyabry în loc de scrisori ruse - cum să remedieze

Să vedem acum cum apare textul Crakozimabe în loc de text sau, cu alte cuvinte, cum este selectată codarea corectă pentru textul rusesc. De fapt, este setat în programul în care creați sau editați același text sau cod folosind fragmente de text. Pentru editarea și crearea fișierelor text, folosesc foarte bine, în opinia mea, editorul HTML și PHP Notepad ++. Cu toate acestea, poate evidenția sintaxa încă o sută de limbi de programare și de marcare, și are, de asemenea, capacitatea de a se extinde cu pluginurile. Citit revizuire detaliată Acest program minunat conform link-ului. În meniul Top Notepad ++, există un element "codificare", unde veți avea capacitatea de a converti o opțiune existentă la una care este utilizată pe site-ul dvs. implicit:
În cazul unui site din Joomla 1.5 și mai sus, precum și în cazul unui blog pe WordPress, ar trebui să alegeți opțiunea pentru a evita apariția Krakoyar UTF 8 fără BOM. Care este prefixul BOM? Faptul este că atunci când codarea ETF-16 a fost dezvoltată, din anumite motive a decis să fixeze un astfel de lucru ca abilitatea de a înregistra un cod de simbol, atât în \u200b\u200bsecvența directă (de exemplu, 0A15), cât și în invers (150a) . Și pentru ca programele să înțeleagă ce coduri de citire a secvenței și a fost inventată BOM. (Marcajul de octeți sau, cu alte cuvinte, semnătura), care a fost exprimată în adăugarea a trei octeți suplimentari la începutul documentelor. În codificarea UTF-8, nu au existat nici un BOM în consorțiul Unicode și, prin urmare, adăugând semnătură (cei mai cunoscuți trei octeți suplimentari la începutul documentului) Unele programe pur și simplu împiedică citirea codului. Prin urmare, întotdeauna, când salvăm fișiere în UTF, trebuie să selectați o opțiune fără BOM (fără semnătură). Deci sunteți în avans mustrați-vă de la crackering. Ceea ce este demn de remarcat, unele programe în Windows nu știu cum să facă acest lucru (nu puteți salva text în UTF-8 fără BOM), de exemplu, aceleași ferestre notebook notive. Salvează documentul în UTF-8, dar încă adaugă semnătura la început (trei octeți suplimentari). Mai mult, acești octeți vor fi întotdeauna la fel - citiți codul în secvență directă. Dar pe servere, din cauza lucrurilor mici, poate exista o problemă - Crackels va ieși afară. Prin urmare, în nici un caz nu utilizați ferestrele obișnuite de notebook Pentru a edita documente ale site-ului dvs., dacă nu doriți aspectul Krakoyarbra. Consider că cea mai recentă și cea mai ușoară opțiune pentru editorul Notepad ++ deja menționat, care practic nu are dezavantaje și constă în unul dintre avantaje. În Notepad ++ Când alegeți o codificare, veți avea capacitatea de a converti textul la codarea UCS-2, care este foarte aproape de standardul Unicode în esență. De asemenea, într-un non-tip poate fi codificat în ANSI, adică Cu referire la limba rusă, aceasta va fi deja descrisă de noi chiar deasupra Windows 1251. De unde provin aceste informații? Ea este scrisă în registrul camerei dvs. de operație sisteme Windows. - Ce codificare de a alege în cazul ANSI, ce să alegeți în cazul OEM (pentru limba rusă va fi CP866). Dacă instalați o altă limbă implicită pe computer, atunci aceste codificări vor fi înlocuite cu ANSI sau OEM descărcare pentru aceeași limbă. După tine în Notepad ++, salvați documentul în codarea de care aveți nevoie sau deschideți un document de pe site pentru a edita, apoi în colțul din dreapta jos al editorului vă puteți vedea numele: Pentru a evita Cracoyarbrov.Cu excepția faptului că acțiunile descrise mai sus vor fi utile pentru înregistrarea în capacul său cod sursa Toate paginile site-ului informații despre această codificare, astfel încât serverul sau gazda locală să nu apară. În general, în toate limbile marcajului hipertext, altele decât HTML, se utilizează un anunț XML special, care specifică codarea textului.< ? xml version= "1.0" encoding= "windows-1251" ? > Înainte de a începe să dezasamblați codul, browserul va afla ce versiune este utilizată și cum trebuie exact să interpretați codurile personajelor acestei limbi. Dar ceea ce este demn de remarcat, în cazul în care salvați documentul în Unicode implicit, această declarație XML poate fi omisă (codarea va fi considerată UTF-8, dacă nu există nici un BOM sau UTF-16 dacă există un BOM). În cazul unui document limba HTML. Pentru a specifica codificarea utilizată meta elementcare este prescris între eticheta capului de deschidere și închidere: < head> . . . < meta charset= "utf-8" > . . . < / head> Această intrare este destul de diferită de cea adoptată în standardul din HTML 4.01, dar respectă pe deplin noul introdus lent de standardul HTML 5 și va fi absolut înțeles corect de oricine folosit acest moment browsere. În teorie, elementul meta cu o indicație de codificare HTML Document. Mai bine să-l aducă cât mai mare posibil în antetul doculuiAstfel încât, la momentul întâlnirii din textul primului semn să nu fie din ANSI de bază (care citiți întotdeauna întotdeauna și în orice variație), browserul trebuie să aibă deja informații despre cum să interpreteze codurile acestor caractere. Link la primul.

- Plecarea (@comradzampolit) 17 august 2017

Cum funcționează Koi8-R?

KOI8-R este o pagină de cod de opt biți concepută pentru a codifica literele alfabetelor chirilice. Dezvoltatorii au plasat simbolurile alfabetului rus în așa fel încât pozițiile simbolurilor chirilice corespundeau analogilor lor fonetici în alfabetul englez din partea de jos a mesei. Și dacă în textul scris în această codificare, pentru a îndepărta a opta biți a fiecărui simbol, se obține textul similar cu literele latine.

Un astfel de cod de schimb a fost utilizat în anii șaptezeci pe computerele din seria UE UE, iar de la mijlocul anilor optzeci a început să o folosească în primele versiuni ruși. sistem de operare Unix.

Codificarea a fost că fiecare simbol a fost atribuit cod unic.: De la 00000000 la 111111111. Astfel, o persoană a distins caracterele desenului lor și calculatorul - conform codului lor.

Este Chernova codifică acum?

Nu. A fost relevant pentru computerele vechi cu opt biți, acum Unicode este utilizat în principal în diferite formate.

Bună ziua, Stimate site-ul de cititoare blog. Astăzi vă vom vorbi despre locul în care provin Cracoyarbra și în programe, care există codificări text și care dintre ele trebuie utilizate. Să luăm în detaliu istoria dezvoltării lor, variind de la ASCII de bază, precum și de versiunile sale extinse de CP866, KOI8-R, Windows 1251 și terminând cu codurile moderne ale consorțiului Unicode UTF 16 și 8.

Cineva pe care aceste informații le poate părea inutil, dar ați ști cât de multe întrebări vin la mine exact în legătură cu fisurile (fără a citi un set de caractere). Acum voi avea ocazia să-i trimit pe toată lumea în textul acestui articol și să-ți caut în mod independent piscinele. Ei bine, pregătiți-vă să absorbiți informațiile și să încercați să monitorizați narațiunea.

ASCII - codarea textului latizei de bază

Dezvoltarea codificărilor de text apare simultan cu formarea industriei IT și în acest timp au avut timp să se supună unor schimbări destul de puține. Din punct de vedere istoric, totul a început cu o pronunție destul de dăunătoare a EBCDIC, care a făcut posibilă codificarea literelor alfabetului latin, numerelor arabe și semne de punctuație cu simboluri de control.

Dar totuși punctul de plecare pentru dezvoltarea codificărilor text moderne ar trebui considerat un faimos ASCII. (Codul standard american pentru schimbul de informații, care în limba rusă este de obicei pronunțat ca "aski"). Acesta descrie primele 128 de caractere din cele mai frecvent utilizate de utilizatorii de limbă engleză -, numerele arabe și semne de punctuație.

Chiar și în aceste 128 de caractere descrise în ASCII, unele simboluri de serviciu au fost zdrobite de paranteze, laturi, asteriscuri etc. De fapt, tu o poți vedea:

Aceste 128 de caractere din versiunea inițială a ASCII au devenit standard, iar în orice altă codificare veți întâlni cu siguranță că vor fi în așa fel.

Dar faptul că este faptul că, cu ajutorul unui octet al informațiilor, puteți codifica 128, dar până la 256 de valori diferite (de două ori până la gradul opt este egal cu 256), astfel încât a apărut o gamă întreagă după versiunea de bază a Aska. coduri avansate ASCII.În plus față de 128 de semne principale, a fost, de asemenea, posibilă codificarea simbolurilor naționale de codificare (de exemplu, rusă).

Aici, probabil, merită mai mult despre sistemul numeric utilizat în descriere. În primul rând, după cum știți totul, computerul funcționează numai cu numere într-un sistem binar, și anume cu zerouri și unități ("Boulev Algebra", dacă cineva a avut loc la Institut sau la școală). Fiecare dintre acestea este o încetare la o diplomă, începând cu zero și la două în al șaptelea:

Nu este greu de înțeles că toate combinațiile posibile de zerouri și unități într-un astfel de design pot fi doar 256. Traduceți numărul din sistemul binar în zecimal este destul de simplu. Este necesar să se plieze pur și simplu toate gradele de mai sus pe care o reprezintă.

În exemplul nostru, se dovedește 1 (2 la gradul de zero) plus 8 (două la grade 3), plus 32 (de două ori în gradul al cincilea), plus 64 (în al șaselea), plus 128 (în al șaptelea) . Total primește 233 într-un sistem de numere zecimale. După cum puteți vedea, totul este foarte simplu.

Dar dacă vă uitați la masă cu caractere ASCII, veți vedea că acestea sunt prezentate în codarea hexazecimală. De exemplu, "asteriscul" corespunde paradisului unui număr hexazecimal 2a. Probabil, știți că într-un sistem de număr hexazecimal, literele latine de la A (Mediu TEN) la F (înseamnă cincisprezece) sunt folosite într-un sistem numeric hexazecimal.

Ei bine, deci pentru traduceți numerele binare în hexazecimal Recurge la următorul mod simplu și vizual. Fiecare octet de informații este rupt în două părți de patru biți, așa cum se arată în captura de ecran de mai sus. Asa de În fiecare jumătate a octetului, codul binar poate fi codificat numai pentru șaisprezece valori (două în gradul al patrulea), care poate fi ușor reprezentat de hexazecimal.

Mai mult, în jumătatea stângă a octetului, va fi necesar să se ia în considerare din nou măsura din zero și nu așa cum se arată în captura de ecran. Ca rezultat, prin computere non-bune, obținem că numărul E9 este codificat în captura de ecran. Sper că cursul raționamentului meu și solidificarea acestui rebus ați fost de înțeles. Ei bine, acum vom continua, vorbim de fapt despre codarea textului.

Versiuni extinse ale lui AKI - CP866 și Koi8-R codificare cu pseudograph

Deci, am început să vorbim despre ASCII, care a fost ca un punct de plecare pentru dezvoltarea tuturor codificărilor moderne (Windows 1251, Unicode, UTF 8).

Inițial, a fost pus doar 128 de semne ale alfabetului latin, numerele arabe și altceva acolo, dar în versiunea extinsă a fost posibilă utilizarea tuturor celor 256 de valori care pot fi codificate într-o singură informație pate. Acestea. O oportunitate de a adăuga simboluri ale literelor limbii lui la ASHA.

Aici va fi necesar să fie distras din nou să clarificați - de ce aveți nevoie de codificare texte și de ce este atât de important. Caracterele de pe ecranul calculatorului dvs. sunt formate pe baza a două lucruri - seturi de formulare vectoriale (reprezentări) de toate tipurile de caractere (sunt în fișiere CO) și cod care vă permite să scoateți acest set de forme vectoriale ( Fișier de font) Este caracterul care urmează să fie introdus în locul potrivit.

Este clar că fonturile sunt responsabile de formularele vectoriale, dar sistemul de operare și programele utilizate în acesta sunt responsabile pentru codificare. Acestea. Orice text de pe computer va fi un set de octeți din fiecare dintre care un singur simbol al acestui text este codificat.

Programul care afișează acest text pe ecran (editor de text, browser etc.), când analizați codul, acesta citește codarea următorului semn și căutări pentru formularul vectorial corespunzător la acesta în fișierul de font dorit care este conectat la Afișați acest document text. Totul este simplu și trite.

Astfel, pentru a codifica orice simbol de care avem nevoie (de exemplu, de la alfabetul național), trebuie completate două condiții - forma vectorială a acestui semn ar trebui să fie în fontul utilizat și acest simbol ar putea fi codificat în codificările extinse ASCII într-un byte . Prin urmare, există o mulțime de astfel de opțiuni. Numai pentru codificarea simbolurilor limbii rusești există mai multe soiuri de ascensoare extinse.

De exemplu, a apărut inițial CP866.În care a fost posibilă utilizarea simbolurilor alfabetului rus și a fost o versiune extinsă a ASCII.

Acestea. Partea sa superioară a coincis cu versiunea de bază a lui ASKI (128 simboluri latine, numere și chiar orice labuda), care este reprezentată pe screenshot ușor mai mare, dar deja partea inferioară a tabelului de codare CP866 a avut specificat în captura de ecran Puțin sub vizualizare și a permis să codifice alte 128 de semne (litere rusești și orice pseudografică):

Vedeți, în coloana din dreapta, numerele încep cu 8, pentru că Numerele de la 0 la 7 se referă la partea de bază a ASCII (a se vedea primul screenshot). Asa de Scrisoarea rusă "M" în CP866 va avea codul 9c (se află pe intersecția rândurilor corespunzătoare cu 9 și coloana cu un număr C într-un sistem de număr hexazecimal), care poate fi scris într-o singură informație de byte și dacă Există un font adecvat cu caractere rusești, această scrisoare fără probleme va fi afișată în text.

De unde a venit această cantitate psedografi în CP866.? Este tot faptul că această codificare a textului rusesc a fost dezvoltată în acele ani luminoși, când nu a existat o astfel de distribuție a sistemelor de operare grafică ca acum. Și în dosare și în operații de text similare, pseudografia a permis cel puțin să diversifice designul textelor și, prin urmare, se abundă cu CP866 și toate celelalte rânduri ale descărcării versiunilor extinse ale ASHA.

CP866 distribuită Compania IBM, dar în plus, au fost elaborate un număr de codificări pentru simbolurile limbii ruse, de exemplu, același tip (extins ASCII) poate fi atribuit Koi8-r.:

Principiul lucrării sale a rămas la fel ca CP866 descris mai târziu - fiecare simbol text este codificat de un singur octet. Screenshot-ul prezintă a doua jumătate a mesei Koi8-R, deoarece Prima repriză este pe deplin compatibilă cu baza ASUS, care este prezentată pe primul ecran din acest articol.

Printre caracteristicile codificării KOI8-R, se poate observa că literele ruse din tabelul său nu sunt în ordine alfabetică, cum ar fi aceasta, de exemplu, făcută în CP866.

Dacă vă uitați la primul screenshot (partea de bază, care intră în toate codificările extinse), observați că în KOI8-R, literele ruse sunt situate în aceleași tabele ale tabelului ca literele alfabetului latin din prima parte a masa. Acest lucru a fost făcut pentru comoditatea de a trece de la simbolurile rusești în latină prin aruncarea unui singur bit (două în gradul al șaptelea sau 128).

Windows 1251 - O versiune modernă a ASCII și de ce se scot backerii

Dezvoltarea ulterioară a codificărilor de text se datorează faptului că sistemele de operare grafice și necesitatea utilizării pseudografelor în ele au câștigat popularitate. Ca rezultat, a apărut un grup întreg, care, la esența lor, a fost încă versiuni avansate ale lui ASTI (un singur simbol text este codificat cu o singură debit de informații), dar fără a folosi caractere pseudografice.

Ei au tratat așa-numita codificare ANSI, care au fost dezvoltate de Institutul American de Standardizare. Numele chirilic a fost folosit în continuare în cea de-adirecție pentru o opțiune cu sprijinul limbii ruse. Un exemplu de un astfel de exemplu.

Acesta a fost favorabil diferit de CP866 și KOI8-R utilizat anterior, în care locul personajelor pseudografică a luat simbolurile lipsă ale tipografiei ruse (semnul descrescător), precum și simbolurile utilizate în apropierea lui Rusia slavică Limbi (ucrainene, Belarus, etc.):

Din cauza unei astfel de abundențe de codificare a limbii ruse, producătorii de fonturi și producători de software au avut în mod constant o durere de cap, iar cu tine, dragi cititori, adesea au primit cele mai notorii krakoyabry.Când confuzia a fost predată cu versiunea utilizată în text.

Foarte des, au ieșit la trimiterea și primirea de mesaje prin e-mail, ceea ce a dus la crearea de mese transversale foarte complexe, care, de fapt, nu au putut rezolva această problemă în rădăcină și adesea utilizatorii pentru corespondență au fost folosiți pentru a evita krakozimaburile notorii atunci când se utilizează Codificări rusești similare CP866, KOI8-R sau Windows 1251.

În esență, Krakoyarbra, care impart în loc de textul rusesc, au fost rezultatul utilizării incorecte a codificării acestei limbi, care nu se potrivește cu cea în care mesajul text a fost inițial codificat.

Să presupunem că simbolurile codificate cu CP866, încercați să afișați utilizând tabelul de cod Windows 1251, apoi aceste cele mai crăpate (set de caractere fără sens) și ieșiți, înlocuind complet textul mesajului.

O situație similară se întâmplă foarte adesea la, forumuri sau bloguri, când textul cu caractere rusești din greșeală nu este salvat în aceeași codificare care este utilizată pe site-ul implicit sau nu în editorul de text, care adaugă la codul Sebestin nu vizibilă la ochiul liber.

În cele din urmă, o astfel de situație cu numeroase codificări și cranberamuri constante de crawlere, mulți obosiți, au fost premise pentru crearea unei noi variații universale, care ar fi înlocuit toate existente și rezolvate, în cele din urmă, la rădăcina problemei cu apariția nu texte citite. În plus, a existat o problemă a limbilor chineze similare, unde simbolurile limbii au fost mult mai mult de 256.

Unicode (Unicode) - Coduri universale UTF 8, 16 și 32

Aceste mii de semne ale grupului lingvistic din Asia de Sud-Est nu au putut fi descrise într-o singură informație Pape care a fost alocată pentru codarea personajelor în versiunile ASCII avansate. Ca rezultat, a fost creat un consorțiu numit Unicode (Consorțiu Unicode - Unicode) în colaborarea multor lideri IT ai industriei (cei care produc un software care codifică fierul, care creează fonturi) care erau interesați de apariția unui text universal care codifică.

Prima variație publicată sub auspiciile consorțiului Unicode a fost UTF 32.. Cifra din numele codării înseamnă numărul de biți utilizați pentru a codifica un simbol. 32 de biți sunt 4 octeți de informații care vor fi necesare pentru a codifica un singur semn în noua codificare UTF universală.

Ca rezultat, același fișier cu textul codificat în versiunea extinsă a ASCII și UTF-32 va avea dimensiunea (cântărește) de patru ori mai mult. Este rău, dar acum avem ocazia de a codifica numărul de semne egale cu două până la treizeci de grade secunde, cu ajutorul UTF ( miliarde de caractere.care va acoperi orice valoare reală cu o marjă colosală).

Dar multe țări cu limbile Grupului european au un număr mare de semne de utilizat în codificare și nu a fost nevoie, totuși, atunci când se utilizează UTF-32, nu au primit o creștere de patru ori În greutatea documentelor text și, ca urmare, o creștere a datelor pe Internet și a datelor stocate de volum. Aceasta este o mulțime și nimeni nu și-ar putea permite astfel de deșeuri.

Ca urmare a dezvoltării Unicode a apărut UTF-16.care sa dovedit a fi atât de reușită, care a fost adoptată în mod implicit ca un spațiu de bază pentru toate personajele pe care le folosim. Utilizează doi octeți pentru a codifica un semn. Să vedem cum arată acest lucru.

În sistemul de operare Windows, puteți trece de-a lungul căii "Start" - "Programe" - "Standard" - "Service" - "Tabel de caractere". Ca rezultat, o masă se deschide cu forme vectoriale ale tuturor instalate în fonturile dvs. Dacă alegeți în "parametri suplimentari" un set de caractere Unicode, puteți vedea pentru fiecare font separat întreaga gamă de caractere incluse în acesta.

Apropo, făcând clic pe oricare dintre ele, îl puteți vedea pe două codul în format UTF-16constând din patru cifre hexazecimale:

Câte caractere pot fi codificate în UTF-16 folosind 16 biți? 65 536 (două până la șaisprezece), iar acest număr a fost luat pentru spațiul de bază din Unicode. În plus, există modalități de a codifica cu el și aproximativ două milioane de caractere, dar se limitează la spațiul extins într-un milion de simboluri text.

Dar chiar și această versiune de succes a codării lui Unicode nu a adus multă satisfacție cu cei care au scris, de exemplu, programe numai în limba engleză, deoarece au, după trecerea de la versiunea extinsă a ASCII la UTF-16, greutatea documentelor a crescut de două ori (un octet pe un singur simbol în ASKI și doi octeți pe același simbol în UTF-16).

Asta e tocmai pentru a satisface toată lumea și tot în consorțiul Unicode a fost decis să vină codând lungimea variabilă. Ea a fost numită UTF-8. În ciuda celor opt din titlu, are într-adevăr o lungime variabilă, adică. Fiecare simbol text poate fi codificat într-o secvență de unul la șase octeți.

În practică, UTF-8 utilizează doar o gamă de la unul la patru octeți, deoarece nu există nimic nici măoretic posibil să se supună nimic celor patru octeți ai codului. Toate semnele latine sunt codificate într-un octet, precum și în vechiul ASCII.

Ceea ce este demn de remarcat, în cazul codificării numai latinei, chiar și acele programe care nu înțeleg Unicode vor citi încă ceea ce este codificat în UTF-8. Acestea. Partea de bază a lui ASHA a trecut pur și simplu la acest consorțiu de la Unicode.

Semnele chirilice din UTF-8 sunt codificate în doi octeți și, de exemplu, georgiană - în trei octeți. Consorțiul Unicode după crearea UTF 16 și 8 a decis problema principală - acum avem În fonturi există un spațiu unic de cod. Și acum producătorii lor rămân doar pe baza forțelor și oportunităților lor de ao umple cu forme vectoriale de simboluri de text. Acum în seturi chiar.

În tabelul de simbol de mai jos, se poate observa că diferite fonturi suportă un număr diferit de caractere. Unele simboluri ale fonturilor Unicode pot cântări foarte bine. Dar acum nu se disting prin faptul că sunt create pentru diferite codificări, dar de faptul că producătorul de fonturi a umplut sau nu a umplut spațiul unic de cod de către acelea sau alte forme vectoriale până la capăt.

Krakoyabry în loc de scrisori ruse - cum să remedieze

Să vedem acum cum apare textul Crakozimabe în loc de text sau, cu alte cuvinte, cum este selectată codarea corectă pentru textul rusesc. De fapt, este setat în programul în care creați sau editați același text sau cod folosind fragmente de text.

Pentru editarea și crearea fișierelor text, folosesc personal foarte bine, în opinia mea. Cu toate acestea, poate evidenția sintaxa încă o sută de limbi de programare și de marcare, și are, de asemenea, capacitatea de a se extinde cu pluginurile. Citiți o prezentare detaliată a acestui program minunat sub link.

În meniul Top Notepad ++, există un element "codificare", unde veți avea capacitatea de a converti o opțiune existentă la una care este utilizată pe site-ul dvs. implicit:

În cazul unui site din Joomla 1.5 și mai sus, precum și în cazul unui blog pe WordPress, ar trebui să alegeți opțiunea pentru a evita apariția Krakoyar UTF 8 fără BOM. Care este prefixul BOM?

Faptul este că atunci când codarea ETF-16 a fost dezvoltată, din anumite motive a decis să fixeze un astfel de lucru ca abilitatea de a înregistra un cod de simbol, atât în \u200b\u200bsecvența directă (de exemplu, 0A15), cât și în invers (150a) . Și pentru ca programele să înțeleagă ce coduri de citire a secvenței și a fost inventată BOM. (Marcajul de octeți sau, cu alte cuvinte, semnătura), care a fost exprimată în adăugarea a trei octeți suplimentari la începutul documentelor.

În codificarea UTF-8, nu au existat nici un BOM în consorțiul Unicode și, prin urmare, adăugând semnătură (cei mai cunoscuți trei octeți suplimentari la începutul documentului) Unele programe pur și simplu împiedică citirea codului. Prin urmare, întotdeauna, când salvăm fișiere în UTF, trebuie să selectați o opțiune fără BOM (fără semnătură). Deci sunteți în avans mustrați-vă de la crackering.

Ceea ce este demn de remarcat, unele programe în Windows nu știu cum să facă acest lucru (nu puteți salva text în UTF-8 fără BOM), de exemplu, aceleași ferestre notebook notive. Salvează documentul în UTF-8, dar încă adaugă semnătura la început (trei octeți suplimentari). Mai mult, acești octeți vor fi întotdeauna la fel - citiți codul în secvență directă. Dar pe servere, din cauza lucrurilor mici, poate exista o problemă - Crackels va ieși afară.

Prin urmare, în nici un caz nu utilizați ferestrele obișnuite de notebook Pentru a edita documente ale site-ului dvs., dacă nu doriți aspectul Krakoyarbra. Consider că cea mai recentă și cea mai ușoară opțiune pentru editorul Notepad ++ deja menționat, care practic nu are dezavantaje și constă în unul dintre avantaje.

În Notepad ++ Când alegeți o codificare, veți avea capacitatea de a converti textul la codarea UCS-2, care este foarte aproape de standardul Unicode în esență. De asemenea, într-un non-tip poate fi codificat în ANSI, adică Cu referire la limba rusă, aceasta va fi deja descrisă de noi chiar deasupra Windows 1251. De unde provin aceste informații?

Este afișat în registrul sistemului dvs. de operare Windows - care codifică este alegerea în cazul ANSI, ce să alegeți în cazul OEM (pentru limba rusă va fi CP866). Dacă instalați o altă limbă implicită pe computer, atunci aceste codificări vor fi înlocuite cu ANSI sau OEM descărcare pentru aceeași limbă.

După tine în Notepad ++, salvați documentul în codarea de care aveți nevoie sau deschideți un document de pe site pentru a edita, apoi în colțul din dreapta jos al editorului vă puteți vedea numele:

Pentru a evita Cracoyarbrov.În plus față de acțiunile descrise mai sus, va fi utilă înregistrarea în antetul codului sursă al tuturor paginilor informațiilor despre site-ul despre această codificare pentru ca serverul sau gazda locală să nu aibă loc.

În general, în toate limbile marcajului hipertext, altele decât HTML, se utilizează un anunț XML special, care specifică codarea textului.

Înainte de a începe să dezasamblați codul, browserul va afla ce versiune este utilizată și cum trebuie exact să interpretați codurile personajelor acestei limbi. Dar ceea ce este demn de remarcat, în cazul în care salvați documentul în Unicode implicit, această declarație XML poate fi omisă (codarea va fi considerată UTF-8, dacă nu există nici un BOM sau UTF-16 dacă există un BOM).

În cazul unui document al limbii HTML pentru a specifica codarea utilizată meta elementcare este prescris între eticheta capului de deschidere și închidere:

... ...

Această intrare este destul de diferită de cea acceptată B, dar corespunde complexului nou introdus lent prin standardul HTML 5 și va fi absolut înțeles corect de browserele utilizate în prezent.

În teorie, elementul meta cu o indicație a codării HTML a documentului va fi mai bine de pus cât mai mare posibil în antetul doculuiAstfel încât, la momentul întâlnirii din textul primului semn să nu fie din ANSI de bază (care citiți întotdeauna întotdeauna și în orice variație), browserul trebuie să aibă deja informații despre cum să interpreteze codurile acestor caractere.

Multă baftă! La întâlnirile ambigue pe site-ul web al blogului

S-ar putea să fiți interesat

Care sunt adresele URL decât diferența dintre legăturile absolute și relative pentru site-ul
OpenServer - Modern. server local și un exemplu de utilizare a acesteia instalații WordPress. pe calculator
Ceea ce este chmod, care accesează drepturile de atribuire a fișierelor și a dosarelor (777, 755, 666) și cum să facă prin PHP
Căutați Yandex pe site și magazin online