ASCII karakterleri yok. Kodlama Metin Bilgileri

Bilgisayar, dönüşümünün, bu verilerin daha uygun iletim, depolama veya otomatik olarak işlenmesini sağlayan bir forma dönüştürülmesi anlamına gelir. Bu amaçla, çeşitli tablolar kullanılır. ASCII kodlaması, Amerika Birleşik Devletleri'nde geliştirilen ilk sistemdir, daha sonra dünyaya dağıtılan İngilizce-dil metni ile çalışmaktadır. Açıklamaları, özellikleri, özellikleri ve daha fazla kullanım, aşağıda sunulan makaleye ayrılmıştır.

Bilgisayardaki bilgileri görüntüleyin ve saklama

Bilgisayar monitöründeki semboller veya bir mobil dijital gadget, her türlü işaret ve kodun vektör formlarının kümelerinin temelinde, bunlar arasında, bunlar arasında doğru yere eklemek istediğiniz kişiyi bulmanızı sağlar. Biraz dizisidir. Böylece, her sembol kesinlikle belirli, benzersiz bir sırayla dayanan bir dizi sıfır ve birimlere uymalıdır.

Hepsi nasıl başladı

Tarihsel olarak, ilk bilgisayarlar İngilizce konuşuyordu. Sembolik bilgileri onlara kodlamak için, yalnızca 7 bellek biti kullanmak için yeterliydi, oysa bu amaç için 8 bitten oluşan 1 bayttı. Bu durumda bilgisayar tarafından anlaşılan işaretlerin sayısı 128'e eşitti. Bu tür karakterlerin sayısı, noktalama işaretleri, sayıları ve bazı özel karakterlerle İngilizce bir alfabeyi içeriyordu. 1963'te geliştirilen ilgili tablo (kod sayfası) ile ilgili İngilizce konuşan bir yedi kodlu kodlama, bilgi değişimi için Amerikan Standart kodu seçildi. Genellikle, ataması için "ASCII kodlaması" kısaltması kullanılmış ve bu gün kullanılmıştır.

Çarpışmaya Geçiş

Zamanla, bilgisayarlar ilgi çekici olmayan ülkelerde yaygın olarak kullanılmaktadır. Bu bağlamda, ulusal dilleri kullanmamıza izin veren kodlamalara ihtiyaç vardı. Bisikleti yeniden icat etmemeye ve ASCII'nin temelini almamaya karar verildi. Yeni basımdaki kodlama tablosu önemli ölçüde genişletildi. 8. bitin kullanımı, 256 karakterin bir bilgisayar diline çevirmesini sağlamıştır.

Açıklama

ASCII kodlamasının 2 parçaya bölünmüş bir tabloya sahiptir. Genel kabul görmüş uluslararası standart sadece ilk yarısı olarak kabul edilir. O içerir:

Sıra numaralarına sahip sekans sayısına sahip, 00000000 ila 000111'den sekanslarla kodlanmıştır. Metin ekranı veya yazıcıya, ses sinyali vb. İçin çıktı işlemini izleyen karakterleri kontrol etmek için atanır.
Tabloda NN'li NN'li Semboller, 00100000'den 011111'e kadar sekanslarla kodlanmış, tablonun standart bir kısmını oluşturur. Bunlar arasında bir boşluk (N 32), Latin alfabesinin (küçük harf ve büyük harf) harfleri, 0 ila 9 arasında on basamaklı sayılar, noktalama işaretleri, farklı yazıtların parantezi ve diğer karakterler içerir.
Sıra numaralarına sahip semboller 128 ila 255'ten, 10.000.000 ila 11111111'den dizilerle kodlanmıştır. Bunlar, Latin dışındaki ulusal alfabelerin harfleridir. Rus sembollerini bilgisayar formuna dönüştürmek için kullanılan ASCII kodlama tablosunun alternatif kısmıdır.

Bazı özellikler

ASCII kodlamasının özellikleri, alt ve üst kayıtların "A" - "Z" harfleri arasındaki farkı sadece bir bit ile içerir. Bu durum, kayıt dönüşümünü büyük ölçüde basitleştirir, yanı sıra belirtilen değerler aralığına aittir. Ek olarak, ASCII kodlama sistemindeki tüm harfler, bir ikili sayı sisteminde 5 basamak yazılmış alfabedeki kendi dizi sayıları ile temsil edilir, bunların önündeki alt kayıtların 112'sinin harfleri için ve üst - 010 2.

ASCII kodlama özelliklerinin özellikleri ayrıca sınıflandırılabilir ve 10 haneyi temsil edebilir - "0" - "9". İkinci numara sisteminde, 00112 ile başlarlar ve 2 sayıların değeri ile biter. Böylece, 0101 2, ondalık beş numaraya eşdeğerdir, bu nedenle "5" sembolü 0011 01012 olarak yazılır. Yukarıdakilere dayanarak, sol bit dizisini ekleyerek İkili-Ondalık sayıları ASCII kodlamadaki dizgiye kolayca dönüştürebilirsiniz. 00112 Her MB'ye.

"Unicode"

Bildiğiniz gibi, Güneydoğu Asya grubunun dillerinde metinleri görüntülemek için binlerce karakter gereklidir. Bu miktar, bir ezme bilgisinde herhangi bir şekilde tarif edilmez, bu nedenle ASCII'nin genişletilmiş sürümleri bile, kullanıcıların farklı ülkelerden artan ihtiyaçlarını karşılayamaz.

Öyleyse, metnin evrensel bir kodlaması oluşturma ihtiyacı, gelişimi, dünya BT endüstrisinin birçok lideriyle işbirliğiyle "Unicode" bir konsorsiyumla uğraştı. Uzmanları UTF 32 sistemini yarattı. İçinde, sembolün 1 kodlaması için 4 bayt bilgiyi oluşturan 32 bit serbest bırakıldı. Ana dezavantaj, pek çok problemi gerektiren, 4 kez gereken hafızanın miktarında keskin bir artışdı.

Aynı zamanda, Hint-Avrupa Grubu ile ilgili resmi dilleri olan çoğu ülke, 22'ye eşit olan işaretlerin sayısı fazladan daha fazladır.

Uzmanların "Unicode" konsorsiyumundan daha fazla çalışmasının bir sonucu olarak, bir UTF-16 kodlaması ortaya çıktı. Hem istenen belleğin hacminde hem de kodlanmış sembollerin sayısıyla düzenlenen sembolik bilgileri dönüştürme seçeneği haline geldi. Bu nedenle UTF-16 varsayılan olarak kabul edildi ve içinde bir işaret için 2 bayt rezerve etmeniz gerekiyor.

"Unicode" nın oldukça gelişmiş ve başarılı bir sürümü bile bazı dezavantajları vardı ve ASCII'nin genişletilmiş sürümünden UTF-16'ya geçiş sonrasında belgenin ağırlığını iki kez arttırdı.

Bu bağlamda, UTF-8 değişken değişken kodlamasını kullanmaya karar verilmiştir. Bu durumda, her kaynak metin simgesi 1 ila 6 bayt dizisi ile kodlanır.

Bilgi değişimi için Amerikan standart kodu ile iletişim

UTF-8 değişken uzunluğu olan Latin alfabesinin tüm belirtileri, ASCII kodlama sisteminde olduğu gibi 1 baytta kodlanır.

UTF-8'in bir özelliği, Latinya'daki metin durumunda, başka karakterler kullanmadan, "Unicode" anlamayan programlar bile, bunu okumanıza izin verecektir. Başka bir deyişle, ASCII metninin kodlamasının temel kısmı sadece yeni UTF uzunluğu değişkenine hareket eder. UTF-8'deki Kiril işaretleri 2 bayt, örneğin Gürcü - 3 bayt. UTF-16 ve 8'in oluşturulması, fontlarda tek bir kod alanı oluşturma sorununu çözdü. O zamandan beri, yazı tipi üreticileri sadece tablo vektöründeki metin sembollerinin ihtiyaçlarına göre doldurulması için kalır.

Çeşitli işletim sistemlerinde, çeşitli kodlamalara tercih edilir. Başka bir kodlamada atılan metinleri okuyabilir ve düzenleyebilme, Rus metninin kod kodu programları geçerlidir. Bazı metin editörleri yerleşik transkizörler içerir ve kodlamadan bağımsız olarak metni okumanıza izin verir.

Artık ASCII'de kaç karakter kodlamada, nasıl ve neden tasarlanmış olduğunu biliyorsunuz. Tabii ki, bugün dünyanın en büyük dağıtımını aldım. Unicode. Bununla birlikte, ASCII'ye dayanarak yaratıldığını unutmak imkansızdır, bu nedenle geliştiricilerinin BT kapsamına katkısı ile takdir edilmelidir.

Merhaba, Sevgili Blog Okuyucular web sitesi. Bugün sizinle Krakoyarbra'nın hangi metin kodlamalarının var olduğu ve hangisinin kullanılması gerektiği programlardan ve programlardan geldiği hakkında konuşacağız. Temel ASCII'den, CP866, KOI8-R, Windows 1251'in genişletilmiş versiyonlarını ve Unicode UTF 16 ve 8 konsorsiyumunun modern kodlarıyla biten gelişmelerinin geçmişini ayrıntılı olarak düşünelim.

Birisi bu bilgi gereksiz görünebilir, ancak çatlakları tam olarak ilgilenen (bir karakter kümesi okumayan) bana ne kadar sorunun ne kadar olduğunu bileceksiniz. Şimdi herkesi bu makalenin metnine gönderme fırsatım olacak ve bağımsız olarak shoals'ınızı arayacağım. Bilgiyi emmeye hazır olun ve anlatımı izlemeye çalışın.

ASCII - Temel Latiza Metin Kodlama

Metin kodlamalarının gelişimi, BT endüstrisinin oluşumu ile aynı anda gerçekleşir ve bu süre zarfında oldukça az değişiklik geçireceklerdir. Tarihsel olarak, her şey, Rusça'lık Rusça telaffuzunda oldukça zararlıdır, bu da Latin alfabesinin, Arapça sayıların ve noktalama işaretlerinin kontrol sembolleriyle harflerini kodlamayı mümkün kılan.

Ancak yine de modern metin kodlamalarının geliştirilmesi için başlangıç \u200b\u200bnoktası ünlü olarak kabul edilmelidir. ASCII. (Rusça'da "Aski" olarak belirgin olan bilgi değişimi için Amerikan Standart Kodu). En sık kullanılan İngilizce konuşan kullanıcılardan - Latin harfleri, Arapça numaralar ve noktalama işaretleri olan ilk 128 karakteri açıklar.

ASCII'de açıklanan bu 128 karakterde bile, bazı servis sembolleri parantez, kafesler, yıldızlar vb. Tarafından ezildi. Aslında, kendin onları görebilirsin:

Bu, ASCII'nin ilk versiyonundan gelen 128 karakter standarttır ve herhangi bir kodlamada kesinlikle karşılaşacak ve böyle bir şekilde olacaklar.

Ancak gerçek şu ki, bilginin bir bayt yardımı ile, 128, ancak 256 farklı değer (iki dereceye eşit derecede 256), sonra taban versiyonu Aski bir dizi görünüyordu gelişmiş kodlamalar ASCII128 ana işarete ek olarak, ulusal kodlama sembollerini (örneğin, Rusça) kodlamak da mümkündü.

Burada, muhtemelen açıklamada kullanılan sayı sistemi hakkında biraz daha değer. Öncelikle, her şeyi bildiğiniz gibi, bilgisayar sadece bir ikili sistemde, yani sıfır ve birimler ("Boulev Cebir" ile ("Boulev Cebir" ile ("Boulev Cebir" ile birlikte çalışır. Her biri bir dereceye kadar bir inendir, sıfırdan başlayarak ve yedinci sırada two'lar:

Bu tür bir tasarımdaki tüm olası zero ve birimler kombinasyonlarının yalnızca 256 olabileceğini anlamak zor değildir. Çevir, ikili sistemden ondalık basamak. Tüm dereceleri yukarıdaki tüm dereceleri tek bir durdurmanız gerekir.

Örneğimize göre, 1 (2 ila sıfır) artı 8 (iki ila derece 3), artı 32 (beşinci derecede iki kez), artı 64 (altıncı), artı 128 (yedinci) . Toplam bir ondalık sayı sisteminde 233 alır. Gördüğünüz gibi, her şey çok basit.

Ancak masaya ASCII karakterleriyle bakarsanız, onaltılık kodlamada sunulduğunu göreceksiniz. Örneğin, "yıldız işareti", onaltılık bir sayı 2A'nın cenneti karşılık gelir. Muhtemelen, onaltılık bir sayı sisteminde, bir (ortalama on) 'den latin harfleri, onaltılık bir sayı sisteminde kullanıldığında (ortalama on) latin harfleri kullanılır.

Peki, için aktar İkili sayılar Onaltılık Bir sonraki basit ve görsel yola başvurun. Her bilgi baytı, yukarıdaki ekran görüntüsünde gösterildiği gibi dört bitin iki parçasına ayrılır. Yani Baytın her yarısında, ikili kod yalnızca on altı değer için (dördüncü derecede ikisi), onaltılık olarak kolayca temsil edilebilecek şekilde kodlanabilir.

Ayrıca, baytın sol yarısında, tekrar sıfırdan, ekran görüntüsünde gösterildiği gibi göz önünde bulundurmanız gerekecektir. Sonuç olarak, iyi olmayan bir bilgisayarla, E9 sayısının ekran görüntüsünde kodlandığını alıyoruz. Umarım aklımın kursu ve bu rebusun katılaşması anlaşılabilirdiniz. Şimdi devam edeceğiz, aslında metin kodlaması hakkında konuşacağız.

ASKI - CP866 ve KOI8-R kodlamasının uzatılmış versiyonları

Böylece, tüm modern kodlamaların gelişimi için bir başlangıç \u200b\u200bnoktası gibi olan ASCII hakkında konuşmaya başladık (Windows 1251, Unicode, UTF 8).

Başlangıçta, Latin alfabesinin sadece 128 belirtisi, Arapça sayılar ve orada başka bir şey, ancak genişletilmiş versiyonda, bir ezme bilgisinde kodlanabilecek tüm 256 değerin tümünü kullanmak mümkündü. Şunlar. Dilinin harflerinin sembollerini Aska'ya ekleme fırsatı.

Burada netleştirmek için bir kez daha dikkatini dağıtmak için gerekli olacak - neden kodlamaya ihtiyacın var? Metinler ve neden bu kadar önemlidir. Bilgisayarınızın ekranındaki karakterler, iki şeyin temelinde oluşturulur - her türlü karakterin vektör formları (temsilleri) kümeleri (dosya cinsinden) ve bu vektör şekil kümesini çıkarmanızı sağlayan kodlar ( Yazı Tipi Dosyası) Doğru yere eklenecek karakterdir.

Yazı tiplerinin vektör formlarından sorumlu olduğu açıktır, ancak işletim sistemi ve içinde kullanılan programlar kodlamadan sorumludur. Şunlar. Bilgisayarınızdaki herhangi bir metin, bu metnin tek bir sembolünün kodlandığı her birinde bir bayt kümesi olacaktır.

Bu metni ekranda (metin editörü, tarayıcı vb.) Gösteren program, kodu ayrıştırırken, bir sonraki işaretin kodlamasını okur ve ilgili vektör formunu arar İstenen dosya Bu metin belgesini görüntülemek için bağlı yazı tipi. Her şey basit ve trite.

Böylece, ihtiyacımız olan herhangi bir sembolü kodlamak için (örneğin, ulusal alfabeden), iki koşul tamamlanmalıdır - bu işaretin vektör formu kullanılan fontta olmalı ve bu sembol genişletilmiş ASCII kodlamalarında bir baytta kodlanabilir. . Bu nedenle, bir sürü bu tür seçenek var. Sadece Rus dilinin sembollerinin kodlanması için çeşitli eşek çeşitleri vardır.

Örneğin, başlangıçta ortaya çıktı CP866.Rus alfabesinin sembollerini kullanmak mümkün olduğu ve bu ASCII'nin genişletilmiş bir versiyonuydu.

Şunlar. Üst kısmı, bir miktar daha yüksek verilen ekran görüntüsünde sunulan Aska'nın temel versiyonu (Latince, sayıların 128 sembolü ve başkaları) ile çakıştı. alt kısım CP866 kodlama tabloları, ekran görüntüsünde belirtilenlere biraz daha düşük ve başka bir 128 karakteri (Rus harfleri ve her sözde) kodlamasına izin verdi:

Bakınız, doğru sütunda, sayılar 8 ile başlar, çünkü 0 ile 7 arasındaki sayılar ASCII'nin taban kısmına bakın (ilk ekran görüntüsüne bakın). Yani CP866'daki Rusça "M" harfi 9C'ye sahip olacaktır (karşılık gelen satırların 9 ile, bir hexadecial sayı sisteminde C ile ilgili sütun ile kesişimindedir), bir bayt bilgisi içinde yazılabilir ve Rus karakterleri ile uygun bir yazı tipi var, bu mektup problemsiz metin olarak gösterilecektir.

Bu miktar nereden geldi? cP866'da psödograflar.? Bu, şu anki gibi grafik işletim sistemlerinin böyle bir dağılımının olmadığı zaman, bu parlak yıllarda bu parlak yıllarda geliştirilmiş olması. Ve dastik ve benzeri metin operasyonlarında, pseudografik en azından bir şekilde, metinlerin tasarımını çeşitlendirir ve bu nedenle CP866 ve tüm diğer satırları, ASA'nın genişletilmiş sürümlerinin boşalmasından kaynaklanır.

CP866 Dağıtılmış IBM Şirketi, ancak ek olarak, Rus dilinin sembolleri için bir dizi kodlama, örneğin, aynı tip (Genişletilmiş ASCII) atfedilebilir Koi8-r.:

Çalışmalarının ilkesi, daha sonra açıklanan CP866 ile aynı kaldı - her metin sembolü tek bir bayt tarafından kodlanır. Ekran görüntüsü KOI8-R tablosunun ikinci yarısını gösterir, çünkü İlk yarı, bu makaledeki ilk ekran görüntüsünde gösterilen taban ASUS ile tamamen tutarlıdır.

KOI8-R kodlamasının özellikleri arasında, masasındaki Rus harflerinin, örneğin CP866'da yaptığı gibi, bu gibi alfabetik sırayla olmadığı belirtilebilir.

İlk ekran görüntüsüne bakarsanız (tüm genişletilmiş kodlamalara giren ana kısım), Koi8-R'de, Rus harflerinin, latin alfabesinin ilk bölümünden, Latin alfabesinin harfleri olarak aynı tablolarda bulunduğunu fark edin. Masa. Bu, Rus sembollerinden Latince'den Latince'ye geçmenin rahatlığı için yapıldı (yedinci derecede iki ya da 128).

Windows 1251 - ASCII'nin modern bir versiyonu ve Crackels neden çıktı

Metin kodlamalarının daha fazla gelişmesi, grafik işletim sistemlerinin ve bunlara psödografi kullanması gerektiği gerçeğinden kaynaklanıyordu. Sonuç olarak, onların özünde, Aski'nin gelişmiş sürümleri olan bir bütün grup ortaya çıktı (bir metin sembolü, yalnızca bir büzülme bilgiyle kodlanmıştır), ancak pseudografik karakterler kullanmadan.

Amerikan Standardizasyon Enstitüsü tarafından geliştirilen ANSI kodlamasını tedavi ettiler. Kiril adı, Rus dilinin desteğiyle bir seçenek için hala kullanıldı. Böyle bir örnek örneği.

Önceden kullanılan CP866 ve KOI8-R'den, sözdedeki karakterlerin yerini, Rus tipografisinin (azalan işaret) eksik sembollerini ve Rus Slav'una yakın kullanılan sembollerin yanı sıra Diller (Ukrayna, Belarus, vb.):

Rus dilinin kodlarının bu bolluğu nedeniyle, yazı tipi ve üreticileri üreticileri yazılım Sürekli bir baş ağrısı ortaya çıktı ve seninle, sevgili okuyucular, genellikle en ünlü olanları aldılar. krakoYabryKarışıklık, metinde kullanılan versiyonla öğretildiğinde.

Mesaj gönderirken ve alırken çok sık çıktılar e-postaAslında, aslında bu sorunu kök içinde çözemediği ve sıklıkla yazışmalar için kullanıcıların oluşturulmasına neden olan çok karmaşık bir kodlama tablolarının yaratılmasına neden olan şey, bu tür CP866, KOI8-R veya Windows 1251'in Rus kodlamalarını kullanırken komik Krakozyabs'tan kaçınmak için kullanılmıştır.

Özünde, Rus metni yerine, Krakoyarbra, kodlamanın yanlış kullanımı sonucuydu. bu dilinBu, metin mesajının başlangıçta kodlandığı ile eşleşmemiş.

CP866 ile kodlanmış semboller, Windows 1251 kod tablosunu kullanarak, daha sonra bu en çok çatlak (anlamsız karakter kümesi) kullanarak görüntülenmeyi deneyin ve mesaj metnini tamamen değiştirmeyi deneyin.

Benzer bir durum çok sık, forumlar, forumlar veya bloglar, yanlışlıkla Rus karakterleri olan metin, varsayılan web sitesinde kullanılan kodlamaya kaydedilmediğinde veya metin düzelticiSebestin koduna eklenen, çıplak gözle görünmez.

Sonunda, birçok kodlamaya sahip ve sürekli sürünen bir durum, çok yorgun, birçok yorgun, yeni bir evrensel varyasyon yaratmanın önkoşulları vardı, bu da mevcut olanların yerini alacak ve son olarak, nihayetinde sorunların köküne okunabilir metinler. Buna ek olarak, dilin sembollerinin 256'dan fazla olduğu için benzer bir dilde bir sorun vardı.

Unicode (Unicode) - Universal Kodları UTF 8, 16 ve 32

Güneydoğu Asya'nın dil grubunun bu binlerce işareti, gelişmiş ASCII sürümlerinde karakter kodlama için ayrılan bir papat bilgisinde tanımlanamadı. Sonuç olarak, denilen bir konsorsiyum oluşturuldu. Unicode (Unicode - Unicode Consortium) Endüstrinin birçok liderinin işbirliğinde (Demir'i kimin oluşturan bir yazılım üreten, yazı tipi oluşturan bir yazılım oluşturanlar), evrensel bir metin kodlamasının ortaya çıkmasıyla ilgilenen.

Unicode konsorsiyumun himayesinde yayınlanan ilk varyasyon UTF 32.. Kodlamanın adındaki rakam, bir sembolü kodlamak için kullanılan bit sayısı anlamına gelir. 32 bit, yeni evrensel UTF kodlamasında tek bir işareti kodlamak için gerekli olacak 4 bayt bilgidir.

Sonuç olarak, aynı dosya, ASCII ve UTF-32'nin genişletilmiş sürümünde kodlanan metnin ikinci durumda olacak şekilde boyutuna (ağırlık) olacaktır. Kötü, ama şimdi UTF'nin yardımıyla iki ila otuz ikinci dereceye eşit olan işaret sayısını kodlama fırsatımız var ( milyarlarca karakterBu, herhangi bir gerçek değeri devasa bir marjla kapsayacak).

Ancak, Avrupa Grubu'nun dilleriyle birçok ülke, kodlamada kullanılması çok fazla sayıda işarete sahiptir ve ancak UTF-32'yi kullanırken, dört zamanlı bir artış almadılar. Metin belgelerinin ağırlığında ve sonuç olarak, internet trafiğinde bir artış ve hacim depolanmış veriler. Bu çok ve hiç kimse bu tür atıkları karşılayamaz.

Unicode'nin gelişmesinin bir sonucu olarak ortaya çıktı UTF-16.Bu, bu kadar başarılı ortaya çıktı ki, kullandığımız tüm karakterler için temel bir alan olarak varsayılan olarak kabul edildi. Bir işareti kodlamak için iki bayt kullanır. Bu şeyin nasıl göründüğünü görelim.

Windows işletim sisteminde "Başlat" - "Programlar" - "Standart" - "Hizmet" - "Karakter Tablosu" yolunu geçebilirsiniz. Sonuç olarak, bir masa, fontlarınızda yüklü olan tüm vektör formlarıyla açılır. "Ek parametreler" bölümünü seçerseniz, bir Unicode karakter kümesi, her bir yazı tipini ayrı ayrı görebilirsiniz. İçinde bulunan tüm karakterler aralığı.

Bu arada, bunlardan herhangi birine tıklayarak, onu iki kişi görebilirsiniz. uTF-16 formatında koddört onaltılık haneden oluşan:

UTF-16'da 16 bit kullanılarak kaç karakter kodlanabilir? 65 536 (iki ila on altı) ve bu numara Unicode'daki temel alan için alındı. Buna ek olarak, bununla ve yaklaşık iki milyon karakterle kodlamanın yolları vardır, ancak bir milyon metin sembolündeki genişletilmiş alanla sınırlıdır.

Fakat Unicode'ün kodlamasının bu başarılı versiyonu bile, örneğin yalnızca programları yazanlara çok memnun değildi. ingilizce diliOnlar için, ASCII'nin genişletilmiş sürümünden UTF-16'ya geçtikten sonra, belgelerin ağırlığı iki kez arttı (ASKI'de sembol başına bir bayt ve UTF-16'da aynı sembolde iki bayt).

Bu tam olarak herkesi tatmin etmek ve tüm unicode konsorsiyumundaki tümü gelmeye karar verdi. değişken uzunluğu kodlama. O utf-8 olarak adlandırıldı. Başlığın sekizine rağmen, gerçekten bir değişken uzunluğu var, yani. Her metin simgesi, bir ila altı bayt dizisine kodlanabilir.

Uygulamada, UTF-8, yalnızca bir ila dört bayttan bir aralık kullanır, çünkü herhangi bir şeyi kodun dört baytına göndermek için teorik olarak mümkün bir şey yoktur. Tüm Latin işaretleri bir baytta ve eski iyi ASCII'de kodlanmıştır.

Dikkat çekici olanı, yalnızca Latince kodlama durumunda, Unicode'u anlamayan bu programlar bile UTF-8'de kodlanmış olanı okuyacaktır. Şunlar. Aska'nın temel kısmı, bu sadece Unicode konsorsiyumunu kapattı.

UTF-8'deki Kiril işaretleri, iki bayt içine kodlanır ve örneğin Gürcüce - üç baytta. UTF 16 ve 8'in yaratılmasından sonra Unicode Consortium, ana soruna karar verdi - şimdi yazı tiplerinde tek bir kod alanı var. Ve şimdi üreticileri sadece metin sembollerinin vektör formlarıyla doldurma güçleri ve fırsatları temelinde kalır. Şimdi takımlarda bile.

Aşağıdaki sembol tablosunda, farklı fontların farklı sayıda karakteri desteklediği görülebilir. Unicode yazı tiplerinin bazı sembolleri çok iyi tartılabilir. Ancak şimdi farklı kodlamalar için yaratıldıkları gerçeğiyle ayırt edilmezler, ancak font üreticisinin tek kod alanını ya da diğer vektör formları tarafından tek kod alanını doldurmadan veya doldurmadığı gerçeğiyle.

KrakoYabry Rus mektupları yerine - nasıl düzeltilir

Şimdi Crakozyabe metninin metin yerine nasıl göründüğünü veya başka bir deyişle, Rusça metin için doğru kodlamanın nasıl seçildiğini görelim. Aslında, bu aynı metni oluşturduğunuz veya düzenleyeceğiniz programda metin parçalarını kullanarak ayarlanmıştır.

Metin dosyalarını düzenlemek ve oluşturmak için, bence şahsen çok iyi kullanıyorum. Bununla birlikte, sözdizimini hala iyi yüzlerce programlama dilini ve işaretlemesini vurgulayabilir ve ayrıca eklentilerle genişletme yeteneğine sahiptir. Okumak detaylı inceleme Bağlantıya göre bu harika program.

Not Defteri ++ üst menüsünde, mevcut bir seçeneği varsayılan sitenizde kullanılan birine dönüştürme yeteneğine sahip olacağınız bir "kodlama" öğesi vardır:

Joomla 1.5 ve üzeri bir site durumunda, WordPress'de bir blog durumunda, Krakyar'ın görünümünü önlemek için seçeneği seçmelisiniz. UTF 8 BOM'suz. BOM öneki nedir?

Gerçek şu ki, ETF-16 kodlaması geliştirildiğinde, bazı nedenlerden dolayı, böyle bir şeyi, hem doğrudan sırayla (örneğin, 0A15) hem de ters (150A) bir sembol kodunu kaydetme yeteneği olarak tutturmaya karar verdi. . Ve programların hangi sırayı okuma kodlarını anlamaları için ve icat edilmesi için BOM. (Byte sipariş işareti veya başka bir deyişle, imza), bu da belgelerin başlangıcına üç ek bayt eklemede ifade edilmiştir.

UTF-8 kodlamasında, Unicode Consortium'da hiçbir BOM yoktu ve bu nedenle imza ekleyerek (bu en ünlü ek üç bayt, belgenin başlangıcına kadar) bazı programlar kodu okumayı önler. Bu nedenle, biz her zaman, UTF'deki dosyaları kaydederken, BOM'suz bir seçenek seçmelisiniz (imza olmadan). Yani şimdi peşin kendinizi çatlamadan gizlemek.

Dikkate değer olan, Windows'taki bazı programlar bunu nasıl yapacağınızı bilmiyor (metni, BOM'suz UTF-8'deki metni kaydetme), örneğin, aynı komuta notebook pencereleri. Belgeyi UTF-8'de kaydeder, ancak yine de başlangıcına imza ekler (üç ek bayt). Dahası, bu baytlar her zaman aynı olacaktır - kodu doğrudan sırayla okuyun. Ancak sunucularda, bu küçük şeyler nedeniyle, bir sorun olabilir - Crackels çıkacak.

Bu nedenle, hiçbir durumda her zamanki notebook pencerelerini kullanmayın Sitenizin belgelerini düzenlemek için, Krakoyarbra'nın görünümünü istemiyorsanız. Daha önce de belirtilen not defteri ++ editörü için en son ve en kolay seçeneği, pratik olarak dezavantajları olmayan ve avantajlardan birinden oluşan seçeneklerini düşünüyorum.

Not Defteri ++ 'da bir kodlama seçerken, metni UCS-2 kodlamaya dönüştürme yeteneğine sahip olacaksınız, bu da UsSence'daki Unicode Standard'a çok yakın olan UCS-2 kodlamasına dönüştürebilirsiniz. Ayrıca, ANSI, yani ANSI'de kodlanmış bir şekilde kodlanabilir. Rus diline referansla, bu zaten Windows 1251'in hemen yanında tarif edilecektir. Bu bilgi nereden geliyor?

Ameliyathanenizin sicilinde yazıldığından windows Sistemleri - ANSI durumunda hangi kodlamayı, OEM durumunda ne seçeceğiniz (Rus dili için CP866 olacak). Bilgisayarınıza bir varsayılan dil yüklerseniz, bu kodlamalar aynı dil için ANSI veya OEM akıntılarına benzer şekilde değiştirilecektir.

Not Defteri ++ bölümünde, belgeyi kodlamaya yönelik kodlamaya kaydetme veya bir belgeyi düzenlemek için düzenleyicinin sağ alt köşesinde, adını görebileceğiniz:

Krakoyarbrov'u önlemek içinYukarıda açıklanan eylemler dışında, kapağına kayıt olmak için yararlı olacaktır. kaynak kodu Tüm site sayfaları bu kodlama hakkında bilgi, böylece sunucu veya yerel ana bilgisayar oluşmaz.

Genel olarak, HTML dışındaki hipertext işaretinin tüm dillerinde, metni kodlamayı belirten özel bir XML reklamı kullanılır.

Kodu sökmeye başlamadan önce, tarayıcı hangi sürümün kullanıldığını ve bu dilin karakterlerinin kodlarını tam olarak nasıl yorumlamanız gerektiğini öğrenecektir. Ancak, belgeyi varsayılan Unicode'da kaydetmeniz durumunda, bu XML bildirimi atlanabilir (kodlama, bir BOM veya UTF-16 yoksa, kodlama UTF-8 olarak kabul edilir).

Bir belge durumunda hTML Dili Kullanılan kodlamayı belirtmek için meta elemanıaçılış ve kapama başı etiketi arasında reçete edilir:

... ...

Bu giriş kabul edilen B'den oldukça farklıdır, ancak tamamen HTML 5 standardı tarafından yavaşça tanıtıldığına tamamen uygundur ve kullanılan herkes tarafından kesinlikle doğru bir şekilde anlaşılır. şu an tarayıcılar.

Teoride, kodlama göstergesi olan meta elemanı HTML belgesi Koymak daha iyi dock başlığında mümkün olduğu kadar yüksekBöylece, ilk işaretin metnindeki toplantı sırasında (her zaman her zaman ve herhangi bir varyasyonda okuyan), tarayıcının bu karakterlerin kodlarını nasıl yorumlayacağınız hakkında bilgi sahibi olmalıdır.

Sana iyi şanslar! Blog sayfalarında belirsiz toplantılara web sitesi

devam edebileceğiniz daha fazla makaraya bakın

");">

İlgilenebilirsin

URL adresleri, site için mutlak ve göreceli bağlantılar arasındaki farkın içindekiler nedir?
OpenServer - Modern yerel sunucu ve kullanımının bir örneği wordpress kurulumları bilgisayarda
Dosya ve klasör atama haklarına (777, 755, 666) ve PHP üzerinden nasıl yapılacağı CHMOD nedir?
Giriş yap Site ve Online Mağazada Yandex

Bu arada, sitemizde herhangi bir metni çevrimiçi kod hesap makinesini kullanarak ondalık, onaltılık, ikili koddaki herhangi bir metni çevirebilirsiniz.

Masa ascii

ASCII (Bilgi Kavşağı için Amerikan Standart Kodu)

ASCII Özet Tablosu

ASCII Windows Sembolleri Tablosu (Win-1251)

		Sembol









		uzman. Tabela
		uzman. LF (özel vagonlar)


		uzman. Cr ( Yeni hat)


















		fincan. SP (Boşluk)

		Sembol

Genişletilmiş ASCII Kod tablosu

Sembolleri biçimlendirme.

	Backspace (bir karaktere dönüş). Yazdırma mekanizmasının veya ekran imlecinin bir konumuna geri dönmesini gösterir.
	Yatay tablolama (yatay tablolama). Baskı mekanizmasının hareketini veya ekran imlecinin bir sonraki belirtilen "sekme konumuna" olarak gösterilir.
	Satır besleme. Baskı mekanizmasının hareketini veya ekran imlecinin bir sonraki satırın başlangıcına (bir satır) gösterir.
	Dikey tablolama (dikey tablolama). Baskı mekanizmasının hareketini veya ekran imlecinin bir sonraki dizgeli grubuna gösterir.
	Form besleme. Baskı mekanizmasının veya ekran imlecinin bir sonraki sayfanın, form veya ekranın orijinal konumuna hareketini gösterir.
	Satır başı (taşıma çevirisi). Baskı mekanizmasının veya ekran imlecinin akım çizgisinin orijinal (aşırı sol) konumuna hareketini gösterir.

Veri transferi.

	Başlık başlangıcı. Yönlendirme bilgisi veya adres içerebilen başlığın başlangıcını belirlemek için kullanılır.
	Metin başlangıcı. Metnin başlangıcını gösterir ve aynı zamanda başlığın sonu.
	Metnin sonu. STX sembolünden başlayan metnin sonunda uygulanır.
	Soruşturma. Uzak istasyondan kimlik verilerini isteyin ("kimsiniz?").
	Kabul (onay). Alıcı cihaz, bu gönderici sembolünü başarılı veri alımını onaylar olarak iletir.
	Olumsuz kabul. Alıcı cihaz, veri alma reddetmek durumunda bu gönderici sembolünü iletir.
	Senkron / boşta (senkronizasyon). Senkronize iletim sistemlerinde kullanılır. Veri iletimi yokluğunda, sistem sürekli olarak senkronizasyon sağlamak için syn karakterleri gönderir.
	Şanzıman bloğunun sonu (iletim bloğunun sonu). İletişim amaçlı veri bloğunun sonunu gösterir. Büyük veri hacimlerinin ayrı bloklarına ayrılmak için kullanılır.

Bilgi aktarırken ayrılma işaretleri.

Diğer karakterler.

	BOŞ. (Karakter yok - veri yok). Veri yokluğunda iletim için uygulanır.
	Bell (arayın). Alarm cihazlarını kontrol etmek için kullanılır.
	Değişti. Sonraki tüm kod kombinasyonlarının göre yorumlanması gerektiğini gösterir. harici set Si sembolünün gelmeden önce karakterler.
	VARDİYA. Sonraki kod kombinasyonlarının standart bir karakter kümesine göre yorumlanması gerektiğini belirtir.
	Veri bağlantısı kaçış. Aşağıdaki karakterlerin değerini değiştirmek. Ek kontrol için kullanılır veya keyfi bir bit kombinasyonunu iletmek için kullanılır.
DC1, DC2, DC3, DC4	Cihaz kontrolleri. Yardımcı aygıtları yönetmek için semboller (özel fonksiyonlar).
	İptal etmek. Bu sembolden önceki verilerin mesaj veya blokta görmezden gelinmesi gerektiğini belirtir (genellikle hata algılaması durumunda).
	Ortamın sonu (taşıyıcının sonu). Kasetin veya diğer medyaların fiziksel ucunu gösterir
	Yerine (sübstitüent). Hatalı veya kabul edilemez bir sembolün yerini almak için kullanılır.
	Kaçış. Daha sonraki sembolün alternatif bir değeri olduğunu belirten kodu genişletmek için kullanılır.
	Uzay. Kelimeleri bölmek için baskısız bir sembol veya baskı mekanizmasını veya ekran imlecini bir konum için ileri doğru hareket ettirin.
	Silmek. Mesajdaki önceki işaretin (silinmesini) kaldırmak için kullanılır

Office için Excel 365 Office 365 Office için Outlook 365 Office 365 PowerPoint Office 365 PowerPoint Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019. Visio Standard 2019. Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 ONENOTE 2013 Yayıncı 2016 Visio 2013 Visio Professional 2016. Visio Standard 2016. Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Yayımcı 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Yayınevi 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Yayınevi 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010. Az

Bu makalede

Bir belgeye bir ASCII veya Unicode sembolü yerleştirin

Yalnızca birkaç özel karakter veya karakter girmeniz gerekirse, tuşlarını kullanabilir veya kısayol tuşlarını kullanabilirsiniz. ASCII karakterlerinin bir listesi için, Klavye kısayollarını kullanarak aşağıdaki tabloları veya makale harflerini ekleyin.

Notlar:

ASCII karakterleri ekle

ASCII sembolünü eklemek için, Sembol Kodunu girerek ALT tuşunu basılı tutun. Örneğin, bir derece sembolü (º) eklemek için, ALT tuşunu basılı tutun, ardından sayısal tuş takımında 0176'yı girin.

Sayıları girmek için, dijital klavye kullanın, ana klavyedeki sayılar değil. Sayısal tuş takımına numara girmeniz gerekiyorsa, Num Lock göstergesinin etkin olduğundan emin olun.

Unicode sembollerini ekleme

Unicode sembolünü eklemek için, karakter kodunu girin, ardından tutarlı bir şekilde basın aLTS ALT. ve X. Örneğin, bir dolar sembolü ($) eklemek için, 0024'ü girin ve ALT ve X tuşlarına sırayla bastırın. Tüm Unicode karakter kodları görüyor.

Önemli: Biraz microsoft programları PowerPoint ve InfoPath gibi ofis, Unicode kodlarının karakterlere dönüştürülmesini desteklemez. Bu programlardan birine Unicode sembolü takmanız gerekirse, kullanın.

Notlar:

Eğer, Alt + x tuşlarına basıldıktan sonra, yanlış bir Unicode sembolü görüntülenir, doğru kodu seçin ve ardından ALT + X tuşuna tekrar basın.

Ek olarak, kodun önünde "U +" tanıtılmalıdır. Örneğin, "1U + B5" girerseniz ve ALT + X tuşlarına basarsanız, "1μ" metni görünür ve "1B5" yazarsanız ve ALT + X tuşlarına basın, "ƶ" sembolü görünecektir.

Sembol tablosu kullanma

Karakter tablosu, içine yerleştirilmiş bir programdır. Microsoft Windows.Seçilen yazı tipi için mevcut karakterleri görüntülemenizi sağlar.

Karakter tablosunu kullanarak, bireysel karakterleri veya bir karakter grubunu panoya kopyalayabilir ve bunları bu karakterlerin ekranını destekleyen herhangi bir programa ekleyebilirsiniz. Karakter tablosunu açma

Windows 10'da. Görev çubuğundaki arama alanına "Sembol" kelimesini girin ve arama sonuçlarındaki karakter tablosunu seçin.

Windows 8'de. İlk ekrandaki "Sembol" kelimesini girin ve arama sonuçlarındaki karakter tablosunu seçin.

Windows 7'de. düğmesine basın BaşlatSırayla seçin Tüm Programlar, Standart, Hizmet ve tıklayın sembol masası.

Semboller yazı tipinde gruplandırılmıştır. Uygun bir karakter kümesi seçmek için Yazı Tipi Listesini tıklayın. Bir sembol seçmek için, tıklayın, ardından Tamam'ı tıklatın. Seç. Bir karakter eklemek için, belgedeki istediğiniz konumu sağ tıklatın ve Eklemek.

Sık kullanılan sembol kodları

Tam liste Semboller için, Bilgisayarda, ASCII Karakter Kodları Tablosu veya SETler tarafından sipariş edilen Unicod sembol tablolarını görün.

Glif

Nakit birimleri

Yasal semboller

Matematiksel semboller

Drobi.

Noktalama işaretleri ve lehçe sembolleri

Form sembolleri

Sık kullanılan diocritik işaret kodları

Gliflerin ve ilgili kodların tam listesi, bkz.

Glif

Yazdırıcı ASCII İşaretleri Yönetme

Bazı yönetmek için kullanılan işaretler çevresel aygıtlarÖrneğin Yazıcılar, ASCII tablosunun 0-31 numaralarına sahip. Örneğin, sayfa çeviri / yeni sayfası 12 numaraya karşılık gelir. Bu işaret, yazıcının bir sonraki sayfanın en üstüne gitmesini gösterir.

Baskısız taşıma tablosu ASCII

Ondalık sayı	İşaret	Ondalık sayı	İşaret
		Veri Kanalı Kurtuluş
Başlatmak		İlk cihaz yönetimi kodu
Metnin başlangıcı		İkinci Cihaz Yönetimi Kodu
Metnin sonu		Üçüncü Cihaz Yönetimi Kodu
Transferin sonu		Dördüncü Cihaz Yönetimi Kodu
	beş köşeli	Olumsuz onay
doğrulama		Senkron iletim modu
Ses sinyali		Veri iletilen bloğun sonu

Yatay tablolama		Taşıyıcının sonu
Satır / Yeni Satır		Değiştirme sembolü
Dikey tablolama			aşmak
Sayfa / Yeni Sayfa	On iki	Dosya ayırıcı
İade arabası		Ayırıcı grubu
Deşarj tasarrufu yapmadan vardiya		Ayırıcı kayıtları
Boşaltma kayması	onbeş	Veri ayırıcı

Unicode (İngilizce Unicode'da) standart kodlama standardıdır. Basitçe söylemek gerekirse, bu metin işaretlerinin uygunluğunun bir tablosudur (harfler, noktalama işaretleri) İkili Kodlar. Bilgisayar sadece sıfır ve birimler dizisini anlar. Bu yüzden ekranda tam olarak ne görüntülenmesi gerektiğini biliyordu, kendi karakterinizi atamanız gerekir. benzersiz numara. Seksenlerde, işaretler bir bayt tarafından kodlandı, yani sekiz bit (her bit 0 veya 1). Böylece bir tablonun (aynı kodlama veya setin) sadece 256 karakteri barındırabileceği ortaya çıktı. Bu, bir dil için bile yeterli olmayabilir. Bu nedenle, birçok farklı kodlama ortaya çıktı, sıklıkla, genellikle okunan metin yerine ekranda bazı garip Krakozyabry'nin ortaya çıkmasına neden olan karışıklık. Unicode hangi olan birleşik standardı gerekliydi. Sembolün görüntüsü için en çok kullanılan kodlama - UTF-8 (Unicode Dönüşüm Biçimi) 1 ila 4 bayt içerir.

Semboller

Unicode tablolarındaki semboller, onaltılık sayılarla numaralandırılmıştır. Örneğin, Kiril büyük harf M, U + 041C tarafından gösterilir. Bu, 041 String'in kesiştiği ve C sütununun kesiştiği anlamına gelir. Sadece kopyalanabilir ve ardından bir yere yerleştirilebilir. Çok kilometrelerde listeye gitmemek için, aramayı kullanmalısınız. Sembol sayfasına gidiyorsanız, numarasını Unicode'da göreceksiniz ve farklı yazı tiplerinde çizim bir yolunu göreceksiniz. Meydanın yerine, en azından ne olduğunu bulmak için, kare çizilmiş olsa bile, arama dizesine ve imzanın kendisine girebilirsiniz. Ayrıca, bu sitede, kullanmanın kolaylığı için farklı bölümlerden toplanan aynı tip simgelerin özel (ve rastgele) kümeleri vardır.

Unicod Standard - Uluslararası. Neredeyse tüm dünyanın yazısının işaretlerini içerir. Artık uygulanmayanlar dahil. Mısır hiyeroglifleri, Alman runes, Maya yazma, Clinp ve antik devletlerin alfabeleri. Sunulan ve ölçüt ve ölçeklerin, müzikal okuryazarlık, matematiksel kavramların tayinleri.

Unicode konsorsiyumunun kendisi yeni semboller icat etmez. Tablolar, toplumdaki kullanımlarını bulan tablolara eklenir. Örneğin, Ruble işareti, altı yıl önce aktif olarak kullanıldı, Unicode'a eklendi. Emoji (İfadeler) piktogramları, ilk önce Japonya'da kodlamaya dahil edilmeden önce yaygın kullanım kazandı. Ancak ticari markalar ve şirket logoları temel olarak eklenmez. Apple Apple veya Windows bayrağı bile. Bugüne kadar, 8.0 sürümünde yaklaşık 120 bin karakter kodlanmıştır.