internet pencereler Android
Genişletmek

Kodlar 32 127. Metin bilgilerinin kodlanması

Merhaba, Sevgili Blog Okuyucular web sitesi. Bugün sizinle Krakoyarbra'nın hangi metin kodlamalarının var olduğu ve hangisinin kullanılması gerektiği programlardan ve programlardan geldiği hakkında konuşacağız. Temel ASCII'den, CP866, KOI8-R, Windows 1251'in genişletilmiş versiyonlarını ve Unicode UTF 16 ve 8 konsorsiyumunun modern kodlarıyla biten gelişmelerinin geçmişini ayrıntılı olarak düşünelim.

Birisi bu bilgi gereksiz görünebilir, ancak çatlakları tam olarak ilgilenen (bir karakter kümesi okumayan) bana ne kadar sorunun ne kadar olduğunu bileceksiniz. Şimdi herkesi bu makalenin metnine gönderme fırsatım olacak ve bağımsız olarak shoals'ınızı arayacağım. Bilgiyi emmeye hazır olun ve anlatımı izlemeye çalışın.

ASCII - Temel Latiza Metin Kodlama

Metin kodlamalarının gelişimi, BT endüstrisinin oluşumu ile aynı anda gerçekleşir ve bu süre zarfında oldukça az değişiklik geçireceklerdir. Tarihsel olarak, her şey, Rusça'lık Rusça telaffuzunda oldukça zararlıdır, bu da Latin alfabesinin, Arapça sayıların ve noktalama işaretlerinin kontrol sembolleriyle harflerini kodlamayı mümkün kılan.

Ancak yine de modern metin kodlamalarının geliştirilmesi için başlangıç \u200b\u200bnoktası ünlü olarak kabul edilmelidir. ASCII. Amerikan Standardı İçin kod Rusça'da genellikle "Aski" olarak belirgin olan bilgi değişimi). En sık kullanılan İngilizce konuşan kullanıcılardan - Latin harfleri, Arapça numaralar ve noktalama işaretleri olan ilk 128 karakteri açıklar.

ASCII'de açıklanan bu 128 karakterde bile, bazı servis sembolleri parantez, kafesler, yıldızlar vb. Tarafından ezildi. Aslında, kendin onları görebilirsin:

Bu, ASCII'nin ilk versiyonundan gelen 128 karakter standarttır ve herhangi bir kodlamada kesinlikle karşılaşacak ve böyle bir şekilde olacaklar.

Ancak gerçeği, bilginin bir baytının yardımıyla, 128'i kodlayabileceğiniz, ancak 256 farklı değer (sekiz iki kez eşittir 256'ya eşittir), bu nedenle temel sürümünden sonra tüm bir aralık ortaya çıktı. Sormak gelişmiş kodlamalar ASCII128 ana işarete ek olarak, ulusal kodlama sembollerini (örneğin, Rusça) kodlamak da mümkündü.

Burada, muhtemelen açıklamada kullanılan sayı sistemi hakkında biraz daha değer. Öncelikle, her şeyi bildiğiniz gibi, bilgisayar sadece bir ikili sistemde, yani sıfır ve birimler ("Boulev Cebir" ile ("Boulev Cebir" ile ("Boulev Cebir" ile birlikte çalışır. Her biri bir dereceye kadar bir inendir, sıfırdan başlayarak ve yedinci sırada two'lar:

Bu tür bir tasarımdaki tüm olası zero ve birimler kombinasyonlarının yalnızca 256 olabileceğini anlamak zor değildir. Çevir, ikili sistemden ondalık basamak. Tüm dereceleri yukarıdaki tüm dereceleri tek bir durdurmanız gerekir.

Örneğimize göre, 1 (2 ila sıfır) artı 8 (iki ila derece 3), artı 32 (beşinci derecede iki kez), artı 64 (altıncı), artı 128 (yedinci) . Toplam bir ondalık sayı sisteminde 233 alır. Gördüğünüz gibi, her şey çok basit.

Ama masaya bakarsan semboller ASCII.Onaltılık kodlamada sunulduğunu göreceksiniz. Örneğin, "yıldız işareti", onaltılık bir sayı 2A'nın cenneti karşılık gelir. Muhtemelen, onaltılık bir sayı sisteminde, bir (ortalama on) 'den latin harfleri, onaltılık bir sayı sisteminde kullanıldığında (ortalama on) latin harfleri kullanılır.

Peki, için aktar İkili sayılar Onaltılık Bir sonraki basit ve görsel yola başvurun. Her bilgi baytı, yukarıdaki ekran görüntüsünde gösterildiği gibi dört bitin iki parçasına ayrılır. Yani Baytın her yarısında, ikili kod yalnızca on altı değer için (dördüncü derecede ikisi), onaltılık olarak kolayca temsil edilebilecek şekilde kodlanabilir.

Ayrıca, baytın sol yarısında, tekrar sıfırdan, ekran görüntüsünde gösterildiği gibi göz önünde bulundurmanız gerekecektir. Sonuç olarak, iyi olmayan bir bilgisayarla, E9 sayısının ekran görüntüsünde kodlandığını alıyoruz. Umarım aklımın kursu ve bu rebusun katılaşması anlaşılabilirdiniz. Şimdi devam edeceğiz, aslında metin kodlaması hakkında konuşacağız.

ASKI - CP866 ve KOI8-R kodlamasının uzatılmış versiyonları

Böylece, tüm modern kodlamaların gelişimi için bir başlangıç \u200b\u200bnoktası gibi olan ASCII hakkında konuşmaya başladık (Windows 1251, Unicode, UTF 8).

Başlangıçta, Latin alfabesinin sadece 128 belirtisi, Arapça sayılar ve orada başka bir şey, ancak genişletilmiş versiyonda, bir ezme bilgisinde kodlanabilecek tüm 256 değerin tümünü kullanmak mümkündü. Şunlar. Dilinin harflerinin sembollerini Aska'ya ekleme fırsatı.

Burada netleştirmek için bir kez daha dikkatini dağıtmak için gerekli olacak - neden kodlamaya ihtiyacın var? Metinler ve neden bu kadar önemlidir. Bilgisayarınızın ekranındaki karakterler, iki şeyin temelinde oluşturulur - her türlü karakterin vektör formları (temsilleri) kümeleri (dosya cinsinden) ve bu vektör şekil kümesini çıkarmanızı sağlayan kodlar ( Yazı Tipi Dosyası) Doğru yere eklenecek karakterdir.

Yazı tiplerinin vektör formlarından sorumlu olduğu açıktır, ancak işletim sistemi ve içinde kullanılan programlar kodlamadan sorumludur. Şunlar. Bilgisayarınızdaki herhangi bir metin, bu metnin tek bir sembolünün kodlandığı her birinde bir bayt kümesi olacaktır.

Bu metni ekranda (metin editörü, tarayıcı vb.) Gösteren program, kodu ayrıştırırken, bir sonraki işaretin kodlamasını okur ve ilgili vektör formunu arar İstenen dosya Bu metin belgesini görüntülemek için bağlı yazı tipi. Her şey basit ve trite.

Böylece, ihtiyacımız olan herhangi bir sembolü kodlamak için (örneğin, ulusal alfabeden), iki koşul tamamlanmalıdır - bu işaretin vektör formu kullanılan fontta olmalı ve bu sembol genişletilmiş ASCII kodlamalarında bir baytta kodlanabilir. . Bu nedenle, bir sürü bu tür seçenek var. Sadece Rus dilinin sembollerinin kodlanması için çeşitli eşek çeşitleri vardır.

Örneğin, başlangıçta ortaya çıktı Cp866.Rus alfabesinin sembollerini kullanmak mümkün olduğu ve bu ASCII'nin genişletilmiş bir versiyonuydu.

Şunlar. Üst kısmı, bir miktar daha yüksek verilen ekran görüntüsünde sunulan Aska'nın temel versiyonu (Latince, sayıların 128 sembolü ve başkaları) ile çakıştı. alt kısım CP866 kodlama tabloları, ekran görüntüsünde belirtilenlere biraz daha düşük ve başka bir 128 karakteri (Rus harfleri ve her sözde) kodlamasına izin verdi:

Bakınız, doğru sütunda, sayılar 8 ile başlar, çünkü 0 ile 7 arasındaki sayılar ASCII'nin taban kısmına bakın (ilk ekran görüntüsüne bakın). Yani CP866'daki Rusça "M" harfi 9C'ye sahip olacaktır (karşılık gelen satırların 9 ile, bir hexadecial sayı sisteminde C ile ilgili sütun ile kesişimindedir), bir bayt bilgisi içinde yazılabilir ve Rus karakterleri ile uygun bir yazı tipi var, bu mektup problemsiz metin olarak gösterilecektir.

Bu miktar nereden geldi? cP866'da psödograflar.? İşte bu, Rus metni için bu kodlamanın bu parlak yıllarda geliştirildiği, böyle bir grafik dağılımı olmadığı zaman geliştirildi. işletim sistemleri şimdiki gibi. Ve dastik ve benzeri metin operasyonlarında, pseudografik en azından bir şekilde, metinlerin tasarımını çeşitlendirir ve bu nedenle CP866 ve tüm diğer satırları, ASA'nın genişletilmiş sürümlerinin boşalmasından kaynaklanır.

CP866 Dağıtılmış IBM Şirketi, ancak ek olarak, Rus dilinin sembolleri için bir dizi kodlama, örneğin, aynı tip (Genişletilmiş ASCII) atfedilebilir Koi8-r.:

Çalışmalarının ilkesi, daha sonra açıklanan CP866 ile aynı kaldı - her metin sembolü tek bir bayt tarafından kodlanır. Ekran görüntüsü KOI8-R tablosunun ikinci yarısını gösterir, çünkü İlk yarı, bu makaledeki ilk ekran görüntüsünde gösterilen taban ASUS ile tamamen tutarlıdır.

KOI8-R kodlamasının özellikleri arasında, masasındaki Rus harflerinin, örneğin CP866'da yaptığı gibi, bu gibi alfabetik sırayla olmadığı belirtilebilir.

İlk ekran görüntüsüne bakarsanız (tüm genişletilmiş kodlamalara giren ana kısım), Koi8-R'de, Rus harflerinin, latin alfabesinin ilk bölümünden, Latin alfabesinin harfleri olarak aynı tablolarda bulunduğunu fark edin. Masa. Bu, Rus sembollerinden Latince'den Latince'ye geçmenin rahatlığı için yapıldı (yedinci derecede iki ya da 128).

Windows 1251 - ASCII'nin modern bir versiyonu ve Crackels neden çıktı

Metin kodlamalarının daha fazla gelişmesi, grafik işletim sistemlerinin ve bunlara psödografi kullanması gerektiği gerçeğinden kaynaklanıyordu. Sonuç olarak, onların özünde, Aski'nin gelişmiş sürümleri olan bir bütün grup ortaya çıktı (bir metin sembolü, yalnızca bir büzülme bilgiyle kodlanmıştır), ancak pseudografik karakterler kullanmadan.

Amerikan Standardizasyon Enstitüsü tarafından geliştirilen ANSI kodlamasını tedavi ettiler. Kiril adı, Rus dilinin desteğiyle bir seçenek için hala kullanıldı. Böyle bir örnek örneği.

Önceden kullanılan CP866 ve KOI8-R'den, sözdedeki karakterlerin yerini, Rus tipografisinin (azalan işaret) eksik sembollerini ve Rus Slav'una yakın kullanılan sembollerin yanı sıra Diller (Ukrayna, Belarus, vb.):

Rus dilinin kodlarının bu bolluğu nedeniyle, yazı tipi ve üreticileri üreticileri yazılım Sürekli bir baş ağrısı ortaya çıktı ve seninle, sevgili okuyucular, genellikle en ünlü olanları aldılar. krakoYabryKarışıklık, metinde kullanılan versiyonla öğretildiğinde.

Çok sık, e-posta yoluyla mesaj gönderirken ve alırken ortaya çıktılar, bu da aslında bu sorunu kök içinde çözemedi ve çoğu zaman yazışmalar için kullanıcılar kullanırken kullanıcıları kullanırken kullanıldı. Rus kodlamaları benzer CP866, KOI8-R veya Windows 1251.

Özünde, Rus metni yerine, Krakoyarbra, kodlamanın yanlış kullanımı sonucuydu. bu dilinBu, metin mesajının başlangıçta kodlandığı ile eşleşmemiş.

CP866 ile kodlanmış semboller, Windows 1251 kod tablosunu kullanarak, daha sonra bu en çok çatlak (anlamsız karakter kümesi) kullanarak görüntülenmeyi deneyin ve mesaj metnini tamamen değiştirmeyi deneyin.

Benzer bir durum çok sık, forumlar veya bloglar, forumlar veya bloglar, yanlışlıkla Rus karakterleri olan metin, varsayılan web sitesinde kullanılan veya Sebestin koduna ekleyen metin düzenleyicide kullanılmayan aynı kodlamaya kaydedilmediğinde çıplak gözle görülebilir.

Sonunda, birçok kodlamaya sahip ve sürekli sürünen bir durum, çok yorgun, birçok yorgun, yeni bir evrensel varyasyon yaratmanın önkoşulları vardı, bu da mevcut olanların yerini alacak ve son olarak, nihayetinde sorunların köküne okunabilir metinler. Buna ek olarak, dilin sembollerinin 256'dan fazla olduğu için benzer bir dilde bir sorun vardı.

Unicode (Unicode) - Universal Kodları UTF 8, 16 ve 32

Güneydoğu Asya'nın dil grubunun bu binlerce işareti, gelişmiş ASCII sürümlerinde karakter kodlama için ayrılan bir papat bilgisinde tanımlanamadı. Sonuç olarak, denilen bir konsorsiyum oluşturuldu. Unicode (Unicode - Unicode Consortium) Endüstrinin birçok liderinin işbirliğinde (Demir'i kimin oluşturan bir yazılım üreten, yazı tipi oluşturan bir yazılım oluşturanlar), evrensel bir metin kodlamasının ortaya çıkmasıyla ilgilenen.

Unicode konsorsiyumun himayesinde yayınlanan ilk varyasyon UTF 32.. Kodlamanın adındaki rakam, bir sembolü kodlamak için kullanılan bit sayısı anlamına gelir. 32 bit, yeni evrensel UTF kodlamasında tek bir işareti kodlamak için gerekli olacak 4 bayt bilgidir.

Sonuç olarak, aynı dosya, ASCII ve UTF-32'nin genişletilmiş sürümünde kodlanan metnin ikinci durumda olacak şekilde boyutuna (ağırlık) olacaktır. Kötü, ama şimdi UTF'nin yardımıyla iki ila otuz ikinci dereceye eşit olan işaret sayısını kodlama fırsatımız var ( milyarlarca karakterBu, herhangi bir gerçek değeri devasa bir marjla kapsayacak).

Ancak, Avrupa Grubu'nun dilleriyle birçok ülke, kodlamada kullanılması çok fazla sayıda işarete sahiptir ve ancak UTF-32'yi kullanırken, dört zamanlı bir artış almadılar. Metin belgelerinin ağırlığında ve sonuç olarak, internet trafiğinde bir artış ve hacim depolanmış veriler. Bu çok ve hiç kimse bu tür atıkları karşılayamaz.

Unicode'nin gelişmesinin bir sonucu olarak ortaya çıktı UTF-16Bu, bu kadar başarılı ortaya çıktı ki, kullandığımız tüm karakterler için temel bir alan olarak varsayılan olarak kabul edildi. Bir işareti kodlamak için iki bayt kullanır. Bu şeyin nasıl göründüğünü görelim.

Ameliyathanede windows sistemi "Başlat" - "Programlar" - "Standart" - "Hizmet" - "Karakter Tablosu" yolunu geçebilirsiniz. Sonuç olarak, bir masa, fontlarınızda yüklü olan tüm vektör formlarıyla açılır. "Ek parametreler" bölümünü seçerseniz, bir Unicode karakter kümesi, her bir yazı tipini ayrı ayrı görebilirsiniz. İçinde bulunan tüm karakterler aralığı.

Bu arada, bunlardan herhangi birine tıklayarak, onu iki kişi görebilirsiniz. uTF-16 formatında koddört onaltılık haneden oluşan:

UTF-16'da 16 bit kullanılarak kaç karakter kodlanabilir? 65 536 (iki ila on altı) ve bu numara Unicode'daki temel alan için alındı. Buna ek olarak, bununla ve yaklaşık iki milyon karakterle kodlamanın yolları vardır, ancak bir milyon metin sembolündeki genişletilmiş alanla sınırlıdır.

Fakat Unicode'ün kodlamasının bu başarılı versiyonu bile, örneğin yalnızca programları yazanlara çok memnun değildi. ingilizce diliOnlar için, ASCII'nin genişletilmiş sürümünden UTF-16'ya geçtikten sonra, belgelerin ağırlığı iki kez arttı (ASKI'de sembol başına bir bayt ve UTF-16'da aynı sembolde iki bayt).

Bu tam olarak herkesi tatmin etmek ve tüm unicode konsorsiyumundaki tümü gelmeye karar verdi. değişken uzunluğu kodlama. O utf-8 olarak adlandırıldı. Başlığın sekizine rağmen, gerçekten bir değişken uzunluğu var, yani. Her metin simgesi, bir ila altı bayt dizisine kodlanabilir.

Uygulamada, UTF-8, yalnızca bir ila dört bayttan bir aralık kullanır, çünkü herhangi bir şeyi kodun dört baytına göndermek için teorik olarak mümkün bir şey yoktur. Tüm Latin işaretleri bir baytta ve eski iyi ASCII'de kodlanmıştır.

Dikkat çekici olanı, yalnızca Latince kodlama durumunda, Unicode'u anlamayan bu programlar bile UTF-8'de kodlanmış olanı okuyacaktır. Şunlar. Aska'nın temel kısmı, bu sadece Unicode konsorsiyumunu kapattı.

UTF-8'deki Kiril işaretleri, iki bayt içine kodlanır ve örneğin Gürcüce - üç baytta. UTF 16 ve 8'in yaratılmasından sonra Unicode Consortium, ana soruna karar verdi - şimdi yazı tiplerinde tek bir kod alanı var. Ve şimdi üreticileri sadece metin sembollerinin vektör formlarıyla doldurma güçleri ve fırsatları temelinde kalır. Şimdi takımlarda bile.

Aşağıdaki sembol tablosunda, farklı fontların farklı sayıda karakteri desteklediği görülebilir. Unicode yazı tiplerinin bazı sembolleri çok iyi tartılabilir. Ancak şimdi farklı kodlamalar için yaratıldıkları gerçeğiyle ayırt edilmezler, ancak font üreticisinin tek kod alanını ya da diğer vektör formları tarafından tek kod alanını doldurmadan veya doldurmadığı gerçeğiyle.

KrakoYabry Rus mektupları yerine - nasıl düzeltilir

Şimdi Crakozyabe metninin metin yerine nasıl göründüğünü veya başka bir deyişle, Rusça metin için doğru kodlamanın nasıl seçildiğini görelim. Aslında, bu aynı metni oluşturduğunuz veya düzenleyeceğiniz programda metin parçalarını kullanarak ayarlanmıştır.

Metin dosyalarını düzenlemek ve oluşturmak için, bence şahsen çok iyi kullanıyorum. Bununla birlikte, sözdizimini hala iyi yüzlerce programlama dilini ve işaretlemesini vurgulayabilir ve ayrıca eklentilerle genişletme yeteneğine sahiptir. Okumak detaylı inceleme Bağlantıya göre bu harika program.

Not Defteri ++ üst menüsünde, mevcut bir seçeneği varsayılan sitenizde kullanılan birine dönüştürme yeteneğine sahip olacağınız bir "kodlama" öğesi vardır:

Joomla 1.5 ve üzeri bir site durumunda, WordPress'de bir blog durumunda, Krakyar'ın görünümünü önlemek için seçeneği seçmelisiniz. UTF 8 BOM'suz. BOM öneki nedir?

Gerçek şu ki, ETF-16 kodlaması geliştirildiğinde, bazı nedenlerden dolayı, böyle bir şeyi, hem doğrudan sırayla (örneğin, 0A15) hem de ters (150A) bir sembol kodunu kaydetme yeteneği olarak tutturmaya karar verdi. . Ve programların hangi sırayı okuma kodlarını anlamaları için ve icat edilmesi için BOM. (Byte sipariş işareti veya başka bir deyişle, imza), bu da belgelerin başlangıcına üç ek bayt eklemede ifade edilmiştir.

UTF-8 kodlamasında, Unicode Consortium'da hiçbir BOM yoktu ve bu nedenle imza ekleyerek (bu en ünlü ek üç bayt, belgenin başlangıcına kadar) bazı programlar kodu okumayı önler. Bu nedenle, biz her zaman, UTF'deki dosyaları kaydederken, BOM'suz bir seçenek seçmelisiniz (imza olmadan). Yani şimdi peşin kendinizi çatlamadan gizlemek.

Dikkate değer olan, Windows'taki bazı programlar bunu nasıl yapacağınızı bilmiyor (metni, BOM'suz UTF-8'deki metni kaydetme), örneğin, aynı komuta notebook pencereleri. Belgeyi UTF-8'de kaydeder, ancak yine de başlangıcına imza ekler (üç ek bayt). Dahası, bu baytlar her zaman aynı olacaktır - kodu doğrudan sırayla okuyun. Ancak sunucularda, bu küçük şeyler nedeniyle, bir sorun olabilir - Crackels çıkacak.

Bu nedenle, hiçbir durumda her zamanki notebook pencerelerini kullanmayın Sitenizin belgelerini düzenlemek için, Krakoyarbra'nın görünümünü istemiyorsanız. Daha önce de belirtilen not defteri ++ editörü için en son ve en kolay seçeneği, pratik olarak dezavantajları olmayan ve avantajlardan birinden oluşan seçeneklerini düşünüyorum.

Not Defteri ++ 'da bir kodlama seçerken, metni UCS-2 kodlamaya dönüştürme yeteneğine sahip olacaksınız, bu da UsSence'daki Unicode Standard'a çok yakın olan UCS-2 kodlamasına dönüştürebilirsiniz. Ayrıca, ANSI, yani ANSI'de kodlanmış bir şekilde kodlanabilir. Rus diline referansla, bu zaten Windows 1251'in hemen yanında tarif edilecektir. Bu bilgi nereden geliyor?

Windows işletim sisteminizin kayıt defterinde yazıldığından, ANSI durumunda hangi kodlamanın seçileceği, OEM durumunda ne seçeceğiniz (Rus dili için CP866 olacak). Bilgisayarınıza bir varsayılan dil yüklerseniz, bu kodlamalar aynı dil için ANSI veya OEM akıntılarına benzer şekilde değiştirilecektir.

Not Defteri ++ bölümünde, belgeyi kodlamaya yönelik kodlamaya kaydetme veya bir belgeyi düzenlemek için düzenleyicinin sağ alt köşesinde, adını görebileceğiniz:

Krakoyarbrov'u önlemek içinYukarıda açıklanan eylemler dışında, kapağına kayıt olmak için yararlı olacaktır. kaynak kodu Tüm site sayfaları bu kodlama hakkında bilgi, böylece sunucu veya yerel ana bilgisayar oluşmaz.

Genel olarak, HTML dışındaki hipertext işaretinin tüm dillerinde, metni kodlamayı belirten özel bir XML reklamı kullanılır.

Kodu sökmeye başlamadan önce, tarayıcı hangi sürümün kullanıldığını ve bu dilin karakterlerinin kodlarını tam olarak nasıl yorumlamanız gerektiğini öğrenecektir. Ancak, belgeyi varsayılan Unicode'da kaydetmeniz durumunda, bu XML bildirimi atlanabilir (kodlama, bir BOM veya UTF-16 yoksa, kodlama UTF-8 olarak kabul edilir).

Bir belge durumunda hTML Dili Kullanılan kodlamayı belirtmek için meta elemanıaçılış ve kapama başı etiketi arasında reçete edilir:

... ...

Bu giriş kabul edilen B'den oldukça farklıdır, ancak tamamen HTML 5 standardı tarafından yavaşça tanıtıldığına tamamen uygundur ve kullanılan herkes tarafından kesinlikle doğru bir şekilde anlaşılır. şu an tarayıcılar.

Teoride, belgenin HTML kodlamasını gösteren meta elemanı koymak için daha iyi olacaktır. dock başlığında mümkün olduğu kadar yüksekBöylece, ilk işaretin metnindeki toplantı sırasında (her zaman her zaman ve herhangi bir varyasyonda okuyan), tarayıcının bu karakterlerin kodlarını nasıl yorumlayacağınız hakkında bilgi sahibi olmalıdır.

Sana iyi şanslar! Blog sayfalarında belirsiz toplantılara web sitesi

devam edebileceğiniz daha fazla makaraya bakın
");">

İlgilenebilirsin

URL adresleri, site için mutlak ve göreceli bağlantılar arasındaki farkın içindekiler nedir?
OpenServer - Modern yerel sunucu ve kullanımının bir örneği wordpress kurulumları bilgisayarda
Dosya ve klasör atama haklarına (777, 755, 666) ve PHP üzerinden nasıl yapılacağı CHMOD nedir?
Giriş yap Site ve Online Mağazada Yandex

Sembol kaplaması

BS sembolü sayesinde (adıma geri dön), diğer tarafta bir karakter yazıcıya yazdırılabilir. ASCII'de, örneğin harflere diocritik eklemek için ele alınmıştır:

  • bir BS "→ Á
  • bir BS `→ à
  • bir BS ^ → Â
  • o BS / → Ø
  • c BS, → Ç
  • n bs ~ → ñ

Not: Eski yazı tiplerinde KESTROPHE "Sola bir eğim çekti ve Tilda ~ kaydırıldı, böylece Akut ve Tilde'nin rolünü yukarıdaki rolüne uyuyorlardı.

Aynı sembol sembolü üst üste bindirilirse, cesur yazı tipinin etkisi elde edilir ve eğer vurgu sembolü üzerinde üst üste bindirilirse, metni engeller.

  • a BS A → a.
  • bir BS _ → a.

Not: Bu, örneğin Adam referans sisteminde kullanılır.

Ulusal ASCII seçenekleri

ISO 646 (ECMA-6) standardı, ulusal karakterleri yerine yerleştirme olasılığını sağlar @ [ \ ] ^ ` { | } ~ . Buna ek olarak, yerinde # Yerleştirilebilir £ , ve yerinde $ - ¤ . Böyle bir sistem, yalnızca birkaç ek karakterin ihtiyaç duyduğu Avrupa dilleri için çok uygundur. Ulusal semboller olmayan bir ASCII versiyonu US-ASCII veya "Uluslararası Referans Sürümü" olarak adlandırılır.

Daha sonra, kod tablosunun (0-127) alt yarısının ABD-ASCII karakterlerini işgal ettiği ve üst (128-255) dahil olmak üzere, kod tablosunun (0-127) alt yarısının (128-255) dahil olmak üzere 8 bit kodlamaları (kod sayfalarını) kullanmak daha uygun ortaya çıktı. bir dizi ulusal sembol. Böylece, ASCII tablosunun Unicode'nin her yerde uygulanmasına kadar üst yarısı, yerelleştirilmiş sembolleri, yerel harfleri temsil etmek için aktif olarak kullanıldı. ASCII tablosundaki Kiril karakterleri yerleştirmek için tek bir standardın yokluğu, birçok kodlama problemini (KOI-8, Windows-1251 ve diğerleri) verdi. Yazarsız yazılı olmayan diğer diller, birkaç farklı kodlamanın varlığı nedeniyle de acı çekmiştir.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B .C.c. .D. .E.e. .F.
0. Nul. SOM Eoa. Eom EQT. Wru. Ru Zil. Bksp. Ht Lf. Vt. Ff. Cr YANİ.
1. DC 0. DC 1. DC 2. DC 3. DC 4. Err. Senkronizasyon. Lem. S 0. S 1 S 2. S 3. S 4. S 5. S 6. S 7.
2.
3.
4. Boş ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A. B. C. D. E. F. G. H. BEN. J. K. L. M. N. Ö.
B. P. S. R. S. T. U V. W. X. Y. Z. [ \ ]
C.
D.
E. a. b. c. d. e. f. g. h. bEN. j. k. l. m. n. Ö.
F. p. s. r. s. t. u v. w. x. y. z. ESC Del.

Minimal adreslenebilir bellek biriminin 36 bitlik bir kelimenin olduğu bilgisayarlarda, başlangıçta 6 bit karakterler kullanıldı (1 kelime \u003d 6 karakter). Bu tür bilgisayarlarda ASCII'ye geçtikten sonra, 5 yedi bit karakter bir kelimeye yerleştirilmeye başlandı (1 bit gereksiz kaldı) veya 4 ninbitant karakter.

ASCII kodları, programlama altındaki anahtarı belirlemek için de kullanılır. Standart Qwerty Tuş Takımı için, kod tablosu şöyle görünür:

Bilgisayar, dönüşümünün, bu verilerin daha uygun iletim, depolama veya otomatik olarak işlenmesini sağlayan bir forma dönüştürülmesi anlamına gelir. Bu amaçla, çeşitli tablolar kullanılır. ASCII kodlaması, Amerika Birleşik Devletleri'nde geliştirilen ilk sistemdir, daha sonra dünyaya dağıtılan İngilizce-dil metni ile çalışmaktadır. Açıklamaları, özellikleri, özellikleri ve daha fazla kullanım, aşağıda sunulan makaleye ayrılmıştır.

Bilgisayardaki bilgileri görüntüleyin ve saklama

Bilgisayar monitöründeki semboller veya bir mobil dijital gadget, her türlü işaret ve kodun vektör formlarının kümelerinin temelinde, bunlar arasında, bunlar arasında doğru yere eklemek istediğiniz kişiyi bulmanızı sağlar. Biraz dizisidir. Böylece, her sembol kesinlikle belirli, benzersiz bir sırayla dayanan bir dizi sıfır ve birimlere uymalıdır.

Hepsi nasıl başladı

Tarihsel olarak, ilk bilgisayarlar İngilizce konuşuyordu. Sembolik bilgileri onlara kodlamak için, yalnızca 7 bellek biti kullanmak için yeterliydi, oysa bu amaç için 8 bitten oluşan 1 bayttı. Bu durumda bilgisayar tarafından anlaşılan işaretlerin sayısı 128'e eşitti. Bu tür karakterlerin sayısı, noktalama işaretleri, sayıları ve bazı özel karakterlerle İngilizce bir alfabeyi içeriyordu. 1963'te geliştirilen ilgili tablo (kod sayfası) ile ilgili İngilizce konuşan bir yedi kodlu kodlama, bilgi değişimi için Amerikan Standart kodu seçildi. Genellikle, ataması için "ASCII kodlaması" kısaltması kullanılmış ve bu gün kullanılmıştır.

Çarpışmaya Geçiş

Zamanla, bilgisayarlar ilgi çekici olmayan ülkelerde yaygın olarak kullanılmaktadır. Bu bağlamda, ulusal dilleri kullanmamıza izin veren kodlamalara ihtiyaç vardı. Bisikleti yeniden icat etmemeye ve ASCII'nin temelini almamaya karar verildi. Yeni basımdaki kodlama tablosu önemli ölçüde genişletildi. 8. bitin kullanımı, 256 karakterin bir bilgisayar diline çevirmesini sağlamıştır.

Açıklama

ASCII kodlamasının 2 parçaya bölünmüş bir tabloya sahiptir. Genel kabul görmüş uluslararası standart sadece ilk yarısı olarak kabul edilir. O içerir:

  • Sıra numaralarına sahip sekans sayısına sahip, 00000000 ila 000111'den sekanslarla kodlanmıştır. Metin ekranı veya yazıcıya, ses sinyali vb. İçin çıktı işlemini izleyen karakterleri kontrol etmek için atanır.
  • Tabloda NN'li NN'li Semboller, 00100000'den 011111'e kadar sekanslarla kodlanmış, tablonun standart bir kısmını oluşturur. Bunlar arasında bir boşluk (N 32), Latin alfabesinin (küçük harf ve büyük harf) harfleri, 0 ila 9 arasında on basamaklı sayılar, noktalama işaretleri, farklı yazıtların parantezi ve diğer karakterler içerir.
  • Sıra numaralarına sahip semboller 128 ila 255'ten, 10.000.000 ila 11111111'den dizilerle kodlanmıştır. Bunlar, Latin dışındaki ulusal alfabelerin harfleridir. Rus sembollerini bilgisayar formuna dönüştürmek için kullanılan ASCII kodlama tablosunun alternatif kısmıdır.

Bazı özellikler

ASCII kodlamasının özellikleri, alt ve üst kayıtların "A" - "Z" harfleri arasındaki farkı sadece bir bit ile içerir. Bu durum, kayıt dönüşümünü büyük ölçüde basitleştirir, yanı sıra belirtilen değerler aralığına aittir. Ek olarak, ASCII kodlama sistemindeki tüm harfler, bir ikili sayı sisteminde 5 basamak yazılmış alfabedeki kendi dizi sayıları ile temsil edilir, bunların önündeki alt kayıtların 112'sinin harfleri için ve üst - 010 2.

ASCII kodlama özelliklerinin özellikleri ayrıca sınıflandırılabilir ve 10 haneyi temsil edebilir - "0" - "9". İkinci numara sisteminde, 00112 ile başlarlar ve 2 sayıların değeri ile biter. Böylece, 0101 2, ondalık beş numaraya eşdeğerdir, bu nedenle "5" sembolü 0011 01012 olarak yazılır. Yukarıdakilere dayanarak, sol bit dizisini ekleyerek İkili-Ondalık sayıları ASCII kodlamadaki dizgiye kolayca dönüştürebilirsiniz. 00112 Her MB'ye.

"Unicode"

Bildiğiniz gibi, Güneydoğu Asya grubunun dillerinde metinleri görüntülemek için binlerce karakter gereklidir. Bu miktar, bir ezme bilgisinde herhangi bir şekilde tarif edilmez, bu nedenle ASCII'nin genişletilmiş sürümleri bile, kullanıcıların farklı ülkelerden artan ihtiyaçlarını karşılayamaz.

Öyleyse, metnin evrensel bir kodlaması oluşturma ihtiyacı, gelişimi, dünya BT endüstrisinin birçok lideriyle işbirliğiyle "Unicode" bir konsorsiyumla uğraştı. Uzmanları UTF 32 sistemini yarattı. İçinde, sembolün 1 kodlaması için 4 bayt bilgiyi oluşturan 32 bit serbest bırakıldı. Ana dezavantaj, pek çok problemi gerektiren, 4 kez gereken hafızanın miktarında keskin bir artışdı.

Aynı zamanda, Hint-Avrupa Grubu ile ilgili resmi dilleri olan çoğu ülke, 22'ye eşit olan işaretlerin sayısı fazladan daha fazladır.

Uzmanların "Unicode" konsorsiyumundan daha fazla çalışmasının bir sonucu olarak, bir UTF-16 kodlaması ortaya çıktı. Hem istenen belleğin hacminde hem de kodlanmış sembollerin sayısıyla düzenlenen sembolik bilgileri dönüştürme seçeneği haline geldi. Bu nedenle UTF-16 varsayılan olarak kabul edildi ve içinde bir işaret için 2 bayt rezerve etmeniz gerekiyor.

"Unicode" nın oldukça gelişmiş ve başarılı bir sürümü bile bazı dezavantajları vardı ve ASCII'nin genişletilmiş sürümünden UTF-16'ya geçiş sonrasında belgenin ağırlığını iki kez arttırdı.

Bu bağlamda, UTF-8 değişken değişken kodlamasını kullanmaya karar verilmiştir. Bu durumda, her kaynak metin simgesi 1 ila 6 bayt dizisi ile kodlanır.

Bilgi değişimi için Amerikan standart kodu ile iletişim

UTF-8 değişken uzunluğu olan Latin alfabesinin tüm belirtileri, ASCII kodlama sisteminde olduğu gibi 1 baytta kodlanır.

UTF-8'in bir özelliği, Latinya'daki metin durumunda, başka karakterler kullanmadan, "Unicode" anlamayan programlar bile, bunu okumanıza izin verecektir. Başka bir deyişle, ASCII metninin kodlamasının temel kısmı sadece yeni UTF uzunluğu değişkenine hareket eder. UTF-8'deki Kiril işaretleri 2 bayt, örneğin Gürcü - 3 bayt. UTF-16 ve 8'in oluşturulması, fontlarda tek bir kod alanı oluşturma sorununu çözdü. O zamandan beri, yazı tipi üreticileri sadece tablo vektöründeki metin sembollerinin ihtiyaçlarına göre doldurulması için kalır.

Çeşitli işletim sistemlerinde, çeşitli kodlamalara tercih edilir. Başka bir kodlamada atılan metinleri okuyabilir ve düzenleyebilme, Rus metninin kod kodu programları geçerlidir. Biraz metin editörleri Katıştırılmış transkizörler içerir ve kodlamadan bağımsız olarak metni okumanıza izin verir.

Artık ASCII'de kaç karakter kodlamada, nasıl ve neden tasarlanmış olduğunu biliyorsunuz. Tabii ki, bugün dünyanın en büyük dağıtımını aldım. Unicode. Bununla birlikte, ASCII'ye dayanarak yaratıldığını unutmak imkansızdır, bu nedenle geliştiricilerinin BT kapsamına katkısı ile takdir edilmelidir.

Bize bilinen bazı gerçekleri hatırlayın:

Metnin yazıldığı birçok karakter alfabeye denir.

Alfabedeki karakter sayısı gücüdür.

Bilgi miktarını belirlemek için formül: n \u003d 2 b,

n, alfabenin gücü (karakter sayısı),

b - bit sayısı (sembol bilgisi).

256 karakter gücüne sahip alfabe neredeyse tüm gerekli karakterleri yerleştirilebilir. Böyle bir alfabenin yeterli denir.

Çünkü 256 \u003d 2 8 , 1 sembolün ağırlığı 8 bittir.

Ölçüm Birimi 8 Bits Uygun İsim 1 Bayt:

1 byte \u003d 8 bit.

Bilgisayar metnindeki her sembolün ikili kodu 1 bellek baytı alır.

Bilgisayarın hafızasında hangi şekilde metin bilgisi sunulur?

Kodlama, her bir sembolün, 0 ila 255 arasında benzersiz bir ondalık kodu veya 00000000'den 1111111'den itibaren buna karşılık gelen ikili kodu doğrulmasıdır. Böylece, bir kişi karakterlerini tasarımlarına ve bilgisayarlarına göre ayırt eder.

Over-off sembolü kodlamanın rahatlığı açıktır, çünkü baytlar - hafızanın en küçük tarafsız kısmı ve bu nedenle işlemci, her karakterine metin işleme yaparak ayrı ayrı başvurabilir. Öte yandan, en çok çeşitli sembolik bilgiyi temsil edecek kadar 256 karakter yeterlidir.

Şimdi soru, her sembolle aynı sıraya girecek sekiz bit ikili kodu ortaya çıkar.

Bunun şartlı bir konu olduğu açıktır, birçok kodlama yöntemi ile gelebilirsiniz.

PC'ler için uluslararası standart ASCII tablosu haline geldi (Aski okuma) (Amerikan standart kod Bilgi alışverişi için).

Uluslararası standart sadece masanın ilk yarısıdır, yani. 0 (00000000), 127'ye kadar (01111111) sayıları olan semboller.

Seri numarası

Sembol

00000000 - 00011111


Onların işlevleri, ekranda metin çıkışı veya yazdırma işlemini kontrol etmek, ses sinyali, metin işaretlemesi vb.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


ASCII Kod tablosunun ikinci yarısı, kod sayfası (10.000.000.000.000.000 ile başlayan 128 kod) olarak adlandırılan, farklı seçeneklere sahip olabilir, her seçeneğin kendi numarasına sahip olabilir.


Dikkatinizi, harfin (büyük harf ve küçük harf), alfabetik sırayla düzenlenmesi durumunda dikkatinizi çekiyorum ve sayıların değerleri artan değerlerle sıralanır. Sembollerin düzenlenmesindeki sözlüksel siparişe bağlı olarak, alfabenin sıralı kodlama prensibi olarak adlandırılır.


En yaygın şu anda kodlanıyor. Microsoft Windows.CP1251'in azaltılmasıyla gösterilir.

90'ların sonundan bu yana, sembol kodlamanın standardizasyonu sorunu, Unicode adında yeni bir uluslararası standartların tanıtılmasıyla çözülür. . Bu, 16 bitlik bir kodlama, yani. İçinde, her sembolün 2 bayt bellek verilir. Tabii ki, hafızanın miktarı 2 kez işgal edildi. Ancak bu kod tablosu 65536 karaktere kadar etkinleştirmenize olanak sağlar. Unicode standardının tam olarak özellikleri, dünyanın mevcut, soyu tükenmiş ve yapay olarak oluşturulan tüm alfabelerini, birçok matematiksel, müzikal, kimyasal ve diğer semboller içerir.

Kelimelerin bilgisayarın hafızasına nasıl görüneceğini hayal etmek için ASCII tablosunu kullanmaya çalışalım.

Sözler

Hafıza

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Bir bilgisayara metin bilgisine girerken, karakterler (harfler, sayılar, karakterler), metin bilgisi kodlaması için ilgili standartlar sayfalarında gönderilen bir kod tablosundan oluşan çeşitli kod sistemleri kullanılarak kodlanır. Bu gibi tablolarda, her karakter bir onaltılık veya ondalık sayı sisteminde belirli bir sayısal kod atanır, yani kod tabloları sembollerin ve sayısal kodların görüntüleri arasındaki yazışmaları yansıtır ve metin bilgilerinin kodlanması ve kod çözülmesi için tasarlanmıştır. Bir bilgisayar klavyesini kullanarak metin bilgisini girerken, girilen her karakter kodlanmış, yani, metin bilgisi bilgisayar çıkış aygıtında (ekran, yazıcı veya çizici) görüntülendiğinde, bir sayısal koda dönüştürülür. sembolün sayısal kodu. Belirli bir sayısal kodun atanması, farklı ülkelerin ilgili kuruluşlar arasındaki anlaşmanın sonucudur. Halen, farklı ülkelerin ulusal alfabelerinin mektuplarını karşılayan tek tip bir evrensel kod tablosu yoktur.

Modern kod masaları, uluslararası ve ulusal bir parçayı içerir, yani Latin ve ulusal alfabe, sayılar, aritmetik işlemler ve noktalama işaretleri belirtileri, matematiksel ve kontrol sembolleri, sözde semboller içerir. Standart dayalı kod tablosunun uluslararası kısmı ASCII (Bilgi Değişimi için Amerikan Standart Kodu),kod tablosu sembollerinin ilk yarısını 0 ila 7 arasında sayısal kodlarla kodlar F 16,veya 0 ila 127 arasında bir ondalık sayı sisteminde. Aynı zamanda, 0 ila 20 16 (0? 32 10) arasındaki kodlar, kişisel bilgisayar klavyesinin işlev tuşları (F1, F2, F3, vb.) ile yerleşir. . İncirde. 3.1, Standart'a göre kod tablosunun uluslararası kısmını göstermektedir. ASCII.Tabloların hücreleri, ondalık ve hexterior sayı sisteminde buna göre numaralandırılmıştır.

Şekil 3.1. Kod tablosunun uluslararası kısmı (standart ASCII)ondalık (A) ve onaltılık (B) sayı sisteminde sunulan hücrelerin sayısı ile


Kod tablolarının ulusal kısmı, sembol seti tablosu olarak da adlandırılan ulusal alfabe kodlarını içerir. (Charset).

Halen, çeşitli işletim sistemleri tarafından kullanılan, önemli bir dezavantaj olan ve bazı durumlarda, sayısal sembol değerlerinin kod çözme işlemleriyle ilgili sorunlara yol açan çeşitli işletim sistemleri tarafından kullanılan Rus alfabesinin (Kirilik) harflerini desteklemek için birkaç kod tablosu (kodlama) vardır. . Sekmesinde. 3.1 Kod sayfalarının (standartların) adları, Kirillerin (kodlama) hangi kod tablolarında gösterilir.

Tablo 3.1.

Bilgisayarlarda Kiril Kodlama İlk Standartlarından biri standart KOI8-R'dir. Bu standardın kod tablosunun ulusal kısmı, Şekil 2'de gösterilmiştir. 3.2.

İncir. 3.2. Kod tablosunun ulusal kısmı standart KOI8-R


Halen, işletim sisteminde kullanılan metin bilgilerinin CP866 sayfasında bir kod tablosu da uygulanır. MS DOS.veya çalışma oturumu MS DOS.sirik kodlama için (Şekil 3.3, fakat).

İncir. 3.3. CP866 Sayfada (A) ve CP1251 sayfasında (B) 'nin Milli Bölümü Standart'ı kodlayan metin bilgilerinin ulusal kısmı


Halen, aile işletim sistemlerinde kullanılan karşılık gelen standardın CP1251 sayfasında yayınlanan bir kod tablosu, Kiril kodlaması için en yaygın olarak dağıtılmıştır. pencerelerfirmalar Microsoft.(Şek. 3.2, b).Tüm sunulan kod tablolarında, standart masa hariç Unicode,bir sembolü kodlamak için, 8 ikili deşarj verilir (8 bit).

Geçen yüzyılın sonunda, yeni bir uluslararası standart ortaya çıktı Unicode,bir karakterin çift baytlı bir ikili kod ile temsil edildiği. Bu standardın uygulanması, ulusal sembol kodlamalarının uyumluluğu sorununu çözmeyi mümkün kılan evrensel bir uluslararası standart geliştirmeye devam etmektir. Üzerinden bu standart Kodlanabilir 2 16 \u003d 65536 farklı karakterler. İncirde. 3.4 Standartın 0400 (Rus alfabesi) kodunu gösterir. Unicode.

İncir. 3.4. Unicode standart kod tablosu 0400


Örneğin, metin bilgilerinin kodlanması konusunda söylenenleri açıklayalım.

Örnek 3.1.

CP1251 kodlamasını kullanarak "bilgisayar" kelimesini bir ondalık ve onaltılık sayılar dizisi biçiminde kodlamak. Elde edilen kodu kullanırken CP866 kod tablolarında ve KOI8-P'de hangi karakterler görüntülenecektir.

CP1251 kodlama tablosuna göre onaltılık ve ikili kod "bilgisayar" kelimesinin dizileri (bkz. Şekil 3.3, b)Şöyle görünecek:

CP866 kodlamalarındaki ve KOI8-P'daki bu kod dizisi, aşağıdaki sembollere neden olur:

Rus konuşan metin belgelerini bir standarttan diğerine kodlamak için bir standarttan dönüştürmek için, özel programlar kullanılır - Dönüştürücüler. Dönüştürücüler genellikle diğer programlara gömülür. Bir örnek, tarayıcı programıdır - Internet Explorer. (Yani),yerleşik bir dönüştürücüye sahip. Tarayıcı programı içeriği görüntülemek için özel bir programdır. internet sayfalarıküresel olarak bilgisayar ağı İnternet. Örnek 3.1'de elde edilen karakterlerin ekranlarının sonuçlarını onaylamak için bu programı kullanıyoruz. Bunu yapmak için aşağıdaki adımları izleyin.

1. Not Defteri programını başlatın (Not Defteri).İşletim sisteminde dizüstü bilgisayar programı Windows XP.komutu kullanmaya başlar: [Düğme Başlat - Standart Programlar - Not Defteri]. Açılan Notepad program penceresinde, köprü metni belge işaretleme dilinin sözdizimini kullanarak "Bilgisayar" kelimesini yazın - HTML (Hyper Metin İşaretleme Dili).Bu dil internette belgeler oluşturmak için kullanılır. Metin şöyle görünmelidir:

Bilgisayar

nerede

ve

Etiketler (Özel Tasarımlar) Dili Htmlbaşlıkları işaretlemek için. İncirde. 3.5 bu eylemlerin sonucunu sundu.

İncir. 3.5. Not Defteri penceresinde metin göstergesi


Bu metni komutu çalıştırarak kaydedin: [Dosya - Kaydet ...] Bilgisayarın uygun klasöründe, metin dosyasını kaydettiğinizde, adını - yaklaşık, dosya uzantısı ile atarsınız. HTML.

2. Programı başlatın Internet Explorer,komuta komutuna göre: [Düğme Başlat - Programlar - Internet Explorer].Programı başlattığınızda, bir pencere Şek. 3.6.

İncir. 3.6. Çevrimdışı Erişim Penceresi


Düğmeyi seçin ve etkinleştirin Çevrimdışıbu, bir bilgisayarı küresel bir internete bağlamaz. Programın ana penceresi görünecektir. Microsoft Internet Explorer,Şekil 2'de sunulmuştur. 3.7.

İncir. 3.7. Temel microsoft penceresi Internet Explorer.


Aşağıdaki komutu uygulayın: [Dosya - Aç], bir pencere, dosya adını belirlemek ve düğmeyi tıklamak istediğiniz (Şekil 3.8) görünecektir. TAMAM MI Veya düğmeye basın Genel Bakış ...ve yaklaşık. HTML dosyasını bulun.

İncir. 3.8. Pencere "açık"


Ana pencere İnternet Programları Explorer, Şekil 2'de gösterilen görünümü alacaktır. 3.9. "Bilgisayar" kelimesi pencerede belirir. Sonra, programın üst menüsünü kullanarak Internet Explorer,aşağıdaki komutu yürüteceğiz: [View - Kodlama - Kiril (DOS)].Program penceresinde bu komutu yürüttükten sonra Internet ExplorerŞekilde gösterilen semboller görüntülenecektir. 3.10. Takım yürütürken: [View - Kodlama - Kiril (KOI8-R)]program penceresinde Internet Explorer.Şekilde gösterilen semboller görüntülenecektir. 3.11.

İncir. 3.9. CP1251'i kodlarken görüntülenen semboller


İncir. 3.10. CP1251 kodlamasına gönderilen kod dizisi için CP866 kodlaması açıkken görüntülenen semboller


İncir. 3.11. CP1251 kodlamasına gönderilen kod sırası için KOO8-P kodlaması açıkken görüntülenen semboller


Böylece program kullanılarak elde edilir Internet Explorer.karakterlerin dizileri, CP866 kod tabloları ve KOI8-P'de Örnek 3.1'de elde edilen karakterlerin sekanslarıyla çakışır.

3.2. Grafik Bilgilerini Kodlama

Çizimler, fotoğraflar, slaytlar, hareketli görüntüler (animasyon, video), şemalar, çizimler, bir bilgisayar kullanılarak oluşturulabilir ve düzenlenebilir. Halen, grafik bilgisini işlemek için yeterince çok sayıda uygulama programı var, ancak hepsi üç tür bilgisayar grafikleri uygular: raster, vektör ve fraktal.

Bilgisayar monitörü ekranındaki grafik görüntüsünü yakından düşünürseniz, görebilirsiniz. çok sayıda Çok renkli noktalar (pikseller - İngilizce'den. piksel,eğitimli ot resim öğesi -görüntünün bir elemanı), bir araya getirilir ve bu grafik görüntüsünü oluşturur. Bundan itibaren sonuçlandırabiliriz: Bilgisayardaki grafik görüntüsü kesinlikle kodlanır ve bir grafik dosyası olarak gösterilmelidir. Dosya, bilgisayardaki organizasyonun ve depolamanın ana yapısal birimidir ve bu durumda bu durumdaki bu noktaları monitör ekranında nasıl gönderileceği hakkında bilgi içermelidir.

Vektör grafikleri temelinde oluşturulan dosyalar, matematiksel bağımlılıklar (doğrusal bağımlılıkları tanımlayan matematiksel işlevler) ve ilgili verileri, bilgisayar monitörüne çıkardığında hat segmentlerini (vektörler) kullanarak bir nesnenin görüntüsünün nasıl oluşturulacağı hakkında bilgi içerir. ekran.

Raster grafikler temelinde oluşturulan dosyalar, her bir resim noktasının veri depolanmasını varsayar. Raster grafiklerini görüntülemek için karmaşık bir matematiksel hesaplamalar gerekmez, her görüntü noktası (koordinatları ve rengi) hakkında veri elde etmek ve bunları bilgisayar monitörü ekranında görüntülemek yeterlidir.

Görüntüyü kodlama işleminde, uzamsal örneklemesi gerçekleştirilir, yani görüntü ayrı noktalara ayrılır ve her nokta renk koduna (Sarı, Kırmızı, Mavi vb.) Ayarlanır. Her renk grafik görüntüsünün her bir noktasının kodlanması için, keyfi renklerin ana bileşenleri üzerindeki ayrıştırma prensibi, üç ana renk kullanır: kırmızı (İngilizce kelime Kırmızımektubu belirtir İçin),yeşil (Yeşil,mektubu belirtir G)mavi (MAVİ,kundaklamak İÇİNDE).İnsan gözü tarafından algılanan noktaların herhangi bir rengi, üç ana rengin - kırmızı, yeşil ve mavi olan katkı maddesi (orantılı) ilavesi (karıştırılması) ile elde edilebilir. Böyle bir kodlama sistemi renk sistemi denir RGB.Dosyalar grafik görüntülerirenk sisteminin uygulandığı RGB,görüntünün her bir noktasını bir renk üçüz biçiminde temsil eder - üç sayısal değer R, G.ve İÇİNDE,kırmızı, yeşil ve mavi yoğunluğuna karşılık gelir. Bir grafik görüntüsünü kodlama işlemi, çeşitli kullanılarak gerçekleştirilir. teknik araçlar (tarayıcı, dijital kamera, dijital video kamera vb.); Sonuç olarak, bir raster görüntüsü elde edilir. Renkli ekran görüntüleri renk monitör ekranında oynatırken, bu görüntünün her bir noktasının (pikselinin) rengi, üç ana rengi karıştırılarak elde edilir. R, G. ve B.

Kalite raster görüntü İki ana parametre ile belirlenir - çözünürlük (yatay ve dikey noktalar sayısına göre) ve kullanılan renk paleti (görüntünün her bir noktası için belirtilen renk sayısı). Çözünürlük, puanın sayısını yatay ve dikey olarak, örneğin 800 puan 600 puan göstererek belirlenir.

Raster görüntü noktası tarafından tanımlanan renk sayısı ile noktanın rengini saklamak için tahsis edilmesi gereken bilgi miktarı arasında, ilişkiyle belirlenen bir bağımlılık vardır (Formula R. Hartley):

nerede BEN. - Bilgi miktarı; N -renk ayar noktası sayısı.

Noktanın renginin saklanması için gereken bilgi miktarı da renk derinliği veya renk kalitesi olarak da adlandırılır.

Yani, görüntü noktası için tanımlanan renk sayısı, N \u003d256, ardından formül (3.1) uyarınca depolama (renk derinliği) için gerekli bilgi miktarı eşit olacaktır. BEN. \u003d 8 bit.

Görüntülemek için bilgisayarlarda grafik Bilgisi Çeşitli grafik monitör çalışma modları kullanılır. Burada, monitörün grafiksel çalışma moduna ek olarak, monitör ekranının koşulsal olarak, satırdaki 80 karakterden oluşan 25 satıra bölündüğü bir metin modu da bulunduğundan da belirtilmelidir. Bu grafik modlar, monitör ekranının çözünürlüğü ve renk çoğaltılması (renk derinliği) ile karakterize edilir. İşletim sisteminde grafik monitör ekranı modunu ayarlamak için MS Windows XPkomutu çalıştırmalısınız: [Düğme Başlat - Kurulum - Kontrol Paneli - Ekran]. "Özellikler: Ekran" iletişim kutusunda (Şek. 3.12), "Parametreler" sekmesini seçmeli ve uygun ekran çözünürlüğünü seçmek için ekran çözünürlüğü kaydırıcısını kullanarak (600 puan başına 800, 1024 ila 768 puan, vb.). Renk oluşturma listesini kullanarak, renk derinliğini - "en yüksek (32 bit)", "ortalama (16 bit)", vb. Seçebilirsiniz, her görüntü noktası tarafından belirlenen renk sayısı ile sırasıyla 2'ye eşit olacaktır. 32 (4294967296), 2 16 (65536), vb.

İncir. 3.12. İletişim kutusu "Özellikler: Ekran"


Grafik modlarının her birini uygulamak için, monitör ekranı bilgisayar video belleğinin belirli bir bilgi hacmini gerektirir. Gerekli bilgi hacmi video hafızası (V)ilişkiden belirlendi

nerede -monitör ekranında görüntü noktaları sayısı (K \u003d A · b); FAKAT -monitör ekranındaki yatay nokta sayısı; İÇİNDE -monitör ekranında dikey olarak puan sayısı; BEN. - Bilgi miktarı (renk derinliği).

Bu nedenle, monitör ekranı 1024 ila 768 puan ve 65.536 renkten oluşan bir paleti varsa, formül (3.1) uyarınca renk derinliği i \u003d log 2 65 538 \u003d 16 bit, görüntü noktaları sayısı olacak: K \u003d.1024 x 768 \u003d 786432 ve (3.2) uyarınca gerekli bilgi belleğinin gerekli bilgi hacmi eşit olacaktır.

V \u003d.786432 · 16 bit \u003d 12582912 bit \u003d 1572864 byte \u003d 1536 KB \u003d 1.5 MB.

Sonuç olarak, monitörün en önemli özelliklerinin listelenen özelliklerine ek olarak, ekranın ve görüntü noktalarının geometrik boyutları olduğu belirtilmelidir. Ekranın geometrik boyutları, diyagonal çapraz değerle belirtilir. Monitörlerin köşegeni inç olarak ayarlanır (1 inç \u003d 1 "\u003d 25.4 mm) ve 14", 15 ", 17", 21 "vb. Monitörlerin üretimi için modern teknolojilerde bulunabilir. Görüntü noktası boyutu 0,22 mm'ye eşittir.

Böylece, her monitör için, diyagonal boyutu ve görüntü noktasının boyutu ile belirlenen ekranın mümkün olan maksimum çözünürlüğü vardır.

Kendi kendine yürütme için alıştırmalar

1. Programı kullanma Ms excelkod tablolarını ASCII, CP866, CP1251, KOI8-P Türlerine dönüştürün: Tabloların ilk sütununun hücrelerinde, alfabetik sırayla yazın, ardından ikinci el hücrelerinde, latin ve kirilin küçük harfleri. Sütun - Ondalık sayı sistemindeki harf kodlarına karşılık gelen, hücrede üçüncü sütun, onaltılık bir sayı sistemindeki karşılık gelen kodlardır. Kodlar ilgili kod tablolarından seçilmelidir.

2. Ondalık ve onaltılık sayı sisteminde sayılar dizisi olarak kodlama ve kaydedin Aşağıdaki kelimeler:

a) Internet Explorer,b) Microsoft Office;içinde) Corel çizgisi.

Önceki alıştırmada elde edilen yükseltilmiş bir ASCII kodlama tablosu kullanılarak üretmek için kodlama.

3. Yükseltilmiş bir kodlama tablosu kullanılarak kod çözülmesi KOI8-P HexadeMimal sayı sisteminde kaydedilen sayı dizisi:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. CP866 kodlamaları ve KOI8-P kullanırken, CP1251 kodlamasında kaydedilen "cybernetik" kelimesi nasıl yapılır? Sonuçları programla kontrol edin Internet Explorer.

5. Şekil 2'de gösterilen kod tablosunu kullanma. 3.1 fakat,İkili sayı sisteminde kaydedilen aşağıdaki kod dizilerinin kodunu çözün:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. CP866 kod tabloları, CP1251, Unicode ve KOI8-P kullanılarak kodlanan "Ekonomi" kelimesinin bilgi hacmini belirleyin.

7. 12x12 renkli görüntü taraması, cm sonucu olarak elde edilen dosyanın bilgi hacmini belirleyin. Bu görüntüyü tararken kullanılan tarayıcının çözünürlüğü 600 dPi'dir. Tarayıcı, görüntü renk derinliğini 16 bit olarak ayarlar.

Tarayıcıyı Çözme 600 DPI (DOTPER İNÇ -İnç Noktaları), 1 inç uzunluğundaki bir bölümde böyle bir çözünürlükle tarayıcıyı tarayıcısını belirler. 600 puanı ayırt eder.

8. Renkli bir görüntüyü A4 taramaktan kaynaklanan bilgi dosyasını belirleyin. Bu görüntüyü tararken kullanılan tarayıcının çözünürlüğü 1200 dpi'dir. Tarayıcı, 24 bit'in renk noktası renk derinliğini ayarlar.

9. Paletteki renk sayısını 8, 16, 24 ve 32 bit renk derinliğinde belirleyin.

10. Monitör ekranının (640 ila 480, 800 ila 600, 1024 ila 768, 800 ila 600, 1024 ila 768, 800 ila 600, 1024 ila 768, 800 ila 600, 1024 ila 768 ve 1280 için gerekli video belleğini belirleyin. Tabloyu azaltmak için sonuçlar. B geliştirmek Ms excelhesaplamaların otomasyonu programı.

11. Bilgisayar, 2 KB bellek görüntüsünün altına vurgulanırsa, bir görüntüyü 32 ila 32 puan ile saklamak için kullanılmasına izin verilen maksimum renk sayısını belirleyin.

12. Monitör ekranının, köşegen uzunluğu 15 "olan ve görüntü noktasının boyutu 0,28 mm'dir.

13. Monitörün grafik modları nelerdir 64 MB hacmi ile video belleği sağlayabilir?

Gömme

I. Bilgi Kodlama Tarihi .................................... ..3

II. Kodlama Bilgileri .................................................. 4

III. Metin bilgilerinin kodlanması .................................. 4

İv. Kodlama Tabloları Türleri .................................................. .. ... 6

V. Metin bilgisi sayısının hesaplanması .......................... 14

Kullanılan Literatür Listesi ...............................................

BEN. . Bilgi kodlama geçmişi

İnsanlık, ilk göründüğü andan itibaren metnin şifrelemesini (kodlaması) kullanır. gizli bilgi. İşte, insan düşüncesinin gelişmesinin çeşitli aşamalarında icat edilen metnin kodlanması için çeşitli teknikler:

Cryptography, metnin başlatılmamış kişiler için anlaşılmaz hale getirmek için bir harf değişim sistemi olan bir degradedir;

Mors Alfabe veya her bir harfin veya işaretinin kısa temel parsellerin birleşimi ile temsil edildiği düzensiz telgraf kodu elektrik akımı (noktalar) ve üç katlı sürenin temel parselleri (DASH);

slurgo - işitme bozukluğu olan insanlar tarafından kullanılan jest dili.

Bilinen ilk şifreleme yöntemlerinden biri, Roma İmparatoru Julia Caesar'ın adıdır (MÖ 21. yüzyıl). Bu yöntem, şifreli metnin her bir harfinin, alfabenin orijinal harften sabit karaktere kadar yer değiştirmesi ve alfabe bir daire içinde okunur, yani, I harfinden sonra, alfabe okunur. kabul ediyorum. Böylece, "bayt" kelimesi, sağdaki iki karakter "GVF" kelimesi tarafından kodlanır. Bu kelimenin tersi çözme işlemi - şifreli harflerin her birinin solundaki ikincisine değiştirilmesi gerekir.

II. Bilgi Kodlama

Kod, önceden belirlenmiş bazı konseptlerin kaydını (veya iletmek) bir dizi şartlı tanımlama (veya sinyaller).

Bilgi kodlaması, belirli bir bilgi sunumunu oluşturma sürecidir. Daha dar bir anlamda, "Kodlama" terimi genellikle bir bilgi sunumundan diğerine geçişi, depolama, şanzıman veya işleme için daha uygun hale getirir.

Genellikle, her görüntü kodlaması (bazen de derlerler - şifrelenmiş) ayrı bir işareti temsil eder.

İşaret, birbirinden başka bir öğe kümesinin elemanıdır.

Daha dar bir anlamda, "Kodlama" terimi, bir formun bir formundan bir formdan diğerine, depolama, iletim veya işleme için daha uygun bir şekilde geçişi anlar.

Bilgisayarda, metin bilgilerini işleyebilirsiniz. Bilgisayara girerken, her harf belirli bir sayı ile kodlanır ve harici bir cihaz (ekran veya yazdırma) görüntülenirken, bu sayıların algılanması için harflerin görüntüleri oluşturulur. Harfler ve sayılar arasındaki yazışma, karakterlerin kodlanması denir.

Kural olarak, bilgisayardaki tüm numaralar sıfırlar ve birimler kullanılarak sunulur (ve insanlara aşina olduğu gibi on rakam değil). Başka bir deyişle, bilgisayarlar genellikle bir ikili sayı sisteminde çalışır, çünkü işleme cihazları çok daha kolay elde edilir. Bilgisayara sayılar girerek ve bir kişi tarafından okumaya geri çekilmesi normal ondalık formda gerçekleştirilebilir ve gerekli tüm dönüşümler bilgisayarda çalışan programlar gerçekleştirir.

III. Kodlama Metin Bilgileri

Aynı bilgiler birkaç formda (kodlanmış) sunulabilir. Bilgisayarların görünümüyle, ayrı bir kişinin ve insanlığın bir bütün olarak sahip olduğu her türlü bilgiyi kodlamak gerekiyordu. Ancak, bilgiyi kodlama görevini çözmek için, insanlık bilgisayarlardan önce uzun sürdü. İnsanlığın büyük başarıları - yazma ve aritmetik - bir konuşma kodlama sistemi ve sayısal bilgiden başka bir şey yoktur. Bilgiler asla saf formunda görünmedi, bir şekilde kodlanmış, her zaman bir şekilde sunulur.

İkili Kodlama, bilgi sunmanın ortak yollarından biridir. Bilgisayar makinelerinde, robotlarda ve sayısal kontrol makinelerinde, kural olarak, cihazın bir davası olan tüm bilgileri, ikili alfabenin kelimeleri olarak kodlanır.

60'ların sonlarından itibaren, bilgisayarlar metin bilgisini işlemek için daha fazla ve daha fazla hale geldi ve şimdi ana paylaşım kişisel bilgisayarlar Dünyada (ve çoğu zaman), metin bilgilerinin işlenmesi ile meşgul. Bilgisayardaki tüm bu bilgi türleri ikili kodda sunulur, yani alfabe iki güç ile kullanılır (sadece iki karakter 0 ve 1). Bunun nedeni, bir elektrik darbesi dizisi formunda bilgi sunmanın uygun olması nedeniyledir: darbe eksik (0), dürtü (1).

Böyle bir kodlama ikili olarak denir ve sıfır ve birimlerin mantıksal dizileri makine dilidir.

Bilgisayarın bakış açısına göre, metin bireysel karakterlerden oluşur. Sadece harfler (sermaye veya küçük harf, latince veya rusça) değil, aynı zamanda sayılar, noktalama işaretleri, özel karışımlar "\u003d", "(", ", vs. ve hatta (özel dikkat!) Kelimeler arasında boşluklar.

Klavyeyi kullanarak metinler bilgisayarın hafızasına girilir. Harfler, sayılar, noktalama işaretleri ve diğer karakterler tuşlara yazılır. İÇİNDE veri deposu İkili kodda düştüler. Bu, her sembolün 8 bitlik bir ikili kod olduğu anlamına gelir.

Geleneksel olarak, bir karakteri kodlamak için, bilgi miktarı 1 bayt'a eşit, yani i \u003d 1 byte \u003d 8 bit. Muhtemel olayların sayısını ve bilgilerinin miktarını bağlayan bir formülün yardımı ile, kaç tane farklı karakterin kodlanabileceğini (sembollerin olası olayların yanı) kodlanabileceğini hesaplayabilirsiniz: K \u003d 2 i \u003d 2 8 \u003d 256, IE, metinsel bilgilerin sunumları için 256 karakter gücüyle alfabeyi kullanabilirsiniz.

Böyle bir sayıda karakter, Rus ve Latin alfabesinin, sayıların, işaretlerin, grafik sembollerinin vb. Bütün harf ve küçük harfler de dahil olmak üzere metin bilgisi sunmak için yeterlidir.

Kodlama, her bir sembolün, 0 ila 255 arasında benzersiz bir ondalık kodu veya 00000000'den 1111111'den itibaren buna karşılık gelen ikili kodu doğrulmasıdır. Böylece, bir kişi karakterlerini tasarımlarına ve bilgisayarlarına göre ayırt eder.

Over-off sembolü kodlamanın rahatlığı açıktır, çünkü baytlar - hafızanın en küçük tarafsız kısmı ve bu nedenle işlemci, her karakterine metin işleme yaparak ayrı ayrı başvurabilir. Öte yandan, en çok çeşitli sembolik bilgiyi temsil edecek kadar 256 karakter yeterlidir.

Bilgisayar ekranındaki sembolün çıktısı sırasında, ters işlem yapılır - kod çözülür, yani sembol kodu görüntüsüne dönüştürülür. Belirli bir kod sembolünün atanması, kod tablosunda sabitlenmiş bir anlaşma sorunudur.

Şimdi soru, her sembolle aynı sıraya girecek sekiz bit ikili kodu ortaya çıkar. Bunun şartlı bir konu olduğu açıktır, birçok kodlama yöntemi ile gelebilirsiniz.

Bilgisayar alfabesinin tüm sembolleri 0 ila 255 arasında numaralandırılmıştır. Sayı bile, 00000000'den 1111111'den sekiz bit ikili koduna karşılık gelir. Bu kod, sadece ikili sayı sistemindeki sembolün sekans numarasıdır.

İv. . Kodlama tabloları türleri

Bilgisayar alfabesinin tüm karakterlerinin sekans numaralarına uygun olarak yapıldığı bir tablo, kodlama tablosu olarak adlandırılır.

İçin farklı şekiller Eum, çeşitli kodlama tablolarını kullanır.

Uluslararası bir standart olarak, ASCII Kod tablosu benimsenmiştir (Bilgi Değişimi için Amerikan Standart Kodu - Bilgi Değişimi için Amerikan Standart Kodu), Sayısal Kodlardaki Sayısal Kodlarla Numar Kodları (0 ila 32 arasındaki kodlar) Semboller, ancak fonksiyon tuşları).

ASCII Kod tablosu iki bölüme ayrılmıştır.

Uluslararası standart sadece masanın ilk yarısıdır, yani. 0 (00000000), 127'ye kadar (01111111) sayıları olan semboller.

ASCII kodlayan masa yapısı

Seri numarası Kodu Sembol
0 - 31 00000000 - 00011111

0'dan 31'e kadar olan sayılarla semboller denir.

Onların işlevleri, ekranda metin çıkışı veya yazdırma işlemini kontrol etmek, ses sinyali, metin işaretlemesi vb.

32 - 127 0100000 - 01111111

Masanın standart kısmı (İngilizce). Bu, Latin alfabesinin, ondalık sayıları, noktalama işaretlerinin, her türlü parantez, ticari ve diğer karakterlerin küçük harf ve büyük harfleri içerir.

Sembol 32 - Uzay, yani. Metinde boş pozisyon.

Diğerleri belirli işaretlerle yansıtılır.

128 - 255 10000000 - 11111111

Masanın alternatif kısmı (Rusça).

ASCII Kod tablosunun ikinci yarısı, kod sayfası (10.000.000.000.000.000 ile başlayan 128 kod) olarak adlandırılan, farklı seçeneklere sahip olabilir, her seçeneğin kendi numarasına sahip olabilir.

Kod sayfası öncelikle Latin dışındaki ulusal alfabeleri barındırmak için kullanılır. Rus ulusal kodlamalarında, Rus alfabesinin sembolleri masanın bu kısmına yerleştirilir.

ASCII kodlarının ilk yarısı

Kodlama tablosunda, harflerin (büyük harf ve küçük harf) alfabetik sırayla düzenlenmesi gerçeğine çekilir ve sayıların değerleri artırılarak sipariş edilir. Sembollerin düzenlenmesindeki sözlüksel siparişe bağlı olarak, alfabenin sıralı kodlama prensibi olarak adlandırılır.

Rus alfabesinin harfleri için seri kodlama ilkesi de gözlenir.

ASCII kodlarının ikinci yarısı

Ne yazık ki, şu anda beş farklı Kiril kodlaması var (KOI8-P, Windows. MS-DOS, Macintosh ve ISO). Bu nedenle, problemler genellikle Rus metninin bir bilgisayardan diğerine transferi ile ortaya çıkıyor yazılım sistemi başka bir.

Kronolojik olarak, bilgisayarlarda Rus harflerini kodlayan ilk standartlardan biri KOI8 ("bilgi alışverişi kodu, 8 bit") idi. Bu kodlama, 70'lerde AB AB serisinin bilgisayarları üzerindeki ve 80'li yılların ortalarından UNIX işletim sisteminin ilk Ruslu versiyonlarında kullanılmaya başladı.

90'ların başından itibaren, MS DOS işletim sisteminin egemenliğinin zamanı, CP866 kodlama kalır ("CP" "kod sayfası", "kod sayfası" anlamına gelir).

Mac OS işletim sistemini çalıştıran Apple bilgisayarlar kendi MAC kodlamalarını kullanır.

Ayrıca, Uluslararası Standartlar Örgütü, ISO), Rus dili için standart olarak ISO 8859-5 olarak adlandırılan başka bir kodlamayı onayladı.

En yaygın şu anda CP1251'in azaltılmasıyla gösterilen Microsoft Windows kodlamasıdır. Microsoft tarafından tanıtıldı; İşletim sistemlerinin (OS) (OS) (OS) 'nin yaygın yayılmasını ve Rusya Federasyonu'ndaki bu şirketin diğer yazılım ürünlerini dikkate alarak yaygınlaşmıştır.

90'ların sonundan bu yana, sembolik kodlamanın standardizasyonu sorunu, Unicode adlı yeni bir uluslararası standartların tanıtılmasıyla çözülür.

Bu, 16 bitlik bir kodlama, yani. İçinde, her sembolün 2 bayt bellek verilir. Tabii ki, hafızanın miktarı 2 kez işgal edildi. Ancak bu kod tablosu 65536 karaktere kadar etkinleştirmenize olanak sağlar. Unicode standardının tam olarak özellikleri, dünyanın mevcut, soyu tükenmiş ve yapay olarak oluşturulan tüm alfabelerini, birçok matematiksel, müzikal, kimyasal ve diğer semboller içerir.

Bilgisayar hafızasında dahili kelime görünümü

aSCII tablosunu kullanma

Bazen, başka bir bilgisayardan elde edilen, Rus alfabesinin harflerinden oluşan metnin okunamıyor - bazı "Abrakadabra" monitör ekranında görünebilir. Bu, bilgisayarlar, Rus dilinin sembollerinin farklı kodlamalarını kullandığı için olur.

Böylece, her kodlama kendi kod tablosu ile ayarlanır. Tablodan görülebileceği gibi, çeşitli kodlamalardaki aynı ikili kod çeşitli karakterlere uygun olarak yapılır.

Örneğin, CP1251 kodlamasında sayısal kodlar 221, 194, 204 dizisi "Bilgisayar" kelimesini oluştururken, diğer kodlamalarda anlamsız bir karakter kümesi olacaktır.

Neyse ki, çoğu durumda, kullanıcının, uygulamalara yapılan özel dönüştürücü programları yaptıkları için, metin belgelerinin kodunu çözmemelidir.

V. . Metin bilgisi sayısının hesaplanması

Görev 1: Koo8-P ve CP1251 kodlama tablolarını kullanarak "Roma" kelimesini temizleyin.

Karar:

Görev 2: Her karakterin bir bayt tarafından kodlandığını göz önünde bulundurarak, aşağıdaki cümlenin bilgi hacmini takdir edin:

"En dürüst kuralların amcam,

Şaka yapmadığında,

Kendini zorladı

Ve icat edilemeyecek daha iyiydi. "

Karar: Bu cümlede, noktalama işaretleri, tırnak ve boşluklar verilen 108 karakter. Bu miktarı 8 bit ile çarpın. 108 * 8 \u003d 864 bit alırız.

Görev 3: İki metin aynı sayıda karakter içerir. İlk metin, Rusça'da kaydedilir ve ikinci, alfabenin 16 karakterden oluşan Naguri kabilesinin dilinde. Kimin metni daha fazla bilgi taşıyor?

Karar:

1) i \u003d k * a (metnin bilgi hacmi, bir sembolün bilgi ağırlığına karakter sayısının ürününe eşittir).

2) çünkü Her iki metin de aynı sayıda karaktere sahiptir (K), daha sonra fark, tek bir alfabe sembolünün (a) bilişimine bağlıdır.

3) 2 A1 \u003d 32, yani A 1 \u003d 5 bit, 2 A2 \u003d 16, yani. A 2 \u003d 4 bit.

4) I 1 \u003d K * 5 bit, I 2 \u003d K * 4 bit.

5) Öyleyse, Rusça kaydedilen metin 5/4 kat daha fazla bilgidir.

Görev 4: 2048 karakter içeren bir mesajın hacmi MB'nin 1/512 bölümüne aittir. Alfabenin gücünü belirleyin.

Karar:

1) i \u003d 1/512 * 1024 * 1024 * 8 \u003d 16384 bit - bilgi bilgisi bitlere aktarıldı.

2) a \u003d i / k \u003d 16384/1024 \u003d 16 bit - bir alfabe sembolü için hesaplar.

3) 2 * 16 * 2048 \u003d 65536 karakter - kullanılan alfabenin gücü.

Görev 5: Lazer yazıcı Canon LBP saniyede ortalama 6.3 Kbps'de basar. Bir sayfada ortalama 45 satırda, 70 karakter (1 sembol - 1 bayt), bir sayfada olduğu biliniyorsa, 8 sayfalık bir belge yazdırmanız gerekir.

Karar:

1) Biz 1 sayfada yer alan bilgi miktarını buluruz: 45 * 70 * 8 bit \u003d 25200 bit

2) 8 sayfadaki bilgi miktarını bulun: 25200 * 8 \u003d 201600 bit

3) tek bir ölçüm birimlerine yol açar. Bu Mbity için bitlere çeviriyoruz: 6.3 * 1024 \u003d 6451.2 bit / s.

4) Baskı Süresi Bulun: 2016: 6451.2 \u003d 31 saniye.

Bibliyografi

1. Ageev v.m. Bilgi teorisi ve kodlama: Ölçüm bilgilerinin örneklenmesi ve kodlanması. - m.: Mai, 1977.

2. KUZMIN I.V., Kedrus V.A. Bilgi ve kodlama teorisinin temelleri. - Kiev, Okul Yardımcısı, 1986.

3. Metin Şifrelemesi / D.m. Zlatopolsky. - m.: Temiz havuzlar, 2007 - 32 s.

4. Ugrinovich N.D. Bilişim I. bilişim teknolojisi. 10-11 sınıf / N.D. Vugrinovich için öğretici. - m.: Binom. Bilgi Laboratuvarı, 2003. - 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n.

Ders 2'de kendi kendine çalışma için malzeme 2

Kodlama ASCII.

ASCII Kodlama Masası (ASCII - Bilgi Değişimi için Amerikan Standart Kodu - Exchange Bilgi için Amerikan Standart Kodu).

Toplamda, ASCII kodlama tablosunu kullanarak (Şekil 1), 256 farklı karakteri kodlayabilirsiniz. Bu tablo iki bölüme ayrılmıştır: ana (OOH kodları ile 7FH'ye kadar olan) ve ek (80H'den FFH'ye, H harfinin HexadeMimal sayı sistemine kodları belirtir).

Resim 1

Bir karakteri tablodan kodlamak için 8 bit (1 bayt) verilir. Metin bilgilerini işlerken, bir bayt, bazı sembollerin bir kodunu içerebilir - harfler, sayılar, noktalama işareti, eylem işareti vb. Her karakter bir tamsayı biçiminde koduna karşılık gelir. Aynı zamanda, tüm kodlar, kodlama adı verilen özel tablolarda toplanır. Yardımlarıyla, sembol kodu monitör ekranındaki görünür görünümüne dönüştürülür. Sonuç olarak, bilgisayarın hafızasındaki herhangi bir metin, sembol kodlarıyla bayt dizisi olarak gösterilir.

Örneğin, merhaba kelime! aşağıdaki gibi kodlanır (Tablo 1).

tablo 1

İkili kod

Kod Ondalık

Şekil 1, standart (İngilizce) ve uzatılmış (Rusça) olan ASCII'yi kodlayan sembolleri göstermektedir.

ASCII tablosunun ilk yarısı standartlaştırılmıştır. Kontrol kodları içerir (00H ila 20H ve 77H). Tablodaki bu kodlar, metin öğelerine ait olmadıkları için ele geçirilir. Noktalama işaretleri ve matematiksel işaretlerin işaretleri vardır: 2LH -!, 26H - & 28H - (, 2BH - +, ..., geniş ve küçük latin harfleri: 41H - A, 61H - a.

Tablonun ikinci yarısı, ulusal yazı tipleri, psödografik sembolleri, hangi masalardan, özel matematiksel işaretler inşa edilebilir. Kodlama tablosunun alt kısmı, uygun sürücüler - kontrol yardımcı programları kullanılarak değiştirilebilir. Bu teknik, birkaç yazı tipi ve kulaklıklarını uygulamanıza olanak sağlar.

Her sembol kodu için ekran, sembol görüntüsünü göstermelidir - sadece bir dijital kod değil, karşılık gelen resim, her bir sembolün kendi formuna sahip olduğundan. Her karakterin formunun şekli, özel bir ekran belleğinde depolanır - bir işaretogeneratör. Örneğin, Ekran Ekran IBM PC'deki sembolü vurgulayın, örneğin, sembolik bir matris oluşturan noktaları kullanarak gerçekleştirilir. Böyle bir matrisdeki her piksel bir görüntü elemanıdır ve parlak veya karanlık olabilir. Karanlık nokta, 0 numaralı, parlak (parlak) - 1 ile kodlanır. Matris alanındaki matris alanındaki karanlık pikselleri ve parlak yıldız işareti, sembolün şeklini grafiksel olarak canlandırabilirsiniz.

Farklı ülkelerdeki insanlar, yerli Zykov'un sözlerini kaydetmek için semboller kullanır. Günümüzde, sistemler de dahil olmak üzere çoğu uygulama e-posta Ve web tarayıcıları saf 8 bit, yani, ISO-8859-1'e göre 8 bit karakterleri gösterebilir ve doğru şekilde algılayabilirler.

Dünyada 256'dan fazla karakter var (Kiril, Arapça, Çince, Japonca, Korece ve Tay dillerini de düşünüyorsanız) ve tüm yeni ve yeni semboller görünür. Ve birçok kullanıcı için aşağıdaki boşlukları oluşturur:

Aynı belgedeki çeşitli kodlama kümelerinin karakterlerini kullanmak mümkün değildir. Her metin belgesi kendi kodlama kümesini kullandığından, otomatik metin tanıma ile büyük zorluklar var.

Yeni karakterler görünür (örneğin: Euro), bunun bir sonucu olarak, ISO-8859-1 standardına çok benzer olan yeni bir ISO-8859-15 standardı geliştiriyor. Fark şu şekildedir: Eski para birimlerinin belirlenmesi için semboller, yeni görünen karakterler için yer açmak için şu anda kullanılmayan ISO-8859-1 kodlama tablosundan çıkarılır (Euro gibi). Sonuç olarak, disklerdeki kullanıcılar aynı belgeleri azaltabilir, ancak farklı kodlamalarda. Bu sorunların çözümü, evrensel kodlama veya Unicode denilen tek bir uluslararası kodlama kümesinin benimsenmesidir.

Kodlama Unicode.

Standart, 1991 yılında "Unicode Consortium" (ENC. Unicode Consortium, Unicode Inc.) tarafından kar amacı gütmeyen kuruluşlar tarafından önerilmiştir. Bu standardın uygulanması, çok kodlamanızı sağlar büyük sayı Farklı yazılı dillerden semboller: Çince karakterler, matematiksel semboller, Yunan alfabesinin harfleri, Latin ve Kiril ve Kiril, Unicode belgelerinde bitişik olabilir ve gereksiz anahtarlama kodu sayfaları olur.

Standart iki ana bölümden oluşur: evrensel bir karakter kümesi (UCS, evrensel karakter kümesi) ve bir kodlama ailesi (İngilizce UTF, Unicode dönüşüm formatı). Evrensel karakter kümesi, kodlu karakterlerin belirli bir şekilde uygunluğunu ayarlar - negatif olmayan tamsayıları temsil eden kod alanının elemanları. Kodlama ailesi, UCS kodları dizisinin makine temsilini belirler.

Unicode standardı, tüm modern ve birçok antik yazılı dillerin sembollerinin tek bir kodlaması oluşturmak için tasarlanmıştır. Bu standarttaki her sembol, 16 bit ile kodlanır, bu da daha önce alınan 8 bitlik kodlamalardan daha fazla karakter kapsamaz. Unicode'un diğer kodlama sistemlerinden bir diğer önemli ayrımı, yalnızca her sembole öznitelik değil. benzersiz kod, ancak bu sembolün çeşitli özelliklerini de belirler, örneğin:

    sembol tipi (büyük harf, küçük harf, rakam, noktalama işareti, vb.);

    sembol öznitelikleri (soldan sağa veya sağ sola, boşluk, satır sonu, vb.);

    uygun büyük veya küçük harf (sırasıyla küçük harf ve büyük harfler için);

    İlgili sayısal değer (dijital karakterler için).

0'dan FFFF'den gelen tüm kodlar arasında, her biri bir tür dilin alfabesine veya işlevlerine benzer bir grup özel karakter grubuna karşılık gelen çeşitli standart alt gruba ayrılır. Aşağıdaki şema, Unicode 3.0'ın toplam alt gruplar listesini içerir (Şekil 2).

Şekil 2.

Unicode standardı, birçok modern bilgisayar sisteminde depolama ve metnin temelidir. Bununla birlikte, çoğu internet protokolüyle uyumlu değildir, çünkü kodları herhangi bir bayt değerleri içerebilir ve protokoller genellikle hizmet olarak 00 - 1F ve Fe - FF bayt kullanır. Uyumluluk elde etmek için, bugün en yaygın UTF-8 olan birkaç UNICODE dönüşüm formatı geliştirilmiştir (UTFS, Unicode Dönüşüm Biçimleri). Bu format, her bir Unicode kodunu internet protokollerini taşımak için uygun bir dizi bayt (bir ila üç) dönüştürmek için aşağıdaki kuralları tanımlar.

Burada X, Y, Z, belirlenen pozisyonların tamamı dolduruluncaya kadar, gençlikten çıkarılması gereken kaynak kodun bitlerini gösterir.

Unicode standardının daha da gelişmesi, yeni dil düzlemlerinin eklenmesiyle ilişkilidir, yani. 10.000 - 1ffff, 20.000 - 2ffff, vb. Aralıklarındaki semboller, yukarıdaki tabloya girmeyen ölü dillerin yazılarının kodlanmasını içermesi gerekiyor. Bu ek karakterleri kodlamak için, yeni bir UTF-16 formatı geliştirildi.

Böylece, Unicode formatında bayt kodlamanın 4 ana yolu vardır:

UTF-8: 128 karakter bir bayt (ASCII formatı) tarafından kodlanır, 1920 karakter 2 baytla kodlanmıştır ((Roma, Yunan, Kiril, Kıpır, Ermeni, İbranice, Arapça Semboller), 63488 karakter 3 bayt tarafından kodlanır (Çince) , Japon ve ark.) Kalan 2 147 418 112 karakter (henüz kullanılmadı) 4, 5 veya 6 bayt ile kodlanabilir.

UCS-2: Her sembol 2 bayt ile temsil edilir. Bu kodlama, yalnızca Unicode formatındaki ilk 65,535 karakter içerir.

UTF-16: UCS-2'nin bir uzantısıdır, 1 114 112 Unicode formatı karakter içerir. İlk 65.535 karakter, 2 bayt, geri kalanı - 4 bayt olarak temsil edilir.

USC-4: Her karakter 4 bayt tarafından kodlanır.

Unicode (İngilizce Unicode'da) standart kodlama standardıdır. Basitçe söylemek gerekirse, bu metin işaretlerinin uygunluğunun bir tablosudur (harfler, noktalama işaretleri) İkili Kodlar. Bilgisayar sadece sıfır ve birimler dizisini anlar. Böylece ekranda tam olarak ne görüntülenmesi gerektiğini bilmesi için, benzersiz numaranızı her bir sembole atamanız gerekir. Seksenlerde, işaretler bir bayt tarafından kodlandı, yani sekiz bit (her bit 0 veya 1). Böylece bir tablonun (aynı kodlama veya setin) sadece 256 karakteri barındırabileceği ortaya çıktı. Bu, bir dil için bile yeterli olmayabilir. Bu nedenle, birçok farklı kodlama ortaya çıktı, sıklıkla, genellikle okunan metin yerine ekranda bazı garip Krakozyabry'nin ortaya çıkmasına neden olan karışıklık. Unicode hangi olan birleşik standardı gerekliydi. Sembolün görüntüsü için en çok kullanılan kodlama - UTF-8 (Unicode Dönüşüm Biçimi) 1 ila 4 bayt içerir.

Semboller

Unicode tablolarındaki semboller, onaltılık sayılarla numaralandırılmıştır. Örneğin, Kiril büyük harf M, U + 041C tarafından gösterilir. Bu, 041 String'in kesiştiği ve C sütununun kesiştiği anlamına gelir. Sadece kopyalanabilir ve ardından bir yere yerleştirilebilir. Çok kilometrelerde listeye gitmemek için, aramayı kullanmalısınız. Sembol sayfasına gidiyorsanız, numarasını Unicode'da göreceksiniz ve farklı yazı tiplerinde çizim bir yolunu göreceksiniz. Meydanın yerine, en azından ne olduğunu bulmak için, kare çizilmiş olsa bile, arama dizesine ve imzanın kendisine girebilirsiniz. Ayrıca, bu sitede, kullanmanın kolaylığı için farklı bölümlerden toplanan aynı tip simgelerin özel (ve rastgele) kümeleri vardır.

Unicod Standard - Uluslararası. Neredeyse tüm dünyanın yazısının işaretlerini içerir. Artık uygulanmayanlar dahil. Mısır hiyeroglifleri, Alman runes, Maya yazma, Clinp ve antik devletlerin alfabeleri. Sunulan ve ölçüt ve ölçeklerin, müzikal okuryazarlık, matematiksel kavramların tayinleri.

Unicode konsorsiyumunun kendisi yeni semboller icat etmez. Tablolar, toplumdaki kullanımlarını bulan tablolara eklenir. Örneğin, Ruble işareti, altı yıl önce aktif olarak kullanıldı, Unicode'a eklendi. Emoji (İfadeler) piktogramları, ilk önce Japonya'da kodlamaya dahil edilmeden önce yaygın kullanım kazandı. Ancak ticari markalar ve şirket logoları temel olarak eklenmez. Apple Apple veya Windows bayrağı bile. Bugüne kadar, 8.0 sürümünde yaklaşık 120 bin karakter kodlanmıştır.