internet pencereler Android
Genişletmek

ASCII İkili. ASCII Kodlama (Bilgi Kavşağı için Amerikan Standart Kodu) - Temel Latiza Metin Kodlama

Merhaba, Sevgili Blog Okuyucular web sitesi. Bugün sizinle Krakoyarbra'nın hangi metin kodlamalarının var olduğu ve hangisinin kullanılması gerektiği programlardan ve programlardan geldiği hakkında konuşacağız. Temel ASCII'den, CP866, KOI8-R, Windows 1251'in genişletilmiş versiyonlarını ve Unicode UTF 16 ve 8 konsorsiyumunun modern kodlarıyla biten gelişmelerinin geçmişini ayrıntılı olarak düşünelim.

Birisi bu bilgi gereksiz görünebilir, ancak çatlakları tam olarak ilgilenen (bir karakter kümesi okumayan) bana ne kadar sorunun ne kadar olduğunu bileceksiniz. Şimdi herkesi bu makalenin metnine gönderme fırsatım olacak ve bağımsız olarak shoals'ınızı arayacağım. Bilgiyi emmeye hazır olun ve anlatımı izlemeye çalışın.

ASCII - Temel Latiza Metin Kodlama

Metin kodlamalarının gelişimi, BT endüstrisinin oluşumu ile aynı anda gerçekleşir ve bu süre zarfında oldukça az değişiklik geçireceklerdir. Tarihsel olarak, her şey, Rusça'lık Rusça telaffuzunda oldukça zararlıdır, bu da Latin alfabesinin, Arapça sayıların ve noktalama işaretlerinin kontrol sembolleriyle harflerini kodlamayı mümkün kılan.

Ancak yine de modern metin kodlamalarının geliştirilmesi için başlangıç \u200b\u200bnoktası ünlü olarak kabul edilmelidir. ASCII. (Rusça'da "Aski" olarak belirgin olan bilgi değişimi için Amerikan Standart Kodu). En sık kullanılan İngilizce konuşan kullanıcılardan - Latin harfleri, Arapça numaralar ve noktalama işaretleri olan ilk 128 karakteri açıklar.

ASCII'de açıklanan bu 128 karakterde bile, bazı servis sembolleri parantez, kafesler, yıldızlar vb. Tarafından ezildi. Aslında, kendin onları görebilirsin:

Bu, ASCII'nin ilk versiyonundan gelen 128 karakter standarttır ve herhangi bir kodlamada kesinlikle karşılaşacak ve böyle bir şekilde olacaklar.

Ancak gerçek şu ki, bilginin bir bayt yardımı ile, 128, ancak 256 farklı değer (iki dereceye eşit derecede 256), sonra taban versiyonu Aski bir dizi görünüyordu gelişmiş kodlamalar ASCII128 ana işarete ek olarak, ulusal kodlama sembollerini (örneğin, Rusça) kodlamak da mümkündü.

Burada, muhtemelen açıklamada kullanılan sayı sistemi hakkında biraz daha değer. Öncelikle, her şeyi bildiğiniz gibi, bilgisayar sadece bir ikili sistemde, yani sıfır ve birimler ("Boulev Cebir" ile ("Boulev Cebir" ile ("Boulev Cebir" ile birlikte çalışır. Her biri bir dereceye kadar bir inendir, sıfırdan başlayarak ve yedinci sırada two'lar:

Bu tür bir tasarımdaki tüm olası zero ve birimler kombinasyonlarının yalnızca 256 olabileceğini anlamak zor değildir. Çevir, ikili sistemden ondalık basamak. Tüm dereceleri yukarıdaki tüm dereceleri tek bir durdurmanız gerekir.

Örneğimize göre, 1 (2 ila sıfır) artı 8 (iki ila derece 3), artı 32 (beşinci derecede iki kez), artı 64 (altıncı), artı 128 (yedinci) . Toplam bir ondalık sayı sisteminde 233 alır. Gördüğünüz gibi, her şey çok basit.

Ancak masaya ASCII karakterleriyle bakarsanız, onaltılık kodlamada sunulduğunu göreceksiniz. Örneğin, "yıldız işareti", onaltılık bir sayı 2A'nın cenneti karşılık gelir. Muhtemelen, onaltılık bir sayı sisteminde, bir (ortalama on) 'den latin harfleri, onaltılık bir sayı sisteminde kullanıldığında (ortalama on) latin harfleri kullanılır.

Peki, için İkili sayıları onaltılık tercüme Bir sonraki basit ve görsel yola başvurun. Her bilgi baytı, yukarıdaki ekran görüntüsünde gösterildiği gibi dört bitin iki parçasına ayrılır. Yani Baytın her yarısında, ikili kod yalnızca on altı değer için (dördüncü derecede ikisi), onaltılık olarak kolayca temsil edilebilecek şekilde kodlanabilir.

Ayrıca, baytın sol yarısında, tekrar sıfırdan, ekran görüntüsünde gösterildiği gibi göz önünde bulundurmanız gerekecektir. Sonuç olarak, iyi olmayan bir bilgisayarla, E9 sayısının ekran görüntüsünde kodlandığını alıyoruz. Umarım aklımın kursu ve bu rebusun katılaşması anlaşılabilirdiniz. Şimdi devam edeceğiz, aslında metin kodlaması hakkında konuşacağız.

ASKI - CP866 ve KOI8-R kodlamasının uzatılmış versiyonları

Böylece, tüm modern kodlamaların gelişimi için bir başlangıç \u200b\u200bnoktası gibi olan ASCII hakkında konuşmaya başladık (Windows 1251, Unicode, UTF 8).

Başlangıçta, Latin alfabesinin sadece 128 belirtisi, Arapça sayılar ve orada başka bir şey, ancak genişletilmiş versiyonda, bir ezme bilgisinde kodlanabilecek tüm 256 değerin tümünü kullanmak mümkündü. Şunlar. Dilinin harflerinin sembollerini Aska'ya ekleme fırsatı.

Burada netleştirmek için bir kez daha dikkatini dağıtmak için gerekli olacak - neden kodlamaya ihtiyacın var? Metinler ve neden bu kadar önemlidir. Bilgisayarınızın ekranındaki karakterler, iki şeyin temelinde oluşturulur - her türlü karakterin vektör formları (temsilleri) kümeleri (dosya cinsinden) ve bu vektör şekil kümesini çıkarmanızı sağlayan kodlar ( Yazı Tipi Dosyası) Doğru yere eklenecek karakterdir.

Yazı tiplerinin vektör formlarından sorumlu olduğu açıktır, ancak işletim sistemi ve içinde kullanılan programlar kodlamadan sorumludur. Şunlar. Bilgisayarınızdaki herhangi bir metin, bu metnin tek bir sembolünün kodlandığı her birinde bir bayt kümesi olacaktır.

Bu metni ekranda (metin editörü, tarayıcı vb.) Gösteren program, kodu ayrıştırırken, bir sonraki işaretin kodlanmasını okur ve bağlı olan istenen yazı tipi dosyasında buna karşılık gelen vektör formunu arar. Bu metin belgesini görüntüleyin. Her şey basit ve trite.

Böylece, ihtiyacımız olan herhangi bir sembolü kodlamak için (örneğin, ulusal alfabeden), iki koşul tamamlanmalıdır - bu işaretin vektör formu kullanılan fontta olmalı ve bu sembol genişletilmiş ASCII kodlamalarında bir baytta kodlanabilir. . Bu nedenle, bir sürü bu tür seçenek var. Sadece Rus dilinin sembollerinin kodlanması için çeşitli eşek çeşitleri vardır.

Örneğin, başlangıçta ortaya çıktı CP866.Rus alfabesinin sembollerini kullanmak mümkün olduğu ve bu ASCII'nin genişletilmiş bir versiyonuydu.

Şunlar. Üst kısmı, Scienshot'ta biraz daha yüksek gösterilen Aski'nin (128 Latin, Numaraların ve hatta Labuda'nın) temel versiyonu ile tamamen çakıştı, ancak zaten CP866 kodlama tablosunun alt kısmı ekran görüntüsünde belirtilenlere sahipti. Görünümün biraz altında ve başka bir 128 işareti (Rus mektupları ve herhangi bir psödografik) kodlamasına izin verildi:

Bakınız, doğru sütunda, sayılar 8 ile başlar, çünkü 0 ile 7 arasındaki sayılar ASCII'nin taban kısmına bakın (ilk ekran görüntüsüne bakın). Yani CP866'daki Rusça "M" harfi 9C'ye sahip olacaktır (karşılık gelen satırların 9 ile, bir hexadecial sayı sisteminde C ile ilgili sütun ile kesişimindedir), bir bayt bilgisi içinde yazılabilir ve Rus karakterleri ile uygun bir yazı tipi var, bu mektup problemsiz metin olarak gösterilecektir.

Bu miktar nereden geldi? cP866'da psödograflar.? İşte bu, Rus metni için bu kodlamanın bu parlak yıllarda geliştirildiği, böyle bir grafik dağılımı olmadığı zaman geliştirildi. işletim sistemleri şimdiki gibi. Ve dastik ve benzeri metin operasyonlarında, pseudografik en azından bir şekilde, metinlerin tasarımını çeşitlendirir ve bu nedenle CP866 ve tüm diğer satırları, ASA'nın genişletilmiş sürümlerinin boşalmasından kaynaklanır.

CP866 Dağıtılmış IBM Şirketi, ancak ek olarak, Rus dilinin sembolleri için bir dizi kodlama, örneğin, aynı tip (Genişletilmiş ASCII) atfedilebilir Koi8-r.:

Çalışmalarının ilkesi, daha sonra açıklanan CP866 ile aynı kaldı - her metin sembolü tek bir bayt tarafından kodlanır. Ekran görüntüsü KOI8-R tablosunun ikinci yarısını gösterir, çünkü İlk yarı, bu makaledeki ilk ekran görüntüsünde gösterilen taban ASUS ile tamamen tutarlıdır.

KOI8-R kodlamasının özellikleri arasında, masasındaki Rus harflerinin, örneğin CP866'da yaptığı gibi, bu gibi alfabetik sırayla olmadığı belirtilebilir.

İlk ekran görüntüsüne bakarsanız (tüm genişletilmiş kodlamalara giren ana kısım), Koi8-R'de, Rus harflerinin, latin alfabesinin ilk bölümünden, Latin alfabesinin harfleri olarak aynı tablolarda bulunduğunu fark edin. Masa. Bu, Rus sembollerinden Latince'den Latince'ye geçmenin rahatlığı için yapıldı (yedinci derecede iki ya da 128).

Windows 1251 - ASCII'nin modern bir versiyonu ve Crackels neden çıktı

Metin kodlamalarının daha fazla gelişmesi, grafik işletim sistemlerinin ve bunlara psödografi kullanması gerektiği gerçeğinden kaynaklanıyordu. Sonuç olarak, onların özünde, Aski'nin gelişmiş sürümleri olan bir bütün grup ortaya çıktı (bir metin sembolü, yalnızca bir büzülme bilgiyle kodlanmıştır), ancak pseudografik karakterler kullanmadan.

Amerikan Standardizasyon Enstitüsü tarafından geliştirilen ANSI kodlamasını tedavi ettiler. Kiril adı, Rus dilinin desteğiyle bir seçenek için hala kullanıldı. Böyle bir örnek örneği.

Önceden kullanılan CP866 ve KOI8-R'den, sözdedeki karakterlerin yerini, Rus tipografisinin (azalan işaret) eksik sembollerini ve Rus Slav'una yakın kullanılan sembollerin yanı sıra Diller (Ukrayna, Belarus, vb.):

Rus dilinin kodlarının bu bolluğu nedeniyle, yazı tipi ve üreticileri üreticileri yazılım Sürekli bir baş ağrısı ortaya çıktı ve seninle, sevgili okuyucular, genellikle en ünlü olanları aldılar. krakoYabryKarışıklık, metinde kullanılan versiyonla öğretildiğinde.

Çok sık, e-posta yoluyla mesaj gönderirken ve alırken ortaya çıktılar, bu da aslında bu sorunu kök içinde çözemedi ve çoğu zaman yazışmalar için kullanıcılar kullanırken kullanıcılar kullanıldığında kullandıkları çok karmaşık bir kodlama tabloları oluşturuldu. Rus kodlamaları benzer CP866, KOI8-R veya Windows 1251.

Özünde, Rus metni yerine, Krakoyarbra, kodlamanın yanlış kullanımı sonucuydu. bu dilinBu, metin mesajının başlangıçta kodlandığı ile eşleşmemiş.

CP866 ile kodlanmış semboller, Windows 1251 kod tablosunu kullanarak, daha sonra bu en çok çatlak (anlamsız karakter kümesi) kullanarak görüntülenmeyi deneyin ve mesaj metnini tamamen değiştirmeyi deneyin.

Benzer bir durum çok sık, forumlar veya bloglar, forumlar veya bloglar, yanlışlıkla Rus karakterleri olan metin, varsayılan web sitesinde kullanılan veya Sebestin koduna ekleyen metin düzenleyicide kullanılmayan aynı kodlamaya kaydedilmediğinde çıplak gözle görülebilir.

Sonunda, birçok kodlamaya sahip ve sürekli sürünen bir durum, çok yorgun, birçok yorgun, yeni bir evrensel varyasyon yaratmanın önkoşulları vardı, bu da mevcut olanların yerini alacak ve son olarak, nihayetinde sorunların köküne okunabilir metinler. Buna ek olarak, dilin sembollerinin 256'dan fazla olduğu için benzer bir dilde bir sorun vardı.

Unicode (Unicode) - Universal Kodları UTF 8, 16 ve 32

Güneydoğu Asya'nın dil grubunun bu binlerce işareti, gelişmiş ASCII sürümlerinde karakter kodlama için ayrılan bir papat bilgisinde tanımlanamadı. Sonuç olarak, denilen bir konsorsiyum oluşturuldu. Unicode (Unicode - Unicode Consortium) Endüstrinin birçok liderinin işbirliğinde (Demir'i kimin oluşturan bir yazılım üreten, yazı tipi oluşturan bir yazılım oluşturanlar), evrensel bir metin kodlamasının ortaya çıkmasıyla ilgilenen.

Unicode konsorsiyumun himayesinde yayınlanan ilk varyasyon UTF 32.. Kodlamanın adındaki rakam, bir sembolü kodlamak için kullanılan bit sayısı anlamına gelir. 32 bit, yeni evrensel UTF kodlamasında tek bir işareti kodlamak için gerekli olacak 4 bayt bilgidir.

Sonuç olarak, aynı dosya, ASCII ve UTF-32'nin genişletilmiş sürümünde kodlanan metnin ikinci durumda olacak şekilde boyutuna (ağırlık) olacaktır. Kötü, ama şimdi UTF'nin yardımıyla iki ila otuz ikinci dereceye eşit olan işaret sayısını kodlama fırsatımız var ( milyarlarca karakterBu, herhangi bir gerçek değeri devasa bir marjla kapsayacak).

Ancak, Avrupa Grubu'nun dilleriyle birçok ülke, kodlamada kullanılması çok fazla sayıda işarete sahiptir ve ancak UTF-32'yi kullanırken, dört zamanlı bir artış almadılar. Metin belgelerinin ağırlığında ve sonuç olarak, internet trafiğinde bir artış ve hacim depolanmış veriler. Bu çok ve hiç kimse bu tür atıkları karşılayamaz.

Unicode'nin gelişmesinin bir sonucu olarak ortaya çıktı UTF-16.Bu, bu kadar başarılı ortaya çıktı ki, kullandığımız tüm karakterler için temel bir alan olarak varsayılan olarak kabul edildi. Bir işareti kodlamak için iki bayt kullanır. Bu şeyin nasıl göründüğünü görelim.

Ameliyathanede windows sistemi "Başlat" - "Programlar" - "Standart" - "Hizmet" - "Karakter Tablosu" yolunu geçebilirsiniz. Sonuç olarak, bir masa, fontlarınızda yüklü olan tüm vektör formlarıyla açılır. "Ek parametreler" bölümünü seçerseniz, bir Unicode karakter kümesi, her bir yazı tipini ayrı ayrı görebilirsiniz. İçinde bulunan tüm karakterler aralığı.

Bu arada, bunlardan herhangi birine tıklayarak, onu iki kişi görebilirsiniz. uTF-16 formatında koddört onaltılık haneden oluşan:

UTF-16'da 16 bit kullanılarak kaç karakter kodlanabilir? 65 536 (iki ila on altı) ve bu numara Unicode'daki temel alan için alındı. Buna ek olarak, bununla ve yaklaşık iki milyon karakterle kodlamanın yolları vardır, ancak bir milyon metin sembolündeki genişletilmiş alanla sınırlıdır.

Fakat Unicode'ün kodlamasının bu başarılı versiyonu bile, örneğin yalnızca programları yazanlara çok memnun değildi. ingilizce diliOnlar için, ASCII'nin genişletilmiş sürümünden UTF-16'ya geçtikten sonra, belgelerin ağırlığı iki kez arttı (ASKI'de sembol başına bir bayt ve UTF-16'da aynı sembolde iki bayt).

Bu tam olarak herkesi tatmin etmek ve tüm unicode konsorsiyumundaki tümü gelmeye karar verdi. değişken uzunluğu kodlama. O utf-8 olarak adlandırıldı. Başlığın sekizine rağmen, gerçekten bir değişken uzunluğu var, yani. Her metin simgesi, bir ila altı bayt dizisine kodlanabilir.

Uygulamada, UTF-8, yalnızca bir ila dört bayttan bir aralık kullanır, çünkü herhangi bir şeyi kodun dört baytına göndermek için teorik olarak mümkün bir şey yoktur. Tüm Latin işaretleri bir baytta ve eski iyi ASCII'de kodlanmıştır.

Dikkat çekici olanı, yalnızca Latince kodlama durumunda, Unicode'u anlamayan bu programlar bile UTF-8'de kodlanmış olanı okuyacaktır. Şunlar. Aska'nın temel kısmı, bu sadece Unicode konsorsiyumunu kapattı.

UTF-8'deki Kiril işaretleri, iki bayt içine kodlanır ve örneğin Gürcüce - üç baytta. UTF 16 ve 8'in yaratılmasından sonra Unicode Consortium, ana soruna karar verdi - şimdi yazı tiplerinde tek bir kod alanı var. Ve şimdi üreticileri sadece metin sembollerinin vektör formlarıyla doldurma güçleri ve fırsatları temelinde kalır. Şimdi takımlarda bile.

Aşağıdaki sembol tablosunda, farklı fontların farklı sayıda karakteri desteklediği görülebilir. Unicode yazı tiplerinin bazı sembolleri çok iyi tartılabilir. Ancak şimdi farklı kodlamalar için yaratıldıkları gerçeğiyle ayırt edilmezler, ancak font üreticisinin tek kod alanını ya da diğer vektör formları tarafından tek kod alanını doldurmadan veya doldurmadığı gerçeğiyle.

KrakoYabry Rus mektupları yerine - nasıl düzeltilir

Şimdi Crakozyabe metninin metin yerine nasıl göründüğünü veya başka bir deyişle, Rusça metin için doğru kodlamanın nasıl seçildiğini görelim. Aslında, bu aynı metni oluşturduğunuz veya düzenleyeceğiniz programda metin parçalarını kullanarak ayarlanmıştır.

Metin dosyalarını düzenlemek ve oluşturmak için, bence şahsen çok iyi kullanıyorum. Bununla birlikte, sözdizimini hala iyi yüzlerce programlama dilini ve işaretlemesini vurgulayabilir ve ayrıca eklentilerle genişletme yeteneğine sahiptir. Okumak detaylı inceleme Bağlantıya göre bu harika program.

Not Defteri ++ üst menüsünde, mevcut bir seçeneği varsayılan sitenizde kullanılan birine dönüştürme yeteneğine sahip olacağınız bir "kodlama" öğesi vardır:

Joomla 1.5 ve üzeri bir site durumunda, WordPress'de bir blog durumunda, Krakyar'ın görünümünü önlemek için seçeneği seçmelisiniz. UTF 8 BOM'suz. BOM öneki nedir?

Gerçek şu ki, ETF-16 kodlaması geliştirildiğinde, bazı nedenlerden dolayı, böyle bir şeyi, hem doğrudan sırayla (örneğin, 0A15) hem de ters (150A) bir sembol kodunu kaydetme yeteneği olarak tutturmaya karar verdi. . Ve programların hangi sırayı okuma kodlarını anlamaları için ve icat edilmesi için BOM. (Byte sipariş işareti veya başka bir deyişle, imza), bu da belgelerin başlangıcına üç ek bayt eklemede ifade edilmiştir.

UTF-8 kodlamasında, Unicode Consortium'da hiçbir BOM yoktu ve bu nedenle imza ekleyerek (bu en ünlü ek üç bayt, belgenin başlangıcına kadar) bazı programlar kodu okumayı önler. Bu nedenle, biz her zaman, UTF'deki dosyaları kaydederken, BOM'suz bir seçenek seçmelisiniz (imza olmadan). Yani şimdi peşin kendinizi çatlamadan gizlemek.

Dikkate değer olan, Windows'taki bazı programlar bunu nasıl yapacağınızı bilmiyor (metni, BOM'suz UTF-8'deki metni kaydetme), örneğin, aynı komuta notebook pencereleri. Belgeyi UTF-8'de kaydeder, ancak yine de başlangıcına imza ekler (üç ek bayt). Dahası, bu baytlar her zaman aynı olacaktır - kodu doğrudan sırayla okuyun. Ancak sunucularda, bu küçük şeyler nedeniyle, bir sorun olabilir - Crackels çıkacak.

Bu nedenle, hiçbir durumda her zamanki notebook pencerelerini kullanmayın Sitenizin belgelerini düzenlemek için, Krakoyarbra'nın görünümünü istemiyorsanız. Daha önce de belirtilen not defteri ++ editörü için en son ve en kolay seçeneği, pratik olarak dezavantajları olmayan ve avantajlardan birinden oluşan seçeneklerini düşünüyorum.

Not Defteri ++ 'da bir kodlama seçerken, metni UCS-2 kodlamaya dönüştürme yeteneğine sahip olacaksınız, bu da UsSence'daki Unicode Standard'a çok yakın olan UCS-2 kodlamasına dönüştürebilirsiniz. Ayrıca, ANSI, yani ANSI'de kodlanmış bir şekilde kodlanabilir. Rus diline referansla, bu zaten Windows 1251'in hemen yanında tarif edilecektir. Bu bilgi nereden geliyor?

Windows işletim sisteminizin kayıt defterinde yazıldığından, ANSI durumunda hangi kodlamanın seçileceği, OEM durumunda ne seçeceğiniz (Rus dili için CP866 olacak). Bilgisayarınıza bir varsayılan dil yüklerseniz, bu kodlamalar aynı dil için ANSI veya OEM akıntılarına benzer şekilde değiştirilecektir.

Not Defteri ++ bölümünde, belgeyi kodlamaya yönelik kodlamaya kaydetme veya bir belgeyi düzenlemek için düzenleyicinin sağ alt köşesinde, adını görebileceğiniz:

Krakoyarbrov'u önlemek içinYukarıda açıklanan eylemler dışında, kapağına kayıt olmak için yararlı olacaktır. kaynak kodu Tüm site sayfaları bu kodlama hakkında bilgi, böylece sunucu veya yerel ana bilgisayar oluşmaz.

Genel olarak, HTML dışındaki hipertext işaretinin tüm dillerinde, metni kodlamayı belirten özel bir XML reklamı kullanılır.

Kodu sökmeye başlamadan önce, tarayıcı hangi sürümün kullanıldığını ve bu dilin karakterlerinin kodlarını tam olarak nasıl yorumlamanız gerektiğini öğrenecektir. Ancak, belgeyi varsayılan Unicode'da kaydetmeniz durumunda, bu XML bildirimi atlanabilir (kodlama, bir BOM veya UTF-16 yoksa, kodlama UTF-8 olarak kabul edilir).

Bir belge durumunda hTML Dili Kullanılan kodlamayı belirtmek için meta elemanıaçılış ve kapama başı etiketi arasında reçete edilir:

... ...

Bu giriş kabul edilen B'den oldukça farklıdır, ancak tamamen HTML 5 standardı tarafından yavaşça tanıtıldığına tamamen uygundur ve kullanılan herkes tarafından kesinlikle doğru bir şekilde anlaşılır. şu an tarayıcılar.

Teoride, belgenin HTML kodlamasını gösteren meta elemanı koymak için daha iyi olacaktır. dock başlığında mümkün olduğu kadar yüksekBöylece, ilk işaretin metnindeki toplantı sırasında (her zaman her zaman ve herhangi bir varyasyonda okuyan), tarayıcının bu karakterlerin kodlarını nasıl yorumlayacağınız hakkında bilgi sahibi olmalıdır.

Sana iyi şanslar! Blog sayfalarında belirsiz toplantılara web sitesi

devam edebileceğiniz daha fazla makaraya bakın
");">

İlgilenebilirsin

URL adresleri, site için mutlak ve göreceli bağlantılar arasındaki farkın içindekiler nedir?
OpenServer - modern bir yerel sunucu ve kullanımının bir örneği wordpress kurulumları bilgisayarda
Dosya ve klasör atama haklarına (777, 755, 666) ve PHP üzerinden nasıl yapılacağı CHMOD nedir?
Giriş yap Site ve Online Mağazada Yandex

Office için Excel 365 Office 365 Office için Outlook 365 Office 365 PowerPoint Office 365 PowerPoint Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019. Visio Standard 2019. Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 ONENOTE 2013 Yayıncı 2016 Visio 2013 Visio Professional 2016. Visio Standard 2016. Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Yayımcı 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Yayınevi 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Yayınevi 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010. Az

Bu makalede

Bir belgeye bir ASCII veya Unicode sembolü yerleştirin

Yalnızca birkaç özel karakter veya karakter girmeniz gerekirse, tuşlarını kullanabilir veya kısayol tuşlarını kullanabilirsiniz. Liste semboller ASCII. Aşağıdaki tabloları veya kilit kombinasyonları kullanarak ulusal alfabelerin harflerinin bir makale eklenmesini görün.

Notlar:

ASCII karakterleri ekle

ASCII sembolünü eklemek için, Sembol Kodunu girerek ALT tuşunu basılı tutun. Örneğin, bir derece sembolü (º) eklemek için, ALT tuşunu basılı tutun, ardından sayısal tuş takımında 0176'yı girin.

Sayıları girmek için, dijital klavye kullanın, ana klavyedeki sayılar değil. Sayısal tuş takımına numara girmeniz gerekiyorsa, Num Lock göstergesinin etkin olduğundan emin olun.

Unicode sembollerini ekleme

Unicode sembolünü eklemek için, karakter kodunu girin, ardından tutarlı bir şekilde basın aLTS ALT. ve X. Örneğin, bir dolar sembolü ($) eklemek için, 0024'ü girin ve ALT ve X tuşlarına sırayla bastırın. Tüm Unicode karakter kodları görüyor.

Önemli: Biraz microsoft programları PowerPoint ve InfoPath gibi ofis, Unicode kodlarının karakterlere dönüştürülmesini desteklemez. Bu programlardan birine Unicode sembolü takmanız gerekirse, kullanın.

Notlar:

    Eğer, Alt + x tuşlarına basıldıktan sonra, yanlış bir Unicode sembolü görüntülenir, doğru kodu seçin ve ardından ALT + X tuşuna tekrar basın.

    Ek olarak, kodun önünde "U +" tanıtılmalıdır. Örneğin, "1U + B5" girerseniz ve ALT + X tuşlarına basarsanız, "1μ" metni görünür ve "1B5" yazarsanız ve ALT + X tuşlarına basın, "ƶ" sembolü görünecektir.

Sembol tablosu kullanma

Karakter tablosu, içine yerleştirilmiş bir programdır. Microsoft Windows.Seçilen yazı tipi için mevcut karakterleri görüntülemenizi sağlar.

Karakter tablosunu kullanarak, bireysel karakterleri veya bir karakter grubunu panoya kopyalayabilir ve bunları bu karakterlerin ekranını destekleyen herhangi bir programa ekleyebilirsiniz. Karakter tablosunu açma

    Windows 10'da. Görev çubuğundaki arama alanına "Sembol" kelimesini girin ve arama sonuçlarındaki karakter tablosunu seçin.

    Windows 8'de. İlk ekrandaki "Sembol" kelimesini girin ve arama sonuçlarındaki karakter tablosunu seçin.

    Windows 7'de. düğmesine basın BaşlatSırayla seçin Tüm Programlar, Standart, Hizmet ve tıklayın sembol masası.

Semboller yazı tipinde gruplandırılmıştır. Uygun bir karakter kümesi seçmek için Yazı Tipi Listesini tıklayın. Bir sembol seçmek için, tıklayın, ardından Tamam'ı tıklatın. Seç. Bir karakter eklemek için, belgedeki istediğiniz konumu sağ tıklatın ve Eklemek.

Sık kullanılan sembol kodları

Bir karakter listesi için, bir bilgisayara bakın, ASCII sembolü kodları tablo veya Unicode karakter tabloları, setler tarafından sipariş edilir.

Glif

Glif

Nakit birimleri

Yasal semboller

Matematiksel semboller

Drobi.

Noktalama işaretleri ve lehçe sembolleri

Form sembolleri

Sık kullanılan diocritik işaret kodları

Gliflerin ve ilgili kodların tam listesi, bkz.

Glif

Glif

Yazdırıcı ASCII İşaretleri Yönetme

Bazı yönetmek için kullanılan işaretler çevresel aygıtlarÖrneğin Yazıcılar, ASCII tablosunun 0-31 numaralarına sahip. Örneğin, sayfa çeviri / yeni sayfası 12 numaraya karşılık gelir. Bu işaret, yazıcının bir sonraki sayfanın en üstüne gitmesini gösterir.

Baskısız taşıma tablosu ASCII

Ondalık sayı

İşaret

Ondalık sayı

İşaret

Veri Kanalı Kurtuluş

Başlatmak

İlk cihaz yönetimi kodu

Metnin başlangıcı

İkinci Cihaz Yönetimi Kodu

Metnin sonu

Üçüncü Cihaz Yönetimi Kodu

Transferin sonu

Dördüncü Cihaz Yönetimi Kodu

beş köşeli

Olumsuz onay

doğrulama

Senkron iletim modu

Ses sinyali

Veri iletilen bloğun sonu

Yatay tablolama

Taşıyıcının sonu

Satır / Yeni Satır

Değiştirme sembolü

Dikey tablolama

aşmak

Sayfa / Yeni Sayfa

On iki

Dosya ayırıcı

İade arabası

Ayırıcı grubu

Deşarj tasarrufu yapmadan vardiya

Ayırıcı kayıtları

Boşaltma kayması

onbeş

Veri ayırıcı

Bilgisayar, dönüşümünün, bu verilerin daha uygun iletim, depolama veya otomatik olarak işlenmesini sağlayan bir forma dönüştürülmesi anlamına gelir. Bu amaçla, çeşitli tablolar kullanılır. ASCII kodlaması, Amerika Birleşik Devletleri'nde geliştirilen ilk sistemdir, daha sonra dünyaya dağıtılan İngilizce-dil metni ile çalışmaktadır. Açıklamaları, özellikleri, özellikleri ve daha fazla kullanım, aşağıda sunulan makaleye ayrılmıştır.

Bilgisayardaki bilgileri görüntüleyin ve saklama

Bilgisayar monitöründeki semboller veya bir mobil dijital gadget, her türlü işaret ve kodun vektör formlarının kümelerinin temelinde, bunlar arasında, bunlar arasında doğru yere eklemek istediğiniz kişiyi bulmanızı sağlar. Biraz dizisidir. Böylece, her sembol kesinlikle belirli, benzersiz bir sırayla dayanan bir dizi sıfır ve birimlere uymalıdır.

Hepsi nasıl başladı

Tarihsel olarak, ilk bilgisayarlar İngilizce konuşuyordu. Sembolik bilgileri onlara kodlamak için, yalnızca 7 bellek biti kullanmak için yeterliydi, oysa bu amaç için 8 bitten oluşan 1 bayttı. Bu durumda bilgisayar tarafından anlaşılan işaretlerin sayısı 128'e eşitti. Bu tür karakterlerin sayısı, noktalama işaretleri, sayıları ve bazı özel karakterlerle İngilizce bir alfabeyi içeriyordu. 1963'te geliştirilen ilgili tablo (kod sayfası) ile ilgili İngilizce konuşan bir yedi kodlu kodlama, bilgi değişimi için Amerikan Standart kodu seçildi. Genellikle, ataması için "ASCII kodlaması" kısaltması kullanılmış ve bu gün kullanılmıştır.

Çarpışmaya Geçiş

Zamanla, bilgisayarlar ilgi çekici olmayan ülkelerde yaygın olarak kullanılmaktadır. Bu bağlamda, ulusal dilleri kullanmamıza izin veren kodlamalara ihtiyaç vardı. Bisikleti yeniden icat etmemeye ve ASCII'nin temelini almamaya karar verildi. Yeni basımdaki kodlama tablosu önemli ölçüde genişletti. 8. bitin kullanımı, 256 karakterin bir bilgisayar diline çevirmesini sağlamıştır.

Açıklama

ASCII kodlamasının 2 parçaya bölünmüş bir tabloya sahiptir. Genel kabul görmüş uluslararası standart sadece ilk yarısı olarak kabul edilir. O içerir:

  • Sıra numaralarına sahip sekans sayısına sahip, 00000000 ila 000111'den sekanslarla kodlanmıştır. Metin ekranı veya yazıcıya, ses sinyali vb. İçin çıktı işlemini izleyen karakterleri kontrol etmek için atanır.
  • Tabloda NN'li NN'li Semboller, 00100000'den 011111'e kadar sekanslarla kodlanmış, tablonun standart bir kısmını oluşturur. Bunlar arasında bir boşluk (N 32), Latin alfabesinin (küçük harf ve büyük harf) harfleri, 0 ila 9 arasında on basamaklı sayılar, noktalama işaretleri, farklı yazıtların parantezi ve diğer karakterler içerir.
  • Sıra numaralarına sahip semboller 128 ila 255'ten, 10.000.000 ila 11111111'den dizilerle kodlanmıştır. Bunlar, Latin dışındaki ulusal alfabelerin harfleridir. Rus sembollerini bilgisayar formuna dönüştürmek için kullanılan ASCII kodlama tablosunun alternatif kısmıdır.

Bazı özellikler

ASCII kodlamasının özellikleri, alt ve üst kayıtların "A" - "Z" harfleri arasındaki farkı sadece bir bit ile içerir. Bu durum, kayıt dönüşümünü büyük ölçüde basitleştirir, yanı sıra belirtilen değerler aralığına aittir. Ek olarak, ASCII kodlama sistemindeki tüm harfler, bir ikili sayı sisteminde 5 basamak yazılmış alfabedeki kendi dizi sayıları ile temsil edilir, bunların önündeki alt kayıtların 112'sinin harfleri için ve üst - 010 2.

ASCII kodlama özelliklerinin özellikleri ayrıca sınıflandırılabilir ve 10 haneyi temsil edebilir - "0" - "9". İkinci numara sisteminde, 00112 ile başlarlar ve 2 sayıların değeri ile biter. Böylece, 0101 2, ondalık beş numaraya eşdeğerdir, bu nedenle "5" sembolü 0011 01012 olarak yazılır. Yukarıdakilere dayanarak, sol bit dizisini ekleyerek İkili-Ondalık sayıları ASCII kodlamadaki dizgiye kolayca dönüştürebilirsiniz. 00112 Her MB'ye.

"Unicode"

Bildiğiniz gibi, Güneydoğu Asya grubunun dillerinde metinleri görüntülemek için binlerce karakter gereklidir. Bu miktar, bir ezme bilgisinde herhangi bir şekilde tarif edilmez, bu nedenle ASCII'nin genişletilmiş sürümleri bile, kullanıcıların farklı ülkelerden artan ihtiyaçlarını karşılayamaz.

Öyleyse, metnin evrensel bir kodlaması oluşturma ihtiyacı, gelişimi, dünya BT endüstrisinin birçok lideriyle işbirliğiyle "Unicode" bir konsorsiyumla uğraştı. Uzmanları UTF 32 sistemini yarattı. İçinde, sembolün 1 kodlaması için 4 bayt bilgiyi oluşturan 32 bit serbest bırakıldı. Ana dezavantaj, pek çok problemi gerektiren, 4 kez gereken hafızanın miktarında keskin bir artışdı.

Aynı zamanda, Hint-Avrupa Grubu ile ilgili resmi dilleri olan çoğu ülke, 22'ye eşit olan işaretlerin sayısı fazladan daha fazladır.

Uzmanların "Unicode" konsorsiyumundan daha fazla çalışmasının bir sonucu olarak, bir UTF-16 kodlaması ortaya çıktı. Hem istenen belleğin hacminde hem de kodlanmış sembollerin sayısıyla düzenlenen sembolik bilgileri dönüştürme seçeneği haline geldi. Bu nedenle UTF-16 varsayılan olarak kabul edildi ve içinde bir işaret için 2 bayt rezerve etmeniz gerekiyor.

"Unicode" nın oldukça gelişmiş ve başarılı bir sürümü bile bazı dezavantajları vardı ve ASCII'nin genişletilmiş sürümünden UTF-16'ya geçiş sonrasında belgenin ağırlığını iki kez arttırdı.

Bu bağlamda, UTF-8 değişken değişken kodlamasını kullanmaya karar verilmiştir. Bu durumda, her kaynak metin simgesi 1 ila 6 bayt dizisi ile kodlanır.

Bilgi değişimi için Amerikan standart kodu ile iletişim

UTF-8 değişken uzunluğu olan Latin alfabesinin tüm belirtileri, ASCII kodlama sisteminde olduğu gibi 1 baytta kodlanır.

UTF-8'in bir özelliği, Latinya'daki metin durumunda, başka karakterler kullanmadan, "Unicode" anlamayan programlar bile, bunu okumanıza izin verecektir. Başka bir deyişle, ASCII metninin kodlamasının temel kısmı sadece yeni UTF uzunluğu değişkenine hareket eder. UTF-8'deki Kiril işaretleri 2 bayt, örneğin Gürcü - 3 bayt. UTF-16 ve 8'in oluşturulması, fontlarda tek bir kod alanı oluşturma sorununu çözdü. O zamandan beri, yazı tipi üreticileri sadece tablo vektöründeki metin sembollerinin ihtiyaçlarına göre doldurulması için kalır.

Çeşitli işletim sistemlerinde, çeşitli kodlamalara tercih edilir. Başka bir kodlamada atılan metinleri okuyabilir ve düzenleyebilme, Rus metninin kod kodu programları geçerlidir. Biraz metin editörleri Katıştırılmış transkizörler içerir ve kodlamadan bağımsız olarak metni okumanıza izin verir.

Artık ASCII'de kaç karakter kodlamada, nasıl ve neden tasarlanmış olduğunu biliyorsunuz. Tabii ki, bugün dünyanın en büyük dağıtımını aldım. Unicode. Bununla birlikte, ASCII'ye dayanarak yaratıldığını unutmak imkansızdır, bu nedenle geliştiricilerinin BT kapsamına katkısı ile takdir edilmelidir.

ASCII'yi kolayca kullanmak için, bu alanda bilgi ve kodlamanın yeteneklerini genişletmek gerekir.

Ne olduğunu?

ASCII, yazdırılan sembollerin bir kodlama tablosudur (bkz. Screenshot No. 1), bilgi ve bazı kodları iletmek için bir bilgisayar klavyesinde aranır. Başka bir deyişle, alfabe ve ondalık basamaklar, gerekli bilgileri temsil eden ve taşıyan karşılık gelen karakterlere kodlanır.

ASCII kodlaması Amerika'da geliştirilmiştir, bu nedenle standart kodlama tablosu genellikle toplam 128 karakter olan sayıları olan İngilizce alfabesini içerir. Ama sonra adil bir soru ortaya çıkıyor: Ulusal alfabenin kodlaması gerekli ise ne yapmalı?

Bu tür sorunları çözmek için, ASCII tablosunun diğer versiyonları geliştirilmiştir. Örneğin, İngilizce alfabesinin harfleri fatura yapısı olan diller için çıkarıldı ya da ulusal bir alfabe formundaki ek karakterler onlara eklendi. Böylece, ulusal kullanım için Rus mektupları ASCII kodlamasında bulunabilir (bkz. Ekran Görüntüsü No. 2).

ASCII kodlama sistemi nerede geçerlidir?

Bu kodlama sistemi sadece set için gerekli değildir metin Bilgisi klavyede. Grafikte de kullanılır. Örneğin, ASCII Art Maker programında, çeşitli uzantıların grafik görüntüleri, ASCII kodlayan sembol spektrumundan oluşur (bkz. Ekran Görüntüsü No. 3).


Kural olarak, bu tür programlar işlevi gerçekleştirenlere ayrılabilir. grafik editörleri, Görüntüyü metnin içine çevirerek ve görüntüyü ASCII-Mart'ta dönüştürenler. Tüm ünlü ifadeler (ya da olarak da olarak adlandırılır " İnsan yüzünü gülümseyen") Ayrıca kodlama sembolünün bir örneğidir.

Bu kodlama yöntemi, bir HTML belgesi yazarken veya oluştururken talepte de olabilir. Örneğin, belirli bir yere girersiniz ve bir set işaretine ihtiyacınız var ve sayfayı görüntülerken, bu koda karşılık gelen bir sembol görüntülenecektir.

Diğer şeylerin yanı sıra bu tür Kodlama, çok dilli bir site oluştururken gereklidir, çünkü buna dahil olmayan işaretler veya ulusal tablonun ASCII kodları ile değiştirilmesi gerekecektir. Okuyucu doğrudan bilgi ve iletişimsel teknolojilerle ilişkilendirilirse (BİT), kendisini bu tür sistemlerle tanınması için yararlı olacaktır:

  1. Taşınabilir sembol seti;
  2. Kontrol karakterleri;
  3. EBCDIC;
  4. Viscii;
  5. Yuscii;
  6. Unicode;
  7. ASCII ART;
  8. KOI-8.

ASCII tablo özellikleri

Herhangi bir sistematize program gibi, ASCII'nin kendi karakteristik özelliklerine sahiptir. Örneğin, bir ondalık hesap sistemi (0'dan 9'a kadar olan sayılar) bir ikili calmulus sistemine (yani, her bir decaulik hanenin sırasıyla ikili 288 \u003d 1001000'e dönüştürülür) dönüştürülür.

Üst ve alt sütunlarda bulunan harfler, birbirinden sadece bitten farklıdır; bu, kaydıyı kontrol etme ve düzenleme karmaşıklığı seviyesini önemli ölçüde azaltır.

Tüm bu özelliklerle, ASCII kodlaması, başlangıçta yedi bit olarak öngörülmesine rağmen, sekiz bitti.

Programlarda Başvuru ASCII Microsoft Office.:

Eğer gerekliyse bu seçenek Bilgi kodlaması, Microsoft Notepad ve Microsoft'ta kullanılabilir. Ofis kelimesi.. Bu uygulamalarda, belge ASCII formatında kaydedilebilir, ancak bu durumda, yazarken bazı işlevleri kullanabileceğinizde.

Özellikle, cesur ve cesur mevcut değildir, çünkü kodlama yalnızca kazanılan bilgilerin anlamını ve genel bir görünüm ve formun anlamını korur. Aşağıdaki yazılım uygulamalarını kullanarak belgeye bu tür kodları ekleyebilirsiniz:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft Infopath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft Powerpoint;
  • Microsoft Project.

Bu uygulamalardaki ASCII kodunu çevirerek, Alt Klavye tuşunu basılı tutmanız gerektiğini akılda tutulmalıdır.

Tabii ki, gerekli tüm kodlar daha uzun ve kapsamlı bir çalışma gerektirir, ancak bugünün makalemizin ötesine geçer. Umarım senin için gerçekten faydalı oldu.

Yeni toplantılara!

İyi kötü

Bize bilinen bazı gerçekleri hatırlayın:

Metnin yazıldığı birçok karakter alfabeye denir.

Alfabedeki karakter sayısı gücüdür.

Bilgi miktarını belirlemek için formül: n \u003d 2 b,

n, alfabenin gücü (karakter sayısı),

b - bit sayısı (sembol bilgisi).

256 karakter gücüne sahip alfabe neredeyse tüm gerekli karakterleri yerleştirilebilir. Böyle bir alfabenin yeterli denir.

Çünkü 256 \u003d 2 8 , 1 sembolün ağırlığı 8 bittir.

Ölçüm Birimi 8 Bits Uygun İsim 1 Bayt:

1 byte \u003d 8 bit.

Bilgisayar metnindeki her sembolün ikili kodu 1 bellek baytı alır.

Bilgisayarın hafızasında hangi şekilde metin bilgisi sunulur?

Kodlama, her bir sembolün, 0 ila 255 arasında benzersiz bir ondalık kodu veya 00000000'den 1111111'den itibaren buna karşılık gelen ikili kodu doğrulmasıdır. Böylece, bir kişi karakterlerini tasarımlarına ve bilgisayarlarına göre ayırt eder.

Over-off sembolü kodlamanın rahatlığı açıktır, çünkü baytlar - hafızanın en küçük tarafsız kısmı ve bu nedenle işlemci, her karakterine metin işleme yaparak ayrı ayrı başvurabilir. Öte yandan, en çok çeşitli sembolik bilgiyi temsil edecek kadar 256 karakter yeterlidir.

Şimdi soru, her sembolle aynı sıraya girecek sekiz bit ikili kodu ortaya çıkar.

Bunun şartlı bir konu olduğu açıktır, birçok kodlama yöntemi ile gelebilirsiniz.

PC'ler için uluslararası standart ASCII tablosu haline geldi (Aski okuma) (bilgi alışverişi için Amerikan standart kodu).

Uluslararası standart sadece masanın ilk yarısıdır, yani. 0 (00000000), 127'ye kadar (01111111) sayıları olan semboller.

Seri numarası

Sembol

00000000 - 00011111


Onların işlevleri, ekranda metin çıkışı veya yazdırma işlemini kontrol etmek, ses sinyali, metin işaretlemesi vb.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


ASCII Kod tablosunun ikinci yarısı, kod sayfası (10.000.000.000.000.000 ile başlayan 128 kod) olarak adlandırılan, farklı seçeneklere sahip olabilir, her seçeneğin kendi numarasına sahip olabilir.


Dikkatinizi, harfin (büyük harf ve küçük harf), alfabetik sırayla düzenlenmesi durumunda dikkatinizi çekiyorum ve sayıların değerleri artan değerlerle sıralanır. Sembollerin düzenlenmesindeki sözlüksel siparişe bağlı olarak, alfabenin sıralı kodlama prensibi olarak adlandırılır.


En yaygın şu anda CP1251'in azaltılmasıyla gösterilen Microsoft Windows kodlamasıdır.

90'ların sonundan bu yana, sembol kodlamanın standardizasyonu sorunu, Unicode adında yeni bir uluslararası standartların tanıtılmasıyla çözülür. . Bu, 16 bitlik bir kodlama, yani. İçinde, her sembolün 2 bayt bellek verilir. Tabii ki, hafızanın miktarı 2 kez işgal edildi. Ancak bu kod tablosu 65536 karaktere kadar etkinleştirmenize olanak sağlar. Unicode standardının tam olarak özellikleri, dünyanın mevcut, soyu tükenmiş ve yapay olarak oluşturulan tüm alfabelerini, birçok matematiksel, müzikal, kimyasal ve diğer semboller içerir.

Kelimelerin bilgisayarın hafızasına nasıl görüneceğini hayal etmek için ASCII tablosunu kullanmaya çalışalım.

Sözler

Hafıza

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Bir bilgisayara metin bilgisine girerken, karakterler (harfler, sayılar, karakterler), metin bilgisi kodlaması için ilgili standartlar sayfalarında gönderilen bir kod tablosundan oluşan çeşitli kod sistemleri kullanılarak kodlanır. Bu gibi tablolarda, her karakter bir onaltılık veya ondalık sayı sisteminde belirli bir sayısal kod atanır, yani kod tabloları sembollerin ve sayısal kodların görüntüleri arasındaki yazışmaları yansıtır ve metin bilgilerinin kodlanması ve kod çözülmesi için tasarlanmıştır. Bir bilgisayar klavyesini kullanarak metin bilgisini girerken, girilen her karakter kodlanmış, yani, metin bilgisi bilgisayar çıkış aygıtında (ekran, yazıcı veya çizici) görüntülendiğinde, bir sayısal koda dönüştürülür. sembolün sayısal kodu. Belirli bir sayısal kodun atanması, farklı ülkelerin ilgili kuruluşlar arasındaki anlaşmanın sonucudur. Halen, farklı ülkelerin ulusal alfabelerinin mektuplarını karşılayan tek tip bir evrensel kod tablosu yoktur.

Modern kod masaları, uluslararası ve ulusal bir parçayı içerir, yani Latin ve ulusal alfabe, sayılar, aritmetik işlemler ve noktalama işaretleri belirtileri, matematiksel ve kontrol sembolleri, sözde semboller içerir. Standart dayalı kod tablosunun uluslararası kısmı ASCII (Bilgi Değişimi için Amerikan Standart Kodu),kod tablosu sembollerinin ilk yarısını 0 ila 7 arasında sayısal kodlarla kodlar F 16,veya 0 ila 127 arasında bir ondalık sayı sisteminde. Aynı zamanda, 0 ila 20 16 (0? 32 10) arasındaki kodlar, kişisel bilgisayar klavyesinin işlev tuşları (F1, F2, F3, vb.) ile yerleşir. . İncirde. 3.1, Standart'a göre kod tablosunun uluslararası kısmını göstermektedir. ASCII.Tabloların hücreleri, ondalık ve hexterior sayı sisteminde buna göre numaralandırılmıştır.

Şekil 3.1. Kod tablosunun uluslararası kısmı (standart ASCII)ondalık (A) ve onaltılık (B) sayı sisteminde sunulan hücrelerin sayısı ile


Kod tablolarının ulusal kısmı, sembol seti tablosu olarak da adlandırılan ulusal alfabe kodlarını içerir. (Charset).

Halen, çeşitli işletim sistemleri tarafından kullanılan, önemli bir dezavantaj olan ve bazı durumlarda, sayısal sembol değerlerinin kod çözme işlemleriyle ilgili sorunlara yol açan çeşitli işletim sistemleri tarafından kullanılan Rus alfabesinin (Kirilik) harflerini desteklemek için birkaç kod tablosu (kodlama) vardır. . Sekmesinde. 3.1 Kod sayfalarının (standartların) adları, Kirillerin (kodlama) hangi kod tablolarında gösterilir.

Tablo 3.1.

Bilgisayarlarda Kiril Kodlama İlk Standartlarından biri standart KOI8-R'dir. Bu standardın kod tablosunun ulusal kısmı, Şekil 2'de gösterilmiştir. 3.2.

İncir. 3.2. Kod tablosunun ulusal kısmı standart KOI8-R


Halen, işletim sisteminde kullanılan metin bilgilerinin CP866 sayfasında bir kod tablosu da uygulanır. MS DOS.veya çalışma oturumu MS DOS.sirik kodlama için (Şekil 3.3, fakat).

İncir. 3.3. CP866 Sayfada (A) ve CP1251 sayfasında (B) 'nin Milli Bölümü Standart'ı kodlayan metin bilgilerinin ulusal kısmı


Halen, aile işletim sistemlerinde kullanılan karşılık gelen standardın CP1251 sayfasında yayınlanan bir kod tablosu, Kiril kodlaması için en yaygın olarak dağıtılmıştır. pencerelerfirmalar Microsoft.(Şek. 3.2, b).Tüm sunulan kod tablolarında, standart masa hariç Unicode,bir sembolü kodlamak için, 8 ikili deşarj verilir (8 bit).

Geçen yüzyılın sonunda, yeni bir uluslararası standart ortaya çıktı Unicode,bir karakterin çift baytlı bir ikili kod ile temsil edildiği. Bu standardın uygulanması, ulusal sembol kodlamalarının uyumluluğu sorununu çözmeyi mümkün kılan evrensel bir uluslararası standart geliştirmeye devam etmektir. Üzerinden bu standart Kodlanabilir 2 16 \u003d 65536 farklı karakterler. İncirde. 3.4 Standartın 0400 (Rus alfabesi) kodunu gösterir. Unicode.

İncir. 3.4. Unicode standart kod tablosu 0400


Örneğin, metin bilgilerinin kodlanması konusunda söylenenleri açıklayalım.

Örnek 3.1.

CP1251 kodlamasını kullanarak "bilgisayar" kelimesini bir ondalık ve onaltılık sayılar dizisi biçiminde kodlamak. Elde edilen kodu kullanırken CP866 kod tablolarında ve KOI8-P'de hangi karakterler görüntülenecektir.

CP1251 kodlama tablosuna göre onaltılık ve ikili kod "bilgisayar" kelimesinin dizileri (bkz. Şekil 3.3, b)Şöyle görünecek:

CP866 kodlamalarındaki ve KOI8-P'daki bu kod dizisi, aşağıdaki sembollere neden olur:

Rus konuşan metin belgelerini bir standarttan diğerine kodlamak için bir standarttan dönüştürmek için, özel programlar kullanılır - Dönüştürücüler. Dönüştürücüler genellikle diğer programlara gömülür. Bir örnek, tarayıcı programıdır - Internet Explorer. (Yani),yerleşik bir dönüştürücüye sahip. Tarayıcı programı Özel program İçeriği görüntülemek için internet sayfalarıküresel olarak bilgisayar ağı İnternet. Örnek 3.1'de elde edilen karakterlerin ekranlarının sonuçlarını onaylamak için bu programı kullanıyoruz. Bunu yapmak için aşağıdaki işlemleri yapın.

1. Not Defteri programını başlatın (Not Defteri).İşletim sisteminde dizüstü bilgisayar programı Windows XP.komutu kullanmaya başlar: [Düğme Başlat - Standart Programlar - Not Defteri]. Açılan Notepad program penceresinde, köprü metni belge işaretleme dilinin sözdizimini kullanarak "Bilgisayar" kelimesini yazın - HTML (Hyper Metin İşaretleme Dili).Bu dil internette belgeler oluşturmak için kullanılır. Metin şöyle görünmelidir:

Bilgisayar

nerede

ve

Etiketler (Özel Tasarımlar) Dili Htmlbaşlıkları işaretlemek için. İncirde. 3.5 bu eylemlerin sonucunu sundu.

İncir. 3.5. Not Defteri penceresinde metin göstergesi


Bu metni komutu çalıştırarak kaydedin: [Dosya - Kaydet ...] Bilgisayarın uygun klasöründe, metin dosyasını kaydettiğinizde, adını - yaklaşık, dosya uzantısı ile atarsınız. HTML.

2. Programı başlatın Internet Explorer,komuta komutuna göre: [Düğme Başlat - Programlar - Internet Explorer].Programı başlattığınızda, bir pencere Şek. 3.6.

İncir. 3.6. Çevrimdışı Erişim Penceresi


Düğmeyi seçin ve etkinleştirin Çevrimdışıbu, bir bilgisayarı küresel bir internete bağlamaz. Programın ana penceresi görünecektir. Microsoft Internet Explorer,Şekil 2'de sunulmuştur. 3.7.

İncir. 3.7. Ana Pencere Microsoft Internet Explorer


Aşağıdaki komutu uygulayın: [Dosya - Aç], bir pencere, dosya adını belirlemek ve düğmeyi tıklamak istediğiniz (Şekil 3.8) görünecektir. TAMAM MI Veya düğmeye basın Genel Bakış ...ve yaklaşık. HTML dosyasını bulun.

İncir. 3.8. Pencere "açık"


Ana Internet Explorer programı, Şekil 2'de gösterilen görünümü alacaktır. 3.9. "Bilgisayar" kelimesi pencerede belirir. Sonra, programın üst menüsünü kullanarak Internet Explorer,aşağıdaki komutu yürüteceğiz: [View - Kodlama - Kiril (DOS)].Program penceresinde bu komutu yürüttükten sonra Internet ExplorerŞekilde gösterilen semboller görüntülenecektir. 3.10. Takım yürütürken: [View - Kodlama - Kiril (KOI8-R)]program penceresinde Internet Explorer.Şekilde gösterilen semboller görüntülenecektir. 3.11.

İncir. 3.9. CP1251'i kodlarken görüntülenen semboller


İncir. 3.10. CP1251 kodlamasına gönderilen kod dizisi için CP866 kodlaması açıkken görüntülenen semboller


İncir. 3.11. CP1251 kodlamasına gönderilen kod sırası için KOO8-P kodlaması açıkken görüntülenen semboller


Böylece program kullanılarak elde edilir Internet Explorer.karakterlerin dizileri, CP866 kod tabloları ve KOI8-P'de Örnek 3.1'de elde edilen karakterlerin sekanslarıyla çakışır.

3.2. Grafik Bilgilerini Kodlama

Çizimler, fotoğraflar, slaytlar, hareketli görüntüler (animasyon, video), şemalar, çizimler, bir bilgisayar kullanılarak oluşturulabilir ve düzenlenebilir Grafik bilgileri, uygun şekilde kodlanırken oluşturulabilir ve düzenlenebilir. Halen, grafik bilgisini işlemek için yeterince çok sayıda uygulama programı var, ancak hepsi üç tür bilgisayar grafikleri uygular: raster, vektör ve fraktal.

Bilgisayar monitörü ekranındaki grafik görüntüsünü yakından düşünürseniz, görebilirsiniz. çok sayıda Çok renkli noktalar (pikseller - İngilizce'den. piksel,eğitimli ot resim öğesi -görüntünün bir elemanı), bir araya getirilir ve bu grafik görüntüsünü oluşturur. Bundan itibaren sonuçlandırabiliriz: Bilgisayardaki grafik görüntüsü kesinlikle kodlanır ve bir grafik dosyası olarak gösterilmelidir. Dosya, bilgisayardaki organizasyonun ve depolamanın ana yapısal birimidir ve bu durumda bu durumdaki bu noktaları monitör ekranında nasıl gönderileceği hakkında bilgi içermelidir.

Vektör grafikleri temelinde oluşturulan dosyalar, matematiksel bağımlılıklar (doğrusal bağımlılıkları tanımlayan matematiksel işlevler) ve ilgili verileri, bilgisayar monitörüne çıkardığında hat segmentlerini (vektörler) kullanarak bir nesnenin görüntüsünün nasıl oluşturulacağı hakkında bilgi içerir. ekran.

Raster grafikler temelinde oluşturulan dosyalar, her bir resim noktasının veri depolanmasını varsayar. Raster grafiklerini görüntülemek için karmaşık bir matematiksel hesaplamalar gerekmez, her görüntü noktası (koordinatları ve rengi) hakkında veri elde etmek ve bunları bilgisayar monitörü ekranında görüntülemek yeterlidir.

Görüntüyü kodlama işleminde, uzamsal örneklemesi gerçekleştirilir, yani görüntü ayrı noktalara ayrılır ve her nokta renk koduna (Sarı, Kırmızı, Mavi vb.) Ayarlanır. Her renk grafik görüntüsünün her bir noktasının kodlanması için, keyfi renklerin ana bileşenleri üzerindeki ayrıştırma prensibi, üç ana renk kullanır: kırmızı (İngilizce kelime Kırmızımektubu belirtir İçin),yeşil (Yeşil,mektubu belirtir G)mavi (MAVİ,kundaklamak İÇİNDE).İnsan gözü tarafından algılanan noktaların herhangi bir rengi, üç ana rengin - kırmızı, yeşil ve mavi olan katkı maddesi (orantılı) ilavesi (karıştırılması) ile elde edilebilir. Böyle bir kodlama sistemi renk sistemi denir RGB.Dosyalar grafik görüntülerirenk sisteminin uygulandığı RGB,görüntünün her bir noktasını bir renk üçüz biçiminde temsil eder - üç sayısal değer R, G.ve İÇİNDE,kırmızı, yeşil ve mavi yoğunluğuna karşılık gelir. Bir grafik görüntüsünü kodlama işlemi, çeşitli kullanılarak gerçekleştirilir. teknik araçlar (tarayıcı, dijital kamera, dijital video kamera vb.); Sonuç olarak, bir raster görüntüsü elde edilir. Renkli ekran görüntüleri renk monitör ekranında oynatırken, bu görüntünün her bir noktasının (pikselinin) rengi, üç ana rengi karıştırılarak elde edilir. R, G. ve B.

Kalite raster görüntü İki ana parametre ile belirlenir - çözünürlük (yatay ve dikey noktalar sayısına göre) ve kullanılan renk paleti (görüntünün her bir noktası için belirtilen renk sayısı). Çözünürlük, puanın sayısını yatay ve dikey olarak, örneğin 800 puan 600 puan göstererek belirlenir.

Raster görüntü noktası tarafından tanımlanan renk sayısı ile noktanın rengini saklamak için tahsis edilmesi gereken bilgi miktarı arasında, ilişkiyle belirlenen bir bağımlılık vardır (Formula R. Hartley):

nerede BEN. - Bilgi miktarı; N -renk ayar noktası sayısı.

Noktanın renginin saklanması için gereken bilgi miktarı da renk derinliği veya renk kalitesi olarak da adlandırılır.

Yani, görüntü noktası için tanımlanan renk sayısı, N \u003d256, ardından formül (3.1) uyarınca depolama (renk derinliği) için gerekli bilgi miktarı eşit olacaktır. BEN. \u003d 8 bit.

Görüntülemek için bilgisayarlarda grafik Bilgisi Çeşitli grafik monitör çalışma modları kullanılır. Burada, monitörün grafiksel çalışma moduna ek olarak, monitör ekranının koşulsal olarak, satırdaki 80 karakterden oluşan 25 satıra bölündüğü bir metin modu da bulunduğundan da belirtilmelidir. Bu grafik modlar, monitör ekranının çözünürlüğü ve renk çoğaltılması (renk derinliği) ile karakterize edilir. İşletim sisteminde grafik monitör ekranı modunu ayarlamak için MS Windows XPkomutu çalıştırmalısınız: [Düğme Başlat - Kurulum - Kontrol Paneli - Ekran]. "Özellikler: Ekran" iletişim kutusunda (Şek. 3.12), "Parametreler" sekmesini seçmeli ve uygun ekran çözünürlüğünü seçmek için ekran çözünürlüğü kaydırıcısını kullanarak (600 puan başına 800, 1024 ila 768 puan, vb.). Renk oluşturma listesini kullanarak, renk derinliğini - "en yüksek (32 bit)", "ortalama (16 bit)", vb. Seçebilirsiniz, her görüntü noktası tarafından belirlenen renk sayısı ile sırasıyla 2'ye eşit olacaktır. 32 (4294967296), 2 16 (65536), vb.

İncir. 3.12. İletişim kutusu "Özellikler: Ekran"


Grafik modlarının her birini uygulamak için, monitör ekranı bilgisayar video belleğinin belirli bir bilgi hacmini gerektirir. Gerekli bilgi hacmi video hafızası (V)ilişkiden belirlendi

nerede -monitör ekranında görüntü noktaları sayısı (K \u003d A · b); FAKAT -monitör ekranındaki yatay nokta sayısı; İÇİNDE -monitör ekranında dikey olarak puan sayısı; BEN. - Bilgi miktarı (renk derinliği).

Bu nedenle, monitör ekranı 1024 ila 768 puan ve 65.536 renkten oluşan bir paleti varsa, formül (3.1) uyarınca renk derinliği i \u003d log 2 65 538 \u003d 16 bit, görüntü noktaları sayısı olacak: K \u003d.1024 x 768 \u003d 786432 ve (3.2) uyarınca gerekli bilgi belleğinin gerekli bilgi hacmi eşit olacaktır.

V \u003d.786432 · 16 bit \u003d 12582912 bit \u003d 1572864 byte \u003d 1536 KB \u003d 1.5 MB.

Sonuç olarak, listelenen kıyafetlerin yanı sıra en önemli özellikler Monitör, ekranının geometrik boyutları ve görüntü noktasıdır. Ekranın geometrik boyutları, diyagonal çapraz değerle belirtilir. Monitörlerin köşegeni inç olarak ayarlanır (1 inç \u003d 1 "\u003d 25.4 mm) ve 14", 15 ", 17", 21 "vb. Monitörlerin üretimi için modern teknolojilere eşittir. Görüntü noktası boyutu 0,22 mm'ye eşittir.

Böylece, her monitör için, diyagonal boyutu ve görüntü noktasının boyutu ile belirlenen ekranın mümkün olan maksimum çözünürlüğü vardır.

Kendi kendine yürütme için alıştırmalar

1. Programı kullanma Ms excelkod tablolarını ASCII, CP866, CP1251, KOI8-P Türlerine dönüştürün: Tabloların ilk sütununun hücrelerinde, alfabetik sırayla yazın, ardından ikinci el hücrelerinde, latin ve kirilin küçük harfleri. Sütun - Ondalık sayı sistemindeki harf kodlarına karşılık gelen, hücrede üçüncü sütun, onaltılık bir sayı sistemindeki karşılık gelen kodlardır. Kodlar ilgili kod tablolarından seçilmelidir.

2. Ondalık ve onaltılık sayı sisteminde sayılar dizisi olarak kodlama ve kaydedin Aşağıdaki kelimeler:

a) Internet Explorer,b) Microsoft Office;içinde) Corel çizgisi.

Önceki alıştırmada elde edilen yükseltilmiş bir ASCII kodlama tablosu kullanılarak üretmek için kodlama.

3. Yükseltilmiş bir kodlama tablosu kullanılarak kod çözülmesi KOI8-P HexadeMimal sayı sisteminde kaydedilen sayı dizisi:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. CP866 kodlamaları ve KOI8-P kullanırken, CP1251 kodlamasında kaydedilen "cybernetik" kelimesi nasıl yapılır? Sonuçları programla kontrol edin Internet Explorer.

5. Şekil 2'de gösterilen kod tablosunu kullanma. 3.1. fakat,İkili sayı sisteminde kaydedilen aşağıdaki kod dizilerinin kodunu çözün:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. CP866 kod tabloları, CP1251, Unicode ve KOI8-P kullanılarak kodlanan "Ekonomi" kelimesinin bilgi hacmini belirleyin.

7. 12x12 renkli görüntü taraması, cm sonucu olarak elde edilen dosyanın bilgi hacmini belirleyin. Bu görüntüyü tararken kullanılan tarayıcının çözünürlüğü 600 dPi'dir. Tarayıcı, görüntü renk derinliğini 16 bit olarak ayarlar.

Tarayıcıyı Çözme 600 DPI (DOTPER İNÇ -İnç Noktaları), 1 inç uzunluğundaki bir bölümde böyle bir çözünürlükle tarayıcıyı tarayıcısını belirler. 600 puanı ayırt eder.

8. Renkli bir görüntüyü A4 taramaktan kaynaklanan bilgi dosyasını belirleyin. Bu görüntüyü tararken kullanılan tarayıcının çözünürlüğü 1200 dpi'dir. Tarayıcı, 24 bit'in renk noktası renk derinliğini ayarlar.

9. Paletteki renk sayısını 8, 16, 24 ve 32 bit renk derinliğinde belirleyin.

10. Monitör ekranının (640 ila 480, 800 ila 600, 1024 ila 768, 800 ila 600, 1024 ila 768, 800 ila 600, 1024 ila 768, 800 ila 600, 1024 ila 768 ve 1280 için gerekli video belleğini belirleyin. Tabloyu azaltmak için sonuçlar. B geliştirmek Ms excelhesaplamaların otomasyonu programı.

11. Bilgisayar, 2 KB bellek görüntüsünün altına vurgulanırsa, bir görüntüyü 32 ila 32 puan ile saklamak için kullanılmasına izin verilen maksimum renk sayısını belirleyin.

12. Monitör ekranının, köşegen uzunluğu 15 "olan ve görüntü noktasının boyutu 0,28 mm'dir.

13. Monitörün grafik modları nelerdir 64 MB hacmi ile video belleği sağlayabilir?

Gömme

I. Bilgi Kodlama Tarihi .................................... ..3

II. Kodlama Bilgileri .................................................. 4

III. Metin bilgilerinin kodlanması .................................. 4

İv. Kodlama Tabloları Türleri .................................................. .. ... 6

V. Metin bilgisi sayısının hesaplanması .......................... 14

Kullanılan Literatür Listesi ...............................................

BEN. . Bilgi kodlama geçmişi

İnsanlık, ilk göründüğü andan itibaren metnin şifrelemesini (kodlaması) kullanır. gizli bilgi. İşte, insan düşüncesinin gelişmesinin çeşitli aşamalarında icat edilen metnin kodlanması için çeşitli teknikler:

Cryptography, metnin başlatılmamış kişiler için anlaşılmaz hale getirmek için bir harf değişim sistemi olan bir degradedir;

Mors Alfabe veya her bir harfin veya işaretinin kısa temel parsellerin birleşimi ile temsil edildiği düzensiz telgraf kodu elektrik akımı (noktalar) ve üç katlı sürenin temel parselleri (DASH);

slurgo - işitme bozukluğu olan insanlar tarafından kullanılan jest dili.

Bilinen ilk şifreleme yöntemlerinden biri, Roma İmparatoru Julia Caesar'ın adıdır (MÖ 21. yüzyıl). Bu yöntem, şifreli metnin her bir harfinin, alfabenin orijinal harften sabit karaktere kadar yer değiştirmesi ve alfabe bir daire içinde okunur, yani, I harfinden sonra, alfabe okunur. kabul ediyorum. Böylece, "bayt" kelimesi, sağdaki iki karakter "GVF" kelimesi tarafından kodlanır. Bu kelimenin tersi çözme işlemi - şifreli harflerin her birinin solundaki ikincisine değiştirilmesi gerekir.

II. Bilgi Kodlama

Kod, önceden belirlenmiş bazı konseptlerin kaydını (veya iletmek) bir dizi şartlı tanımlama (veya sinyaller).

Bilgi kodlaması, belirli bir bilgi sunumunu oluşturma sürecidir. Daha dar bir anlamda, "Kodlama" terimi genellikle bir bilgi sunumundan diğerine geçişi, depolama, şanzıman veya işleme için daha uygun hale getirir.

Genellikle, her görüntü kodlaması (bazen de derlerler - şifrelenmiş) ayrı bir işareti temsil eder.

İşaret, birbirinden başka bir öğe kümesinin elemanıdır.

Daha dar bir anlamda, "Kodlama" terimi, bir formun bir formundan bir formdan diğerine, depolama, iletim veya işleme için daha uygun bir şekilde geçişi anlar.

Bilgisayarda, metin bilgilerini işleyebilirsiniz. Bilgisayara girerken, her harf belirli bir sayı ile kodlanır ve harici bir cihaz (ekran veya yazdırma) görüntülenirken, bu sayıların algılanması için harflerin görüntüleri oluşturulur. Harfler ve sayılar arasındaki yazışma, karakterlerin kodlanması denir.

Kural olarak, bilgisayardaki tüm numaralar sıfırlar ve birimler kullanılarak sunulur (ve insanlara aşina olduğu gibi on rakam değil). Başka bir deyişle, bilgisayarlar genellikle bir ikili sayı sisteminde çalışır, çünkü işleme cihazları çok daha kolay elde edilir. Bilgisayara sayılar girerek ve bir kişi tarafından okumaya geri çekilmesi normal ondalık formda gerçekleştirilebilir ve gerekli tüm dönüşümler bilgisayarda çalışan programlar gerçekleştirir.

III. Kodlama Metin Bilgileri

Aynı bilgiler birkaç formda (kodlanmış) sunulabilir. Bilgisayarların görünümüyle, ayrı bir kişinin ve insanlığın bir bütün olarak sahip olduğu her türlü bilgiyi kodlamak gerekiyordu. Ancak, bilgiyi kodlama görevini çözmek için, insanlık bilgisayarlardan önce uzun sürdü. İnsanlığın büyük başarıları - yazma ve aritmetik - bir konuşma kodlama sistemi ve sayısal bilgiden başka bir şey yoktur. Bilgiler asla saf formunda görünmedi, bir şekilde kodlanmış, her zaman bir şekilde sunulur.

İkili Kodlama, bilgi sunmanın ortak yollarından biridir. Bilgisayar makinelerinde, robotlarda ve sayısal kontrol makinelerinde, kural olarak, cihazın bir davası olan tüm bilgileri, ikili alfabenin kelimeleri olarak kodlanır.

60'ların sonlarından bu yana, bilgisayarlar metin bilgisini idare etmek için giderek daha fazla kullandılar ve şimdi dünyadaki kişisel bilgisayarların (ve çoğu zaman) ana payı, tam metin bilgilerini işleme koymaktadır. Bilgisayardaki tüm bu bilgi türleri ikili kodda sunulur, yani alfabe iki güç ile kullanılır (sadece iki karakter 0 ve 1). Bunun nedeni, bir elektrik darbesi dizisi formunda bilgi sunmanın uygun olması nedeniyledir: darbe eksik (0), dürtü (1).

Böyle bir kodlama ikili olarak denir ve sıfır ve birimlerin mantıksal dizileri makine dilidir.

Bilgisayarın bakış açısına göre, metin bireysel karakterlerden oluşur. Sadece harfler (sermaye veya küçük harf, latince veya rusça) değil, aynı zamanda sayılar, noktalama işaretleri, özel karışımlar "\u003d", "(", ", vb.) Kelimeler arasında boşluklar.

Klavyeyi kullanarak metinler bilgisayarın hafızasına girilir. Harfler, sayılar, noktalama işaretleri ve diğer karakterler tuşlara yazılır. İÇİNDE veri deposu İkili kodda düştüler. Bu, her sembolün 8 bitlik bir ikili kod olduğu anlamına gelir.

Geleneksel olarak, bir karakteri kodlamak için, bilgi miktarı 1 bayt'a eşit, yani i \u003d 1 byte \u003d 8 bit. Muhtemel olayların sayısını ve bilgilerinin miktarını bağlayan bir formülün yardımı ile, kaç tane farklı karakterin kodlanabileceğini (sembollerin olası olayların yanı) kodlanabileceğini hesaplayabilirsiniz: K \u003d 2 i \u003d 2 8 \u003d 256, IE, metinsel bilgilerin sunumları için 256 karakter gücüyle alfabeyi kullanabilirsiniz.

Böyle bir sayıda karakter, Rus ve Latin alfabesinin, sayıların, işaretlerin, grafik sembollerinin, vb.

Kodlama, her bir sembolün, 0 ila 255 arasında benzersiz bir ondalık kodu veya 00000000'den 1111111'den itibaren buna karşılık gelen ikili kodu doğrulmasıdır. Böylece, bir kişi karakterlerini tasarımlarına ve bilgisayarlarına göre ayırt eder.

Over-off sembolü kodlamanın rahatlığı açıktır, çünkü baytlar - hafızanın en küçük tarafsız kısmı ve bu nedenle işlemci, her karakterine metin işleme yaparak ayrı ayrı başvurabilir. Öte yandan, en çok çeşitli sembolik bilgiyi temsil edecek kadar 256 karakter yeterlidir.

Bilgisayar ekranındaki sembolün çıktısı sırasında, ters işlem yapılır - kod çözülür, yani sembol kodu görüntüsüne dönüştürülür. Bir sembol atama önemlidir belirli kod - Bu, kod tablosunda sabitlenmiş bir anlaşma meselesidir.

Şimdi soru, her sembolle aynı sıraya girecek sekiz bit ikili kodu ortaya çıkar. Bunun şartlı bir konu olduğu açıktır, birçok kodlama yöntemi ile gelebilirsiniz.

Bilgisayar alfabesinin tüm sembolleri 0 ila 255 arasında numaralandırılmıştır. Sayı bile, 00000000'den 1111111'den sekiz bit ikili koduna karşılık gelir. Bu kod, sadece ikili sayı sistemindeki sembolün sekans numarasıdır.

İv . Kodlama tabloları türleri

Bilgisayar alfabesinin tüm karakterlerinin sekans numaralarına uygun olarak yapıldığı bir tablo, kodlama tablosu olarak adlandırılır.

İçin farklı şekiller Eum, çeşitli kodlama tablolarını kullanır.

Uluslararası bir standart olarak, ASCII Kod tablosu benimsenmiştir (Bilgi Değişimi için Amerikan Standart Kodu - Bilgi Değişimi için Amerikan Standart Kodu), Sayısal Kodlardaki Sayısal Kodlarla Numar Kodları (0 ila 32 arasındaki kodlar) Semboller, ancak fonksiyon tuşları).

ASCII Kod tablosu iki bölüme ayrılmıştır.

Uluslararası standart sadece masanın ilk yarısıdır, yani. 0 (00000000), 127'ye kadar (01111111) sayıları olan semboller.

ASCII kodlayan masa yapısı

Seri numarası Kodu Sembol
0 - 31 00000000 - 00011111

0'dan 31'e kadar olan sayılarla semboller denir.

Onların işlevleri, ekranda metin çıkışı veya yazdırma işlemini kontrol etmek, ses sinyali, metin işaretlemesi vb.

32 - 127 0100000 - 01111111

Masanın standart kısmı (İngilizce). Bu, Latin alfabesinin, ondalık sayıları, noktalama işaretlerinin, her türlü parantez, ticari ve diğer karakterlerin küçük harf ve büyük harfleri içerir.

Sembol 32 - Uzay, yani. Metinde boş pozisyon.

Diğerleri belirli işaretlerle yansıtılır.

128 - 255 10000000 - 11111111

Masanın alternatif kısmı (Rusça).

ASCII Kod tablosunun ikinci yarısı, kod sayfası (10.000.000.000.000.000 ile başlayan 128 kod) olarak adlandırılan, farklı seçeneklere sahip olabilir, her seçeneğin kendi numarasına sahip olabilir.

Kod sayfası öncelikle Latin dışındaki ulusal alfabeleri barındırmak için kullanılır. Rus ulusal kodlamalarında, Rus alfabesinin sembolleri masanın bu kısmına yerleştirilir.

ASCII kodlarının ilk yarısı

Kodlama tablosunda, harflerin (büyük harf ve küçük harf) alfabetik sırayla düzenlenmesi gerçeğine çekilir ve sayıların değerleri artırılarak sipariş edilir. Sembollerin düzenlenmesindeki sözlüksel siparişe bağlı olarak, alfabenin sıralı kodlama prensibi olarak adlandırılır.

Rus alfabesinin harfleri için seri kodlama ilkesi de gözlenir.

ASCII kodlarının ikinci yarısı

Ne yazık ki, şu anda beş farklı Kiril kodlaması var (KOI8-P, Windows. MS-DOS, Macintosh ve ISO). Bu nedenle, problemler genellikle Rus metninin bir bilgisayardan diğerine transferi ile ortaya çıkıyor yazılım sistemi başka bir.

Kronolojik olarak, bilgisayarlarda Rus harflerini kodlayan ilk standartlardan biri KOI8 ("bilgi alışverişi kodu, 8 bit") idi. Bu kodlama, 70'lerde AB AB serisinin bilgisayarları üzerindeki ve 80'li yılların ortalarından UNIX işletim sisteminin ilk Ruslu versiyonlarında kullanılmaya başladı.

90'ların başından itibaren, MS DOS işletim sisteminin egemenliğinin zamanı, CP866 kodlama kalır ("CP" "kod sayfası", "kod sayfası" anlamına gelir).

Mac OS işletim sistemini çalıştıran Apple bilgisayarlar kendi MAC kodlamalarını kullanır.

Ayrıca, Uluslararası Standartlar Örgütü, ISO), Rus dili için standart olarak ISO 8859-5 olarak adlandırılan başka bir kodlamayı onayladı.

En yaygın şu anda CP1251'in azaltılmasıyla gösterilen Microsoft Windows kodlamasıdır. Microsoft tarafından tanıtıldı; İşletim sistemlerinin (OS) (OS) (OS) 'nin yaygın yayılmasını ve Rusya Federasyonu'ndaki bu şirketin diğer yazılım ürünlerini dikkate alarak yaygınlaşmıştır.

90'ların sonundan bu yana, sembolik kodlamanın standardizasyonu sorunu, Unicode adlı yeni bir uluslararası standartların tanıtılmasıyla çözülür.

Bu, 16 bitlik bir kodlama, yani. İçinde, her sembolün 2 bayt bellek verilir. Tabii ki, hafızanın miktarı 2 kez işgal edildi. Ancak bu kod tablosu 65536 karaktere kadar etkinleştirmenize olanak sağlar. Unicode standardının tam olarak özellikleri, dünyanın mevcut, soyu tükenmiş ve yapay olarak oluşturulan tüm alfabelerini, birçok matematiksel, müzikal, kimyasal ve diğer semboller içerir.

Bilgisayar hafızasında dahili kelime görünümü

aSCII tablosunu kullanma

Bazen, başka bir bilgisayardan elde edilen, Rus alfabesinin harflerinden oluşan metnin okunamıyor - bazı "Abrakadabra" monitör ekranında görünebilir. Bu, bilgisayarlar, Rus dilinin sembollerinin farklı kodlamalarını kullandığı için olur.

Böylece, her kodlama kendi kod tablosu ile ayarlanır. Tablodan görülebileceği gibi, çeşitli kodlamalardaki aynı ikili kod çeşitli karakterlere uygun olarak yapılır.

Örneğin, CP1251 kodlamasında sayısal kodlar 221, 194, 204 dizisi "Bilgisayar" kelimesini oluştururken, diğer kodlamalarda anlamsız bir karakter kümesi olacaktır.

Neyse ki, çoğu durumda, kullanıcının, uygulamalara yapılan özel dönüştürücü programları yaptıkları için, metin belgelerinin kodunu çözmemelidir.

V. . Metin bilgisi sayısının hesaplanması

Görev 1: Koo8-P ve CP1251 kodlama tablolarını kullanarak "Roma" kelimesini temizleyin.

Karar:

Görev 2: Her karakterin bir bayt tarafından kodlandığını göz önünde bulundurarak, aşağıdaki cümlenin bilgi hacmini takdir edin:

"En dürüst kuralların amcam,

Şaka yapmadığında,

Kendini zorladı

Ve icat edilemeyecek daha iyiydi. "

Karar: Bu cümlede, noktalama işaretleri, tırnak ve boşluklar verilen 108 karakter. Bu miktarı 8 bit ile çarpın. 108 * 8 \u003d 864 bit alırız.

Görev 3: İki metin aynı sayıda karakter içerir. İlk metin, Rusça'da kaydedilir ve ikinci, alfabenin 16 karakterden oluşan Naguri kabilesinin dilinde. Kimin metni daha fazla bilgi taşıyor?

Karar:

1) i \u003d k * a (metnin bilgi hacmi, bir sembolün bilgi ağırlığına karakter sayısının ürününe eşittir).

2) çünkü Her iki metin de aynı sayıda karaktere sahiptir (K), daha sonra fark, tek bir alfabe sembolünün (a) bilişimine bağlıdır.

3) 2 A1 \u003d 32, yani A 1 \u003d 5 bit, 2 A2 \u003d 16, yani. A 2 \u003d 4 bit.

4) I 1 \u003d K * 5 bit, I 2 \u003d K * 4 bit.

5) Öyleyse, Rusça kaydedilen metin 5/4 kat daha fazla bilgidir.

Görev 4: 2048 karakter içeren bir mesajın hacmi MB'nin 1/512 bölümüne aittir. Alfabenin gücünü belirleyin.

Karar:

1) i \u003d 1/512 * 1024 * 1024 * 8 \u003d 16384 bit - bilgi bilgisi bitlere aktarıldı.

2) a \u003d i / k \u003d 16384/1024 \u003d 16 bit - bir alfabe sembolü için hesaplar.

3) 2 * 16 * 2048 \u003d 65536 karakter - kullanılan alfabenin gücü.

Görev 5: Lazer yazıcı Canon LBP saniyede ortalama 6.3 Kbps'de basar. Bir sayfada ortalama 45 satırda, 70 karakter (1 sembol - 1 bayt), bir sayfada olduğu biliniyorsa, 8 sayfalık bir belge yazdırmanız gerekir.

Karar:

1) Biz 1 sayfada yer alan bilgi miktarını buluruz: 45 * 70 * 8 bit \u003d 25200 bit

2) 8 sayfadaki bilgi miktarını bulun: 25200 * 8 \u003d 201600 bit

3) tek bir ölçüm birimlerine yol açar. Bu Mbity için bitlere çeviriyoruz: 6.3 * 1024 \u003d 6451.2 bit / s.

4) Baskı Süresi Bulun: 2016: 6451.2 \u003d 31 saniye.

Bibliyografi

1. Ageev v.m. Bilgi teorisi ve kodlama: Ölçüm bilgilerinin örneklenmesi ve kodlanması. - m.: Mai, 1977.

2. KUZMIN I.V., Kedrus V.A. Bilgi ve kodlama teorisinin temelleri. - Kiev, Okul Yardımcısı, 1986.

3. Metin Şifrelemesi / D.m. Zlatopolsky. - m.: Temiz havuzlar, 2007 - 32 s.

4. Ugrinovich N.D. Bilişim I. bilişim teknolojisi. 10-11 sınıf / N.D. Vugrinovich için öğretici. - m.: Binom. Bilgi Laboratuvarı, 2003. - 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n.

Ders 2'de kendi kendine çalışma için malzeme 2

Kodlama ASCII.

ASCII Kodlama Masası (ASCII - Bilgi Değişimi için Amerikan Standart Kodu - Exchange Bilgi için Amerikan Standart Kodu).

Toplamda, ASCII kodlama tablosunu kullanarak (Şekil 1), 256 farklı karakteri kodlayabilirsiniz. Bu tablo iki bölüme ayrılmıştır: ana (OOH kodları ile 7FH'ye kadar olan) ve ek (80H'den FFH'ye, H harfinin HexadeMimal sayı sistemine kodları belirtir).

Resim 1

Bir karakteri tablodan kodlamak için 8 bit (1 bayt) verilir. Metin bilgilerini işlerken, bir bayt, bazı sembollerin bir kodunu içerebilir - harfler, sayılar, noktalama işareti, eylem işareti vb. Her karakter bir tamsayı biçiminde koduna karşılık gelir. Aynı zamanda, tüm kodlar, kodlama adı verilen özel tablolarda toplanır. Yardımlarıyla, sembol kodu monitör ekranındaki görünür görünümüne dönüştürülür. Sonuç olarak, bilgisayarın hafızasındaki herhangi bir metin, sembol kodlarıyla bayt dizisi olarak gösterilir.

Örneğin, merhaba kelime! aşağıdaki gibi kodlanır (Tablo 1).

tablo 1

İkili kod

Kod Ondalık

Şekil 1, standart (İngilizce) ve uzatılmış (Rusça) olan ASCII'yi kodlayan sembolleri göstermektedir.

ASCII tablosunun ilk yarısı standartlaştırılmıştır. Kontrol kodları içerir (00H ila 20H ve 77H). Tablodaki bu kodlar, metin öğelerine ait olmadıkları için ele geçirilir. Noktalama işaretleri ve matematiksel işaretlerin işaretleri vardır: 2LH -!, 26H - & 28H - (, 2BH - +, ..., geniş ve küçük latin harfleri: 41H - A, 61H - a.

Tablonun ikinci yarısı, ulusal yazı tipleri, psödografik sembolleri, hangi masalardan, özel matematiksel işaretler inşa edilebilir. Kodlama tablosunun alt kısmı, uygun sürücüler - kontrol yardımcı programları kullanılarak değiştirilebilir. Bu teknik, birkaç yazı tipi ve kulaklıklarını uygulamanıza olanak sağlar.

Her sembol kodu için ekran, sembol görüntüsünü göstermelidir - sadece bir dijital kod değil, karşılık gelen resim, her bir sembolün kendi formuna sahip olduğundan. Her karakterin formunun şekli, özel bir ekran belleğinde depolanır - bir işaretogeneratör. Örneğin, Ekran Ekran IBM PC'deki sembolü vurgulayın, örneğin, sembolik bir matris oluşturan noktaları kullanarak gerçekleştirilir. Böyle bir matrisdeki her piksel bir görüntü elemanıdır ve parlak veya karanlık olabilir. Karanlık nokta, 0 numaralı, parlak (parlak) - 1 ile kodlanır. Matris alanındaki matris alanındaki karanlık pikselleri ve parlak yıldız işareti, sembolün şeklini grafiksel olarak canlandırabilirsiniz.

Farklı ülkelerdeki insanlar, yerli Zykov'un sözlerini kaydetmek için semboller kullanır. Günümüzde, sistemler de dahil olmak üzere çoğu uygulama e-posta Ve web tarayıcıları saf 8 bit, yani, ISO-8859-1'e göre 8 bit karakterleri gösterebilir ve doğru şekilde algılayabilirler.

Dünyada 256'dan fazla karakter var (Kiril, Arapça, Çince, Japonca, Korece ve Tay dillerini de düşünüyorsanız) ve tüm yeni ve yeni semboller görünür. Ve birçok kullanıcı için aşağıdaki boşlukları oluşturur:

Aynı belgedeki çeşitli kodlama kümelerinin karakterlerini kullanmak mümkün değildir. Her metin belgesi kendi kodlama kümesini kullandığından, otomatik metin tanıma ile büyük zorluklar var.

Yeni karakterler görünür (örneğin: Euro), bunun bir sonucu olarak, ISO-8859-1 standardına çok benzer olan yeni bir ISO-8859-15 standardı geliştiriyor. Fark şu şekildedir: Eski para birimlerinin belirlenmesi için semboller, yeni görünen karakterler için yer açmak için şu anda kullanılmayan ISO-8859-1 kodlama tablosundan çıkarılır (Euro gibi). Sonuç olarak, disklerdeki kullanıcılar aynı belgeleri azaltabilir, ancak farklı kodlamalarda. Bu sorunların çözümü, evrensel kodlama veya Unicode denilen tek bir uluslararası kodlama kümesinin benimsenmesidir.

Kodlama Unicode.

Standart, 1991 yılında "Unicode Consortium" (ENC. Unicode Consortium, Unicode Inc.) tarafından kar amacı gütmeyen kuruluşlar tarafından önerilmiştir. Bu standardın uygulanması, çok kodlamanızı sağlar büyük sayı Farklı yazılı dillerden semboller: Çince karakterler, matematiksel semboller, Yunan alfabesinin harfleri, Latin ve Kiril ve Kiril, Unicode belgelerinde bitişik olabilir ve gereksiz anahtarlama kodu sayfaları olur.

Standart iki ana bölümden oluşur: evrensel bir karakter kümesi (UCS, evrensel karakter kümesi) ve bir kodlama ailesi (İngilizce UTF, Unicode dönüşüm formatı). Evrensel karakter kümesi, kodlu karakterlerin belirli bir şekilde uygunluğunu ayarlar - negatif olmayan tamsayıları temsil eden kod alanının elemanları. Kodlama ailesi, UCS kodları dizisinin makine temsilini belirler.

Unicode standardı, tüm modern ve birçok antik yazılı dillerin sembollerinin tek bir kodlaması oluşturmak için tasarlanmıştır. Bu standarttaki her sembol, 16 bit ile kodlanır, bu da daha önce alınan 8 bitlik kodlamalardan daha fazla karakter kapsamaz. Unicode'un diğer kodlama sistemlerinden bir diğer önemli ayrımı, yalnızca her sembole öznitelik değil. benzersiz kod, ancak bu sembolün çeşitli özelliklerini de belirler, örneğin:

    sembol tipi (büyük harf, küçük harf, rakam, noktalama işareti, vb.);

    sembol öznitelikleri (soldan sağa veya sağ sola, boşluk, satır sonu, vb.);

    uygun büyük veya küçük harf (sırasıyla küçük harf ve büyük harfler için);

    İlgili sayısal değer (dijital karakterler için).

0'dan FFFF'den gelen tüm kodlar arasında, her biri bir tür dilin alfabesine veya işlevlerine benzer bir grup özel karakter grubuna karşılık gelen çeşitli standart alt gruba ayrılır. Aşağıdaki şema, Unicode 3.0'ın toplam alt gruplar listesini içerir (Şekil 2).

Şekil 2.

Unicode standardı, birçok modern bilgisayar sisteminde depolama ve metnin temelidir. Bununla birlikte, çoğu internet protokolüyle uyumlu değildir, çünkü kodları herhangi bir bayt değerleri içerebilir ve protokoller genellikle hizmet olarak 00 - 1F ve Fe - FF bayt kullanır. Uyumluluk elde etmek için, bugün en yaygın UTF-8 olan birkaç UNICODE dönüşüm formatı geliştirilmiştir (UTFS, Unicode Dönüşüm Biçimleri). Bu format, her bir Unicode kodunu internet protokollerini taşımak için uygun bir dizi bayt (bir ila üç) dönüştürmek için aşağıdaki kuralları tanımlar.

Burada X, Y, Z, belirlenen pozisyonların tamamı dolduruluncaya kadar, gençlikten çıkarılması gereken kaynak kodun bitlerini gösterir.

Unicode standardının daha da gelişmesi, yeni dil düzlemlerinin eklenmesiyle ilişkilidir, yani. 10.000 - 1ffff, 20.000 - 2ffff, vb. Aralıklarındaki semboller, yukarıdaki tabloya girmeyen ölü dillerin yazılarının kodlanmasını içermesi gerekiyor. Bu ek karakterleri kodlamak için, yeni bir UTF-16 formatı geliştirildi.

Böylece, Unicode formatında bayt kodlamanın 4 ana yolu vardır:

UTF-8: 128 karakter bir bayt (ASCII formatı) tarafından kodlanır, 1920 karakter 2 baytla kodlanmıştır ((Roma, Yunan, Kiril, Kıpır, Ermeni, İbranice, Arapça Semboller), 63488 karakter 3 bayt tarafından kodlanır (Çince) , Japon ve ark.) Kalan 2 147 418 112 karakter (henüz kullanılmadı) 4, 5 veya 6 bayt ile kodlanabilir.

UCS-2: Her sembol 2 bayt ile temsil edilir. Bu kodlama, yalnızca Unicode formatındaki ilk 65,535 karakter içerir.

UTF-16: UCS-2'nin bir uzantısıdır, 1 114 112 Unicode formatı karakter içerir. İlk 65.535 karakter, 2 bayt, geri kalanı - 4 bayt olarak temsil edilir.

USC-4: Her karakter 4 bayt tarafından kodlanır.