Textová informácia
Pomocou počítača spracovávame rôzne typy informácií (obrazové, zvukové, textové). Textové informácie tvoria veľký podiel všetkej spracovávanej informácie. SMS správy, chat, email, webové stránky... sú všetko textová informácia.
Reprezentácia textovej informácie v počítači
Vieme, že počítač uchováva a spracúva informácie reprezentované v binárnej podobe (zapísané pomocou jednotiek a núl). Ak si teda chceme pri práci pomôcť počítačom, informácia, ktorú mu zadávame, musí byť takto zapísateľná. Ako však zapísať text (napríklad nákupný zoznam alebo email) len pomocou 0 a 1?
Prevod (preklad) informácie do číselnej podoby (takej, ktorej "rozumie" počítač) nazývame digitalizácia. Vo všeobecnosti pozostáva z dvoch fáz:
- vzorkovania - informáciu rozdelíme na (vhodne malé) časti, ktoré sa opakujú (alebo inak: informáciu sa snažíme rozdeliť tak, aby sme po rozdelení mali veľa rovnakých častí)
- kvantovania - časti očíslujeme (rovnakým častiam priradíme rovnaké číslo)
Ako tento postup použiť pri digitalizácii textu? Začnime vzorkovaním. Aké malé časti sa v texte vyskytujú a opakujú sa? (Alebo: z akých malých častí vieme vyskladať (hocijaký) text?) Z písmen! Pokračujme kvantovním - každému písmenu priradíme nejaké číslo, napríklad "a" bude 1, "b" bude 2... písmen poznáme určite menej ako čísel (tých je nekonečno), takže nebude problém každému písmenu priradiť unikátne číslo. Následne by sme vedeli digitalizovať hocijaký text (aj nezmyselný), napríklad text "ababa" by bol "1 2 1 2 1", čo sa dá zapísať v binárnej sústave ako "01 10 01 10 01".
Takýto postup sa naozaj používa aj v praxi. Existujú rôzne kódovania ("slovníky"), ktoré jednotlivým znakom prideľujú čísla. Pri spracovaní textovej informácie je veľmi dôležité vedieť aké kódovanie sa použilo pri kódovaní, inak by sme neboli schopní informáciu z číselnej podoby znova "preložiť" do pre nás čitateľnej podoby. Pozrime sa na príklady kódovania textu.
ASCII
- ASCII je jeden z príkladov základného kódovania textu
- aké číslo priradíme akému znaku určuje ASCII tabuľka
- ASCII používa na kódovanie jedného znaku 7 bitov
- pomocou 7 bitov vieme zakódovať 27 = 128 rôznych znakov)
- prvých 32 znakov v ASCII tabuľke je netlačiteľných, sú riadiace, používané pri riadení periférií (napr. tlačiarne). Patria sem napríklad znaky označujúce koniec riadku alebo špeciálny znak označujúci koniec súboru
- tabuľka ASCII je na obrázku nižšie, stĺpec decimal určuje číslo znaku v desiatkovej sústave (to sa dá už ľahko previesť do dvojkovej), v stĺpci char je kódovaný znak
https://cdn-images-1.medium.com/max/1600/1*DdgD00dAdXggzMdWDt7GSA.png
- problém ASCII: v tabuľke je málo znakov (obsahuje len tie z anglickej abecedy), rôzne jazyky však vyžadujú viac znakov, napríklad pre slovenčinu potrebujeme zakódovať i písmená s mäkčeňom a dĺžňom, Azbuka má tiež iné symboly a viacero ázijských jazykov vyžaduje mnoho ďalších...
- riešenie: použijeme viac bitov na kódovanie
ANSI (Windows-1252) (o tomto sme na hodne asi nehovorili, ale prečítajte si...)
- ak na Windows-e otvoríte napríklad textový editor Wordpad a pokúsite sa uložiť súbor, v ponuke by malo byť aj ANSI
- ANSI je označenie pre štandardné kódovanie v systéme, napríklad na Windows je to kódovanie Windows-1252
- na kódovanie jedného znaku používa 8 bitov = 1 byte, čo umožňuje zakódovať dvakrát toľko znakov ako v ASCII tabuľke. Windows-1252 obsahuje všetky znaky ASCII (v prvej polovici) a v druhej má znaky Latinskej abecedy, potrebné pre kódovanie väčšiny európskych jazykov. Výhodou je, že na jeden znak stačí jeden byte (256 rôznych znakov). Ani jeden byte však nestačí na kódovanie všetkých znakov používaných vo svete...
Unicode
- Unicode je štandard pre kódovanie, poznáme rôzne formáty, napríklad UTF-16 alebo UTF-8
- definuje kódovanie 1 112 064 rôznych znakov, Emoji a riadiacich znakov
- UTF-16 používa na kódovanie každého znaku 2 alebo 4 bajty
- UTF-8 používa na kódovanie každého znaku 1 až 4 bajty
- často používané znaky (anglická abeceda) sú kódované menšími číslami, na ich uloženie stačí menej pamäte
- prvých 128 znakov je kódovaných rovnako ako v ASCII tabuľke, to znamená, že každý text zakódovaný pomocou ASCII tabuľky je vlastne zakódovaný v Unicode UTF-8
- kódovanie Unicode UTF-8 často používajú webstránky (podľa Wikipédie ho v roku 2020 používalo viac ako 95% webstránok)
- pozrite sa, čo všetko obsahuje Unicode
- Unicode obsahuje aj emoji
Programy na prácu s textom
spracovanie textu v počítači nám uľahčujú rôzne programy, sú to najmä:
- textové editory
- umožňujú upravovať text bez formátovania
- napríklad: PSPad, Notepad, Vim, Notepad++
- používame ich napríklad pri programovaní
- textové procesory
- umožňujú vytváranie formátovaného textu (môžeme určiť veľkosť, štýl, rozloženie...)
- napríklad: MS Word, OpenOffice Writer, WordPad
- používame ich napríklad pri tvorbe úradných dokumentov, referátov... všade kde
nám záleží na formátovaní
Schoolwork - homework