Web-julkaisemisen opas, luku 1 Jambalaya: Miten teen Web-sivun:

Teksti Webiin

Aloitamme sillä, miten julkaistaan pelkkää tekstiä Webissä. Kuulostaa vaatimattomalta, mutta tässä käsiteltäviä perusasioita tarvitaan muissakin Web-julkaisemisen muodoissa. Sitä paitsi jos jokin aineisto on jo olemassa pelkkänä tekstinä, tässä käsiteltävä tapa julkaista se on nopea. Kun se on tehty, voi sitten seuraavaksi miettiä, miten sen voisi julkaista myös muissa muodoissa.

Oletetaanpa, että minulla on ruokaresepti omassa tietokoneessani, kirjoitettuna jollakin yksinkertaisella editorilla, esimerkiksi Muistio eli NotePad tai Emacs; jos on käytetty tekstinkäsittelyohjelmaa kuten MS Word tai WordPerfect, oletamme, että olen tallentanut tiedoston pelkkänä tekstinä, toiminnon "Save As..." kautta. Reseptin sisältö ja muoto on tässä toistaiseksi epäolennainen. Kysymys on nyt vain siitä, miten saan tekstin Webiin. Mutta seuraavassa on havainnollisuuden vuoksi tekstin alkua:

Oletamme, että tekstit ovat tietokoneella luettavassa muodossa eli hienosti sanottuna digitaalisessa muodossa tai ne kirjoitetaan sellaiseen muotoon tietokoneohjelmalla. Pelkästään paperilla oleva teksti ehkä kannattaa yrittää saada digitaaliseen muotoon skannerilla käyttäen tekstintunnistusta (OCR). Ohjeet löytyvät skannerin manuaaleista. Menettelyn onnistuminen ja se, paljonko tulosta tarvitsee korjailla "käsin", riippuu mm. painoasun laadusta. Mahdollisesti teksti kannattaa tallentaa RTF-muodossa ja ehkä muuntaa siitä HTML-muotoon.

Tekstin kopiointi Webiin

Yleisesti sanottuna tekstin laittaminen Webiin käy näin:

  1. Kopioit tiedoston omasta koneestasi sellaiseen koneeseen, joka toimii Web-palvelimena (Web server). Yleisimmin kopiointi tehdään FTP-ohjelmalla. Siirtäessäsi teksti- tai HTML-tiedostoa huolehdi siitä, että FTP-ohjelma tekee siirron tekstimoodissa, jolloin se huolehtii merkkikoodien erojen vaatimista muunnoksista; tyypillisesti FTP-ohjelmaa määrätään tekstimoodiin käskyllä ascii. Kopiolle voidaan antaa eri nimi kuin alkuperäiselle. Palvelimeen laitettavan kopion nimen on hyvä olla yksinkertainen, mielellään vain pieniä englannin kielen kirjaimia a-z ja niiden jälkeinen eräänlainen tyyppimerkintä kuten pelkkää tekstiä sisältävälle tiedostolle .txt eli kaikkiaan esimerkiksi
    jamba.txt
    Nimeämisestä tarkemmin ks. Jakob Nielsenin kirjoitusta URL as UI. URLien pysyvyyden merkityksestä ks. Tim Berners-Leen kirjoitusta Cool URIs don't change.
  2. Tarvittaessa huolehdit siitä, että tiedoston suojaukset sallivat koko maailman lukea sitä.
  3. Voidaksesi sitten kertoa muille, miten he löytävät tiedostosi, sinun on hankittava tieto siitä, mikä sen Web-osoite eli URL on.

Kuulostaako kovin yleiseltä? Ja mukana on hämäriä teknisiä sanoja, joita et ymmärrä? Niinpä. Tarkemmat tiedot sinun täytyy hankkia sieltä, missä ne tiedetään.

Lue "paikalliset" ohjeet!

Aineiston laittamiseksi Webiin tarvitset yksityiskohtaiset ohjeet palveluntarjoajaltasi. Palveluntarjoaja, englanniksi (Internet) service provider, tarkoittaa organisaatiota, jonka tietokone- ja tietoliikenneresursseja käytät Internet-yhteyksissäsi. Suppeammassa merkityksessä kyse on kaupallisesta yrityksestä, joka tarjoaa resursseja maksua vastaan. Palveluntarjoajina voidaan pitää myös organisaatioita, jotka tarjoavat resurssejaan käytettäväksi maksutta, tavallisimmin pakkomainonnan kera. Usein niiden tarjoaman "palvelun" laatu ja luotettavuus vastaavat hintaa.

Esimerkkeinä siitä, millaisia nämä ohjeet voivat olla, mainittakoon seuraavat:

Valitettavasti palveluntarjoajien ohjeet ovat usein puutteellisia tai ainakin pinnallisia. Mitä teknisemmästä asiasta on kyse, sitä todennäköisemmin joudut itse perehtymään asiaan palvelinohjelmiston (Web server software, HTTP server) dokumentaatiosta. Toivottavasti palveluntarjoaja osaa edes kertoa, mikä palvelinohjelmisto on käytössä (nimi ja versionumero)! Jos ei, niin sen voi selvittää esimerkiksi Delorien sivulla HTTP Header Viewer olevalla lomakkeella. Lisäksi tarvitset tiedon siitä, mitä piirteitä ohjelmistossa on käytössä. Palvelinohjelmistot nimittäin voidaan asentaa eri tavoin, ottaen käyttöön tai jättäen pois erilaisia mahdollisuuksia. Esimerkiksi yleisimmässä palvelinohjelmistossa Apachessa on runsaasti tällaisia konfigurointimahdollisuuksia. Valitettavasti voi käydä niin, että joudut näitäkin asioita selvittelemään itse, kokeilemalla, toimiiko jokin palvelinohjelmiston dokumentaatiossa kuvattu piirre. (Silloin kannattaa testata sitä mahdollisimman yksinkertaisessa muodossa; muutenhan voi käydä niin, että piirre sinänsä toimii mutta tapasi käyttää sitä on väärä!) Eri palvelinohjelmistojen yleiskuvauksia ja alkuperäisdokumentaatioita löytyy WebServer Compare -sivuston sivun Server Directory kautta.

Mitä on saatu aikaan eli mitä on "pelkkä teksti" Webissä

Esimerkkidokumenttimme on osoitteessa http://www.cs.tut.fi/~jkorpela/jamba.txt ja se on siis pelkkää tekstiä (plain text).

Jos katsot esimerkkiä Web-selaimella, huomaat, että selain näyttää sen todellakin pelkkänä tekstinä yhtä ainoaa kirjasinlajia (fonttia) käyttäen. Kirjasinlaji on todennäköisesti tasalevyinen (monospace) kuten vanhimmissa kirjoituskoneissa: kaikki merkit (esim. M ja i) vievät yhtä paljon tilaa vaakasuunnassa. Tälle vastakohtana suhteellinen (proportional) kirjasinlaji on sellainen, jossa esim. M on selvästi leveämpi kuin i. Yleensä suhteellinen fontti on paljon miellyttävämpää lukea ja kauniimpaa.

Toisaalta teksti jakautuu eri riveille juuri sillä tavalla, kuin se alun perin tiedostoon kirjoitettiin. Lisäksi välilyönnit (blankot) säilyvät sellaisinaan. Täten tekstin muotoilu säilyy, mikä mahdollistaa esim. alkeellisen taulukoinnin. HTML-kielessä tilanne on yleensä aivan toinen: rivinvaihdot ja sananvälien leveydet määrää selain muotoillessaan tekstiä näytölle, ja taulukointiin käytetään (paljon kehittyneempää) erityistä taulukkorakennetta. HTML:ssä voidaan kuitenkin tilapäisesti siirtyä "pelkkää tekstiä" -muotoon pre-elementillä.

Pelkkä teksti on siis "valmiiksi muotoiltua" (preformatted). Tämä merkitsee joustamattomuutta siinä mielessä, että tekstin leveys ei mukaudu selaimen ikkunan leveyteen. Lisäksi teksti on melko tylsän näköistä lukea. Toisaalta se on luettavissa käytännöllisesti katsoen millaisella laitteella tahansa, kunhan vain näyttöalueen (ikkunan) leveys riittää.

Web-osoitteet ja muut URLit

Lyhenne URL johtuu sanoista Uniform (tai alkujaan Universal) Resource Locator ja tarkoittaa yleisesti osoitetta, joka viittaa Internetissä olevaan "resurssiin", joka voi olla esimerkiksi tekstidokumentti, HTML-dokumentti, kuva, äänite tai ohjelma. Tavallisimmin URL viittaa Webissä olevaan "resurssiin", jolloin sitä voi kutsua Web-osoitteeksi. Yleisemmin URL voi viitata myös vaikkapa FTP-palvelimeen.

Edellä esimerkkinä mainittu URL eli http://www.cs.tut.fi/~jkorpela/jamba.txt on melko tyypillistä muotoa. Se voidaan jakaa osiin seuraavasti:

http:// Alkuun kuuluva "pakollinen kuvio". Sitä ei pidä jättää pois osoitetta ilmoitettaessa, vaikka monet selaimet löytävät sivun ilman sitäkin silloin, kun osoite näpytellään suoraan selaimelle.
www.cs.tut.fi Tämä on sen Web-palvelimen Internet-nimi, jossa dokumentti on. Nimi jakautuu kenttiin, joilla on omat merkityksensä, mutta käytännössä riittää, että saat omalta palveluntarjoajaltasi tiedon siitä, mikä käyttämäsi palvelimen nimi on.
/~jkorpela/ Tämä kertoo dokumentin sijainnin palvelimessa; käytännössä se kertoo tässä tapauksessa, että dokumentti on siellä, missä käyttäjätunnuksen jkorpela Web-sivut ovat. Usein tämä osa on juuri muotoa /~käyttäjätunnus/ mutta voi olla myös esimerkiksi /u/käyttäjätunnus/ tai /home/käyttäjätunnus/. Se, että tilde-merkki ~ on usein otettu osaksi URLien rakennetta, on valitettavaa, koska tämä merkki aiheuttaa monenlaisia sotkuja. Sen asemesta voidaan käyttää merkintää %7e, mutta kokemus on osoittanut, että sekin usein tulkitaan väärin. Toivottavasti et joudu tildesotkun kanssa tekemisiin.
jamba.txt Tämä on tiedoston nimi. Nimen loppuosalla kuten .txt ei periaatteessa ole mitään erityistä merkitystä, mutta käytännössä Web-palvelimet on yleensä ohjelmoitu niin, että ne lähettävät dokumentin mukana tiedon siitä, mitä ns. mediatyyppiä se on. Erityisesti tiedoston nimen loppu .txt on useimmille Web-palvelimelle kehotus lähettää tieto siitä, että dokumentti on pelkkää tekstiä (englanniksi plain text).

Jos URLin lopussa on vinoviiva, se yleensä tarkoittaa sitä, että URL viittaa hakemistossa olevaan oletustiedostoon. Esimerkiksi http://www.cs.tut.fi/~jkorpela/ sattuu tarkoittamaan samaa kuin http://www.cs.tut.fi/~jkorpela/index.html, kuten kohdassa Oletustiedostot tarkemmin kerrotaan. Lopussa oleva vinoviiva ei tällöin suinkaan ole tarpeeton, vaikka URL ehkä toimii ilman sitäkin.

Kirjoitettaessa URL esimerkiksi mainokseen, paperille, meiliviestiin tms. on pyrittävä välttämään sen jakamista tai jakautumista eri riveille. Erityisesti mahdollisen yhdysmerkin kohdalta jakaminen on paha juttu, koska silloin lukija ei tiedä, kuuluuko yhdysmerkki itse URLiin. Etenkin meilissä ja nyyseissä on pyrittävä siihen, että URLin molemmin puolin on joko rivinvaihto tai välilyönti, jotta olisi selvää, mihin URL loppuu. Tarvittaessa pitää rikkoa suomen kielen sääntöjä esim. jättämällä virkkeen lopusta piste pois tai kirjoittamalla välilyönti URLin ja sitä seuraavan välimerkin väliin. - Jos URLin oikea muoto tuntuu "liian tekniseltä", niin esim. mainoksessa voi korostaa sen keskeistä viestiä vaikkapa lihavoinnilla ja poikkeavalla värillä:
http://www.ytv.fi

Syventävää lisätietoa URLeista on oppaan Learning HTML 3.2 by Examples. kohdassa URLs.

Web-sivuilla voidaan useissa tapauksissa käyttää myös suhteellisia URLeja, jotka ovat lyhyempiä kuin edellä kuvatut ns. absoluuttiset URLit. Ne ovat eräänlaisia lyhennemerkintöjä, ja perehdymme niihin linkkien yhteydessä.

Entä muut muodot? Esmes Word?

Samaan tapaan kuin pelkkää tekstiä sisältävän tiedoston voit laittaa Webiin myös esimerkiksi MS Wordillä kirjoitetun, erilaisia muotoiluja sisältävän dokumentin. Silloin on FTP:n käytössä muistettava ennen siirtokäskyä kertoa, että siirrettävä aineisto on ns. binaaridataa; tämä tehdään FTP-ohjelmassa käskyllä binary tai vastaavalla. Word-dokumentin sisältävän tiedoston nimi loppuu yleensä .doc, ja tämä on syytä säilyttää tiedostoa Web-palvelimeen kopioitaessa. Useimmat palvelimet osaavat silloin lähettää selaimelle tiedon siitä, että kyseessä on Word-dokumentti. Joskus tässä menee jotain pieleen, ja silloin on syytä perehtyä WDG:n Web Authoring FAQ:n lukuun Other Media. Suomeksi aiheeseen liittyvää perustietoa on dokumentissani Mediatyypit Internetissä, erityisesti Webissä. Mutta olennaisinta asiassa on saada selville palvelinkohtainen tapa ratkaista kyseinen ongelma.

Jos aineisto on valmiiksi Word-muodossa, niin edellä kuvattu menettely on nopea ja yleensä helppo, ainakin jos joku on näyttämässä, miten se tehdään. Yksinkertaisimmillaan kyse on vain yhden tiedoston kopioinnista sopivaan paikkaan. Mutta olennaisena rajoituksena on, että Word-dokumentit ovat vain sellaisten käyttäjien luettavissa, joilla on itsellään Word-ohjelma tai jokin muu ohjelma, joka pystyy näyttämään Word-dokumentteja, esimerkiksi ns. Word viewer. Esimerkiksi monet hakujärjestelmät eivät ymmärrä Word-muodosta! Lisäksi Word-muoto on joustamaton eikä mukaudu käyttäjän selaimen kokoon eikä käyttäjän parhaina pitämiin muotoiluasetuksiin kirjasinlajien (fonttien) ynnä muun osalta.

Word-dokumentteihin voidaan kyllä kirjoittaa linkkejä, jotka viittaavat muihin dokumentteihin (sen lisäksi, että Word-dokumentteihin voidaan viitata linkeillä).

Erityisesti on syytä varoittaa seuraavasta: Wordissä, Excelissä ja useissa muissa ohjelmissa on sellainen toiminto kuin "Save as HTML", "tallenna Web-sivuna" tms. Jälki on yleensä kelvotonta ja siitä voi olla työlästä muokata kunnollista. Ohjelmat nimittäin kirjoittavat tuottamansa "HTML:n" täyteen kummallista merkkausta, joka yrittää kömpelöillä tekniikoilla säilyttää ulkoasun, esimerkiksi tekstin fontin, taulukon solujen leveydet tarkoin sellaisina, kuin ne ovat sattuneet olemaan dokumentin kirjoittajalla. Kunnollinen muuntaminen HTML-muotoon esim. Word-muodosta HTML-muotoon on usein parasta tehdä niin, että ensin tallennetaan dokumentti pelkkänä tekstinä ja siihen sitten lisätään yksinkertainen HTML-merkkaus dokumentin tarkoitetun tai oletetun rakenteen mukaan. Tosin jos Word- tms. dokumentissa on paljon kursivointeja, lihavointeja ym. tekstin seassa, niin saattaa olla nopeampaa tehdä muunnos Word-muodosta HTML-muotoon RTF-muodon kautta. Vielä yksi mahdollisuus on käyttää HTML-Kit-ohjelmaa, jossa on erityinen toiminto Strip surplus tags in Word 2000 pages.

Excel-taulukon taas voi tallentaa ns. tab separated values -muodossa, jossa alkioiden välissä on tabulointimerkit; tällainen muoto on melko helppo muuntaa HTML-taulukoksi.

Melko yleinen muoto on PDF. Sitä käytetään etenkin laajojen, kirjatyyppisten aineistojen tarjoamiseen Webissä joko yksinään tai vaihtoehtona HTML-muotoiselle versiolle. Etuna ja haittana on, että PDF-muoto "kuljettaa mukana" varsin tarkkaa kuvausta dokumentin esitysasusta. Täten se on samalla tavoin joustamaton kuin esim. edellä käsitelty Word-muoto tai Wordin tuottama "HTML"-muoto mutta ei sentään yritä olla muuta kuin on. PDF:ää käytetään etenkin paperille tulostettavaksi sopivan vaihtoehdon tarjoamiseen. Yksi haitta on, että PDF-muotoinen versio on melko iso, tyypillisesti 4 - 6 kertaa isompi kuin vastaava HTML-versio.

HTML on kuitenkin yleensä paras. Miksi?

Web-dokumenttien luonnollisin muoto on HTML-muoto. Se on tarkoitettu esitysmuodoksi, joka on riippumaton käytettävistä laitteista ja ohjelmista ja joka muun muassa automaattisesti mukautuu selaimen ikkunan kokoon ja käyttäjän fonttivalintoihin. Käyttäjä ei tarvitse muuta ohjelmaa kuin valitsemansa Web-selaimen.

HTML-muotoinen dokumentti sisältää tekstin lisäksi joitakin erityisiä merkintöjä, jotka osoittavat, mikä teksti on otsikkoa, mikä listaa, mikä korostettua jne. Erityisillä merkinnöillä, merkkauksella (englanniksi markup), voidaan dokumenttiin liittää myös mm. kuvia ja viittauksia eli linkkejä muihin dokumentteihin. Näillä yksinkertaisilla perusvälineillä voidaan toteuttaa hyvinkin monipuolisia Web-sivuja.

Jos haluat nopeasti laittaa Webiin dokumentin, joka sinulla on pelkkänä tekstinä, mutta aiot myöhemmin muuntaa sen HTML-muotoon, lue tätä koskevat ohjeet liitteestä Pelkän tekstin esittäminen muodollisesti HTML-dokumenttina.