Index Fórum

Törölt nick 2001.02.15		0 0 13
Hogy egy kicsit a Unicode-ról is lerántsam a leplet leírnék ezzel kapcsolatban is egy jó nagy baromságot, ami kialakult. Arról van szó, hogy a Unicode-on belül pont az ógörög nyelv kapcsán alakult ki kétféle kódolási szabvány. Ugye az ógöröggel kapcsolatban a hehezet, a három hangsúlyjel, hosszúság- rövidjel, ióta szubszkriptum, kettős felpont (difthongus) - csak a legfontosabbak - a probléma, még sorolhatnám. A sima görög abc az majdnem minden fontkészletben benne van, azzal nincs is baj, a probléma mindig ezekkel a jelekkel van. A Unicode-on belül sajnos kétféle megvalósítás alakult ki: I. A "Combining diacritical marks" nevezetű eljárásban arról van szó, hogy adva van ugye az alap abc, és lekódólták ezeket a speciális jeleket, és a két jel külön kódolva és kombinálva kerül tárolásra. Egy példa a magyarból: tegyük fel, hogy a magyar abc-ben az ékezetes betűk képe egy fontkészletben nincs "megrajzolva" (legyen mondjuk az é betű), hanem csak az ékezetek vannak külön kódolva (nomeg az alap abc), esetünkben egyszeres és kétszeres felső "vessző" és felső két pont. Az é betű tehát úgy lenne kódolva, hogy e és ', így, külön két karakteren, és a program a két karakter egymásra rajzolásával alakítja ki az ékezetes é betű képét. Tehát egy karakternek látszik, de valójában kettőn tárolódik. II. A másik eljárásnál (aminek tudomásom szerint nincs külön neve, és ez kezd elterjedni) minden egyes jellel és lehetséges kombinációval a betűk külön-külön meg vannak rajzolva és más-más kódja lesz. Például a hajtott hangsúlyos omegának más a kódja (de csak egy kódja van), mint a hehezetes omegának. Így a teljes kombinációk és az alap abc leírására kb 300 kódra (a pontos számra nem emlékszem) van szükség. Mi ennek a következménye? Például az, hogyha valaki a Perseus oldalain annak útmutatásait követve beállítja a Unicode kódolást, nem biztos, hogy sikerrel fog járni, ugyanis a Perseus az UTF-8 beállítás esetén az I. számú eljárást követi, ami (számomra úgy tűnik), kihalófélben van. A legbosszantóbb az egészben, hogy Unicode fontok is úgy készülnek, hogy vagy az I.-es (ritkább) vagy a II-es számú eljárást követik. Én még csak eddig a már agyon emlegetett "Arial Unicode MS" esetében láttam azt, hogy mind a kettő eljárás megvalósították egy fonkészleten belül. Sőt, ha valaki a Perseuson egy szövegrészletet kimásol (kijelölés, másolás) UTF-8 beállítás esetén, majd a Wordbe beilleszti, majdnem garantált, hogy nem lesz jó. A megoldás most is az, hogy olyan fontkészletet kell kiválasztani a Wordben, ami ismeri az I. számú eljárást. Ennyit röviden, a helyzet nem egyszerű, de nem is reménytelen.