Ελληνικά αρχεία Word που δε δουλεύουν πια;

Έχετε παλιά αρχεία Word (ή StarOffice) με ελληνικά και τώρα δεν μπορείτε να τα διαβάσετε; Όταν τα ανοίγετε, βλέπετε ακαταλαβίστικούς χαρακτήρες;
Ο μόνος τρόπος που μπορώ να φανταστώ για να “χαλάσει” ένα κείμενο που ήταν γραμμένο στα ελληνικά και το πρόβλημα να έχει σχέση με τις γραμματοσειρές, είναι όταν το κείμενο γράφτηκε σε παλιό υπολογιστή όπου οι γραμματοσειρές δεν ήταν Unicode.

Δίχως Unicode, οι χαρακτήρες έχουν αριθμητική τιμή μεταξύ 0-255. Γενικά, τα αγγλικά είναι μεταξύ 32-127 και τα ελληνικά μεταξύ 128-255 (iso-8859-7, windows-1253, cp737 κτλ).
Ένα τέτοιο κείμενο είναι πιθανό το OOo να μπορεί να ανιχνεύσει ότι η πηγή είναι κάποια 8bit κωδικοποίηση και να κάνει αυτόματα τη μετατροπή. Στην περίπτωση που δε μπορεί να μαντέψει την κωδικοποίηση, γίνεται μπάχαλο.
Υπάρχει η δυνατότητα για μετατροπή του αρχείου σε απλό κείμενο με το χέρι (π.χ. αντιγραφή όλο και επικόλληση σε απλό κειμενογράφο) και μετά χρήση της εντολής

iconv -f windows-1253 -t utf-8 < input.txt > output.txt

(δοκιμάζεις iso-8859-7, κτλ αν δεν δουλέψει).

Ακόμα, υπάρχουν άλλα αρχεία σε πολύ χειρότερη κατάσταση. Υπάρχουν ελληνικές γραμματοσειρές (και πολυτονικές!) που αντικαθιστούν τους λατινικούς χαρακτήρες με ελληνικά και δεν ακολουθούν κάποιο διεθνές πρότυπο για την κωδικοποίηση αυτή.
Πάντως, σε κάθε περίπτωση, υπάρχει σίγουρα η δυνατότητα για αυτοματοποιημένη μετατροπή!

Permanent link to this article: https://blog.simos.info/%ce%b5%ce%bb%ce%bb%ce%b7%ce%bd%ce%b9%ce%ba%ce%ac-%ce%b1%cf%81%cf%87%ce%b5%ce%af%ce%b1-word-%cf%80%ce%bf%cf%85-%ce%b4%ce%b5-%ce%b4%ce%bf%cf%85%ce%bb%ce%b5%cf%8d%ce%bf%cf%85%ce%bd-%cf%80%ce%b9%ce%b1/

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.