Ελληνικό ελεύθερο λογισμικό text to speech (TTS)

Υπάρχει ελεύθερο λογισμικό που μπορεί να κάνει μετατροπή κειμένου σε ομιλία (text to speech/TTS). Για να υποστηρίξει νέες γλώσσες, αρκεί κάποιος να δημιουργήσει τα κατάλληλα “data files” που παρέχουν αντιστοιχίσεις μεταξύ τμήματα λέξεων και του πως ακούγονται. Υπάρχει ελεύθερο λογισμικό TTS, που ονομάζεται festival. (Δείτε και MBROLA)

Υπάρχει και λογισμικό που ενσωματώνει πολύ καλά την τεχνολογία TTS με το γραφικό περιβάλλον χρήστη. Το λογισμικό gnopernicus κάνει την ενσωμάτωση αυτή για το γραφικό περιβάλλον GNOME, και είναι διαθέσιμο στις δημοφιλείς διανομές (Fedora Core, Debian, κτλ) για την αγγλική γλώσσα. Η τυπική χρήση του TTS είναι για τις ανάγκες προσβασιμότητας σε άτομα με ειδικές ανάγκες αλλά προσφέρεται και ως “selling point” στο όλο πακέτο μιας διανομής.

Για τα ελληνικά έχω δει ανακοινώσεις για την ύπαρξη ελληνικών “data files” για την ελληνική γλώσσα, όμως δεν υπάρχει “ελεύθερη διάθεση”. Από την εμπειρία μου υπάρχουν περιπτώσεις που αυτοί που έχουν φτιάξει τα “data files” δεν τους πειράζει να διατεθούν ως ελεύθερο λογισμικό. Αρκεί να μιλήσεις με το σωστό άτομο.

Οπότε, αν γνωρίζεται κάποιους από τους παρακάτω, μπορείτε να έρθετε σε επαφή μαζί τους;

2 comments

  • anonymous

    Αγαπητοί φίλοι,

    Έμαθα ότι αναφέρθηκε το όνομα μου, οπότε να σας αναλύσω μερικά πράγματα:

    TtS
    ———
    Είναι αλήθεια ότι κάποιος μπορεί πλέον να φτιάξει ένα dummy σύστημα για οποιαδήποτε γλώσσα χρησιμοποιώντας ελεύθερα διαθέσιμα εργαλεία και πόρους. Κάτι τέτοιο είναι εφικτό και για τα Ελληνικά πλέον. Ωστόσο, το dummy σύστημα με την μονότονη απαγγελία και την δυσκολία στο χειρισμό μη-κοινών λέξεων απέχει πολύ από ένα πλήρες σύστημα για μία γλώσσα με τουλάχιστον αποδεκτή προσωδία. Από την περιγραφή σας λοιπόν αγνοείτε το 90% της διαδικασίας σύνθεσης ομιλίας, κάνοντας τα πράγματα να φαίνονται αρκετά απλά ενώ δεν είναι. Η διαδικασία αυτή περιλαμβάνει μεταξύ άλλων την κανονικοποίηση των κειμένων (αριθμητικά, ακρωνύμια κλπ – με την κατάλληλη κλίση για τα ελληνικά, χειρισμός ταυτόχρονα ελληνικών, αγγλικών και greeklish κλπ), τη γραμματική και συντακτική ανάλυση (για πολλούς λόγους), την φωνηματική μετατροπή (το μόνο που αναφέρετε), την πρόβλεψη της κατάλληλης προσωδίας (το βασικότερο απ’όλα) και την παραγωγή ή επιλογή των ακουστικών μονάδων, οι αλγόριθμοι των οποίων πολλές φορές είναι σύνθετοι (και πολλά άλλα ακόμα, όρεξη να’χετε). Όλα αυτά απαιτούν τη συλλογή ακριβών πολλές φορές δεδομένων και την επεξεργασία τους, τη δημιουργία στατιστικών και μαθηματικών μοντέλων και αρκετά ακόμα. Μερικές πληροφορίες σχετικά με αυτές τις διαδικασίες μπορείτε να βρείτε στο http://www.di.uoa.gr/~gxydas/en/documents.shtml από τις διαφάνειες των σχετικών μαθημάτων (σύντομα θα γίνουν και update).

    FESTIVAL
    ————–
    Το FESTIVAL είναι καταρχήν μία πλατφόρμα για την διασύνδεση αρθρωμάτων με σκοπό την μετατροπή κειμένου σε ομιλία. Αυτό που κυρίως κάνει το FESTIVAL είναι να επιτρέπει την επικοινωνία αυτών των αρθρωμάτων. Επειδή το FESTIVAL παρέχεται μαζί με κάποιες open-source Αγγλικές φωνές, δημιουργείται η λανθασμένη εντύπωση ότι με την κατάλληλη τροποποίηση κάποιων data-files όπως τα λέτε μπορεί να μιλάει οποιαδήποτε γλώσσα. Αυτό είναι λάθος και δεν είναι θέμα data-files έτσι απλουστευμένα όπως το γράφετε (εφόσον φυσικά θέλετε να μιλάει Ελληνικά και όχι σαν τουρίστας). Έχει να κάνει καταρχήν με την συλλογή και την κατασκευή των κατάλληλων πόρων καθώς και με το σχεδιασμό και την υλοποίηση των αρθρωμάτων που τους επεξεργάζονται. Το FESTIVAL παρέχει ουσιαστικά μία γλώσσα προγραμματισμού για αυτόν το σκοπό και συνοδεύεται από μία εργαλειοθήκη που διευκολύνει την συλλογή και την δημιουργία των πόρων αυτών. Ας πούμε ότι είναι ένα SDK για σύνθεση ομιλίας. Επίσης είναι λάθος ξεκινάει κανείς από τα Αγγλικά προκειμένου να φτιάξει Ελληνικό σύστημα.

    MBROLA
    ————-
    Το MBROLA είναι ένας συνθέτης συρραφής ακουστικών διφώνων που αφορά στο τελικό στάδιο της μετατροπής και αυτό που κάνει είναι να «κολλάει» ομαλά δύο ακουστικά δίφωνα, χωρίς να ακούγονται ασυνέχειες («κλατς-κλουτς») κατά την συρραφή. Ήδη, υπάρχουν 2 ελεύθερα διαθέσιμες ελληνικές βάσεις διφώνων για το MBROLA, μία από το Αριστοτέλειο Πανεπιστήμιο και μία από το Πανεπιστήμιο της Αθήνας με τη δική μου φωνή (όχι, δεν μιλάω έτσι, το MBROLA παραμορφώνει). Εκτός από τα δίφωνα, το MBROLA απαιτεί και την προσωδιακή περιγραφή μίας φράσης προκειμένου να δημιουργήσει ένα σωστό ακουστικό σήμα (και όχι μονότονο). Αυτό είναι και το πιο δύσκολο κομμάτι και μπορεί να υλοποιηθεί με τη χρήση του FESTIVAL και με βάση όσα έγραψα παραπάνω.

    Διάθεση
    ———-
    Σχετικά με την ελεύθερη διάθεση TtS για τα Ελληνικά: αυτή τη στιγμή δουλεύω στο Πανεπιστήμιο της Αθήνας με 3 συστήματα για τα Ελληνικά: ΔΗΜΟΣΘέΝΗΣ, FESTIVAL και FLITE, κάτω από μία ενιαία πλατφόρμα. Ανάλογα με τις απαιτήσεις χτίζουμε και το κατάλληλο TtS. Όλη η ουσία όμως είναι στους πόρους και όχι τόσο στο infrastructure. Ήδη, ο ΔΗΜΟΣΘέΝΗΣ παρέχεται ελεύθερα (για Win32, η έκδοση 2 παίζει και σε Linux αλλά δεν έχει γίνει διαθέσιμη ακόμα) και συνοδεύεται από DLL προκειμένου να ενσωματώνεται σε τρίτες εφαρμογές. Αυτό είναι κάτι, δεν είναι όμως ακόμα open-source.
    Ο σκοπός είναι ένα από αυτά τα συστήματα να γίνει open-source σχετικά σύντομα (πιθανώς το FESTIVAL για άμεση συμβατότητα με άλλες open-source εφαρμογές), μόλις τελειώσει το documentation γιατί open-source χωρίς documentation είναι δώρον άδωρο. Δεν υπάρχει συγκεκριμένο χρονοδιάγραμμα άλλα έχει ήδη ξεκινήσει.

    Ελπίζω να έκανα τα πράγματα λίγο πιο ξεκάθαρα.

    Σας χαιρετώ,
    Γεράσιμος Ξύδας

  • anonymous

    Παιδια μην ακουτε τις φτηνες δικαιολογιες του. Ειναι αληθεια. Ετσι μιλαγε τοτε. Ο Γερασιμος οταν εκανε τις ηχογραφησεις δεν ειχε βγαλει τα κρεατακια του 🙂


    Ευριπιδης

%d bloggers like this: