7
Τεχνολογία

Φωνή σε κείμενο. Πώς γίνεται

Φωνή σε κείμενο. Πώς γίνεται
Ψηφιακές απομαγνητοφωνήσεις. Εξετάζουμε τις σχετικές υπηρεσίες που προσφέρουν (άλλες δωρεάν κι άλλες επί πληρωμή) speech to text μέσω cloud. Εσύ ανέβασε το αρχείο ήχου και σε λίγη ώρα έχεις έτοιμο το κείμενο. Πόσο καλά δουλεύουν;

Η τεχνολογία speech to text δεν είναι καινούρια. Πολλές εταιρείες έχουν ασχοληθεί στο παρελθόν με τη μετατροπή φωνής σε κείμενο, έχοντας βρει εφαρμογή σε διάφορες εξειδικευμένες λειτουργίες, από τον έλεγχο του υπολογιστή και συγκεκριμένων apps, έως το λεγόμενο voice dictation. Λίγο έως πολύ όλοι χρησιμοποιούμε τεχνολογία tech to speech, χωρίς ίσως να το γνωρίζουμε. Οι ψηφιακοί βοηθοί (Google Assistants, Amazon Alexa, Microsoft Cortana), τα σύγχρονα τηλεχειριστήρια που ακούνε τη φωνή μας στις νέες smart TVs κρύβουν από πίσω τους τεχνολογία αναγνώρισης φωνής. Το τι ακριβώς κάνουν από εκεί και πέρα, έχει να κάνει με την εκάστοτε εφαρμογή.

Αυτόματες απομαγνητοφωνήσεις

Μια πολύ εξειδικευμένη εφαρμογή speech to text είναι η μετατροπή φωνής σε γραπτό κείμενο. Όπως έχουμε γράψει σε άλλο άρθρο, το Google Docs, αλλά και άλλοι επεξεργαστές κειμένου, υποστηρίζουν voice dictation σε πραγματικό χρόνο. Τι μπορείς όμως να κάνεις στην περίπτωση που διαθέτεις μια ηχογράφηση και θέλεις να κάνεις απομαγνητοφώνηση; Μπορεί η τεχνολογία να βοηθήσει και να σε γλιτώσει από πολύωρες ακροάσεις και πληκτρολογήσεις; Η απάντηση είναι ξεκάθαρα ναι. Το ζήτημα είναι ότι επειδή η τεχνολογία speech to text είναι συνήθως ιδιοκτησία κάποιας εταιρείας, οι σχετικές υπηρεσίες και εφαρμογές διατίθενται επί πληρωμή. Μάλιστα, με το αντικείμενο ασχολούνται πολύ μεγάλες εταιρίες, όπως η IBM με την τεχνολογία Watson (Speech to Text), αλλά και η Google με τη δική της.

Υπάρχουν κι άλλες υπηρεσίες όπως η Voicebase για παράδειγμα, η οποία όμως δεν υποστηρίζει την Ελληνική γλώσσα. Η Voicebase είναι πολύ γρήγορη και το μόνο που απαιτεί είναι η εγγραφή στην υπηρεσία και στη συνέχεια το ανέβασμα του αρχείου ήχου. Για να έχεις μια εικόνα για το χρόνο που απαιτείται για τη μετατροπή αναφέρουμε ότι 10 λεπτά ήχου απαιτούν περίπου 15 λεπτά προκειμένου να μετατραπούν σε γραπτό κείμενο. Το θετικό με τη συγκεκριμένη υπηρεσία είναι ότι λειτουργεί εξολοκλήρου στο cloud. Εσύ ανεβάζεις το αρχείο στον λογαριασμό σου. Μόλις ολοκληρωθεί η μετατροπή λαμβάνεις ένα e-mail για να μπεις να κατεβάσεις το αντίστοιχο αρχείο κειμένου.

Google Cloud Speech to text

Ένα από τα πιο ισχυρά εργαλεία είναι το Google Cloud Speech to text (cloud.google.com/speech-to-text/). Υποστηρίζει 120 διαφορετικές γλώσσες και διαλέκτους συμπεριλαμβανομένων και των Ελληνικών και είναι σε θέση να μετατρέψει σε κείμενο φωνή σε πραγματικό χρόνο, ή μέσω αρχείο ήχου, αξιοποιώντας την τεχνολογία machine learning της Google. Επιπλέον, διαθέτει (όπως κι άλλες παρόμοιες επαγγελματικές υπηρεσίες) μια βιβλιοθήκη φωνητικών εντολών, οι οποίες δεν μετατρέπονται σε κείμενο, αλλά ελέγχουν συγκεκριμένες λειτουργίες. Η Google διαθέτει το σχετικό API για όποιον θέλει να αξιοποιήσει τη συγκεκριμένη τεχνολογία για τις δικές του on-line υπηρεσίες (επί πληρωμή φυσικά). Με παρόμοιο τρόπο λειτουργεί και η υπηρεσία της IBM.

Τέλος, εταιρείες όπως η Nuance που ασχολούνται με το αντικείμενο εδώ και πολλά χρόνια, διαθέτουν και εξειδικευμένες εφαρμογές που εγκαθίστανται σε υπολογιστές Windows και Mac και προσφέρουν λειτουργίες speech to text και αντιστρόφως.