rebetiko.sealabs.net

Δημοσιεύτηκε: **09 Μάιος 2020 01:33 pm**

Ευχαριστούμε Κώστα και τον Gharles Howard βεβαίως!!!

Δημοσιεύτηκε: **10 Μάιος 2020 10:59 am**

Τις ευχαριστίες μας σε Κώστα, Μάκη και φυσικά σε Τσάρλι για την διάθεση των πηγών του.

Δημοσιεύτηκε: **13 Μάιος 2020 12:03 pm**

Καλημέρα και συγχαρητήρια για την ωραία δουλειά σε όλους. Συγνώμη για την μικρή παρέμβαση, είμαι λίγο μπερδεμένος (έως πολύ), δεν είμαι πολύ σχετικός με pdf αρχεία, αλλά δημιουργώ αρκετά μέσα σε άλλα προγράμματα, κυρίως παρτιτούρες για διάφορες χρήσεις και διακοσμητικές σελίδες μέσα από διάφορα Μicrosoft αρχεία, και με ενδιαφέρει πολύ το θέμα των οπτικά searchable PDFs.

Κατέβασα στην τύχη το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936).pdf 24 σελίδες, και είδα ότι δεν είναι searchable. Πήγα στο menu >> view >> tools >> Text Recognition AA In This File όπου άνοιξε ένα μικρό παράθυρο που μου είπε ότι η Primary OCR Language ήταν English UK. Έκανα κλικ στο Edit και άλλαξα τη γλώσσα σε Greek. Πάτησα τα δύο ΟΚ που μου ζήτησε και σε 2-3 λεπτά το PDF έγινε searchable στα ελληνικά!
Είναι μάλλον όπως είπε ο Κώστας πιο πάνω δυνατή η αναζήτηση μόνο στο μονοτονικό σύστημα, αλλά καλά τα καταφέρνει το Adobe που έχω, ούτε ξέρω ποια έκδοση είναι.
Θα ήθελα να ρωτήσω, αν παίρνει τόσο λίγο χρόνο η μετατροπή, γιατί δεν τα κάνουμε όλα searchable πριν τα ανεβάσουμε(?), νομίζω θα βοηθούσε πολύ οποιονδήποτε ερευνητή.
Ευχαριστώ

Δημοσιεύτηκε: **13 Μάιος 2020 09:58 pm**

Γεια σου Σωκράτη και ευχαριστούμε για το feedback. Μπορείς να μας πεις συγκεκριμένα ποιο λογισμικό της Adobe χρησιμοποιείς για τη θέαση των pdf καθώς και το λειτουργικό σου; Γιατί όλα τα pdf που έχω στείλει έως τώρα είναι searchable σε Windows αλλά και σε Mac που είχα τσεκάρει παλιότερα. Ίσως αν έχεις παλιότερο λογισμικό να μην υποστηρίζεται αυτή η λειτουργία. Αυτή τη στιγμή ανοίγω τον κατάλογο της Orthophonic σε Win7 με μία από τις τελευταίες εκδόσεις του πολύ απλού, αλλά δωρεάν, Adobe Acrobat Reader DC (v. 2020.006.20042) και όπως βλέπεις η αναζήτηση λειτουργεί τόσο για ελληνικούς όσο και για λατινικούς χαρακτήρες. Αφήνω screenshot:

: OCR test 1.png (511.3 KiB) Προβλήθηκε 6716 φορές

Στο παραπάνω παράδειγμα βλέπουμε ότι αναγνωρίζει μεν ελληνικά (μονοτονικό), ακόμα και τα μικρά γράμματα, αλλά δεν βρίσκει όλες τις περιπτώσεις της ίδιας λέξης. Αυτό είναι αναμενόμενο, το είχα γράψει, ίσως λόγω γραμματοσειράς που δεν είναι ευανάγνωστη για το πρόγραμμα. Επίσης, αναζήτηση για λατινικούς χαρακτήρες:

: OCR test 2.png (421 KiB) Προβλήθηκε 6716 φορές

Και εδώ βλέπουμε το συμπλήρωμα Ιουλίου 1921 της Victor όπου αναγνωρίζονται οι λατινικοί χαρακτήρες αλλά επίσης δεν εντοπίζεται η δεύτερη εμφάνιση της ίδιας λέξης, πιθανότατα λόγω του κακοτυπωμένου "s" αφού αν ψάξω για "Val" η δεύτερη εμφάνιση της λέξης προκύπτει πλέον στα αποτελέσματα.

: OCR test 3.png (1.41 MiB) Προβλήθηκε 6716 φορές

: OCR test 4.png (1.41 MiB) Προβλήθηκε 6716 φορές

Δυστυχώς αυτά είναι κάποια από τα προβλήματα του OCR όταν έχει να κάνει με δυσανάγνωστες γραμματοσειρές, κακή τύπωση, κ.λπ. Δεν είναι τέλεια μέθοδος, ειδικά σε παλιά κείμενα που μας ενδιαφέρουν εδώ και θέλει και μια φαντασία από τη μεριά αυτού που ψάχνει, όπως με το val-/vals που έγραψα πριν. Μια άλλη δυσκολία είναι όταν είναι πολλές γλώσσες στο κείμενο. Δεν έχω βρει ακόμα ένα πρόγραμμα που να λειτουργεί ταυτόχρονα και εξίσου καλά για πολυτονικά Ελληνικά, Αγγλικά και Γαλλικά, που είναι οι πιο απαραίτητες γλώσσες για αυτά τα ντοκουμέντα. Αν ξέρεις εσύ ή κάποιος άλλος, πολύ θα μας βοηθούσε να το μάθουμε. Για μονοτονικό είναι οκ, το πολυτονικό μας δυσκολεύει.

Δημοσιεύτηκε: **13 Μάιος 2020 10:07 pm**

socrates έγραψε: ↑13 Μάιος 2020 12:03 pm Πήγα στο menu >> view >> tools >> Text Recognition AA In This File όπου άνοιξε ένα μικρό παράθυρο που μου είπε ότι η Primary OCR Language ήταν English UK. Έκανα κλικ στο Edit και άλλαξα τη γλώσσα σε Greek. Πάτησα τα δύο ΟΚ που μου ζήτησε και σε 2-3 λεπτά το PDF έγινε searchable στα ελληνικά!

Νομίζω πως αυτό που περιγράφεις είναι κάτι άλλο. Δηλαδή σαν να λες στο πρόγραμμα να μην ψάχνει στα Αγγλικά, αλλά στα Ελληνικά. Όμως το pdf είναι ήδη έτοιμο να δεχτεί αναζήτηση και στις δύο γλώσσες με Edit/Find (Ctrl/Cmd+F). Μου φαίνεται ότι με το παραπάνω απλώς κάνεις ρύθμιση του πού ψάχνει το πρόγραμμα. Για δες μήπως υπάρχει κάπου ρύθμιση για να ψάχνει σε οποιαδήποτε γλώσσα. Πάντως σε εμένα δεν χρειάστηκε ποτέ να κάνω τέτοια ρύθμιση. Απλώς πατάω Ctrl+F και ψάχνω...

Δημοσιεύτηκε: **14 Μάιος 2020 10:43 am**

Καλημέρα Κώστα και ευχαριστώ για την κατατόπιση. Τώρα κατάλαβα τη διαφορά. Οπότε αυτό που κατέβασα ήταν ήδη έτοιμο.
Μου έκανε εντύπωση που άλλαξε το αρχείο μου ταχύτατα από αγγλικά σε ελληνικά. Αλλά με ποιο πρόγραμμα γίνεται τέτοια μετατροπή ώστε να είναι έτοιμα τα αρχεία για επιλογή γλώσσας? Και είναι χρονοβόρο?
Εγώ δουλεύω στα windows 10 και είδα το λογισμικό μου. Είναι Adobe Acrobat Pro XI-πολύ καλό μου φαίνεται, και χωρίς πολλά προβλήματα, απλά με τσαντίζει μερικές φορές γιατί εκτυπώνω ένα pdf από το word με μία φωτογραφία για background στο κείμενό μου και αντί για μία μου τη σπάει σε 50-100 φωτογραφίες thumbnails που γεμίζουν τη σελίδα.
Τώρα για την ερώτησή σου, αν καταλαβαίνω καλά, ψάχνεις πάντα με ελληνικό πληκτρολόγιο(?)
Από γλώσσες τα windows 10 μου δίνουν πάμπολλες επιλογές και τα έχω ρυθμισμένα συνήθως με κύρια γλώσσα την αγγλική και δευτερεύουσα την ελληνική, και χρησιμοποιώ και τις δύο εξ ίσου χωρίς πρόβλημα.
Γύρισα τη γλώσσα του αρχείου ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) πάλι σε αγγλικά και πληκτρολογώ και με λατινικούς και με ελληνικούς χαρακτήρες, μα δεν βρίσκει τίποτα.
Μετά την ξαναγύρισα σε γαλλικά αλλά πάλι το ίδιο αποτέλεσμα, δεν βρίσκει τίποτα.
Οπότε συμπεραίνω ότι εφ' όσον το αρχικό ντοκουμέντο είναι τυπωμένο στα ελληνικά, με λατινικούς χαρακτήρες οποιασδήποτε γλώσσας δεν πρόκειται να εύρει κάτι. Είναι σωστό αυτό ή πάλι δεν καταλαβαίνω?
Πάντως γα μένα επειδή έχω δίγλωσσο εγκατεστημένο σύστημα εξ αρχής και συνήθως στα αγγλικά σαν προτίμηση, πρέπει οπωσδήποτε να αλλάξω το OCR στα ελληνικά αν θέλω να κάνω αναζήτηση σε αυτού του είδους τα αρχεία.
Το καλό θα ήταν να αναγνωρίζει και γερμανικά/γαλλικά όπως λες, αλλά το βλέπω πολύπλοκο σαν θέμα.
Έχω βρεί το μπελά μου με οπτική αναγνώριση άσχημα και στο παρελθόν, όταν προσπαθούσα να ψηφιοποιήσω παλιές τυπωμένες ή ακόμα και χειρόγραφες παρτιτούρες, στο αστείο σημείο που ήταν πιο σύντομο να γράψω την παρτιτούρα από την αρχή σε κάποιο μοντέρνο πρόγραμμα, παρά να κάνω editing και να διορθώνω τα λάθη του οπτικού αποτελέσματος που λάβαινα από τέτοια προγράμματα, αλλά ακούω πως βελτιώνονται συνέχεια.
Για να γυρίσω στο πρόβλημα των pdf, άφησα τη γλώσσα όπως ήταν στα γαλλικά και άνοιξα ένα pdf που προσπαθούσα να φτιάξω πριν 11 χρόνια μα δεν τα κατάφερνα (δεν είχα το Adobe Acrobat Pro XI τότε). Τσέκαρα πάλι τη γλώσσα, παράμεινε στα γαλλικά στο αρχείο που άνοιξα. Το αρχείο είναι μία συλλογή βρετανικών μελωδιών για σόλο φλάουτο και τότε προσπαθούσα απλά να μεταφράσω τους τίτλους στα ελληνικά για μία επιμέλεια που μου είχε ζητηθεί και να μπορεί η αναζήτηση να τους βρίσκει και στις δύο γλώσσες. Δεν κατάφερα τίποτα τότε και σκέφτηκα πως μάλλον δεν είναι δυνατόν και το παράτησα. Σήμερα μετέφρασα βιαστικά τους 14 πρώτους τίτλους και ένωσα τα δύο pdf σε ένα.
Βλέπω με μεγάλη χαρά πως η αναζήτηση στο νέο αρχείο δουλεύει και στα αγγλικά και στα ελληνικά ταυτόχρονα, ενώ η καθορισμένη OCR γλώσσα του αρχείου παραμένει η γαλλική. Πως γίνεται αυτό, και γιατί δεν μπορώ να το κάνω με το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) ? Το μόνο που υποθέτω είναι πως έχει να κάνει κάτι με την ποιότητα εκτύπωσης (?)
Βάζω το αρχείο μου συνημμένο να το τσεκάρεις αν έχεις λίγο χρόνο και μετά το σβήνεις αφού δεν αφορά αυτή τη θεματική ενότητα που συζητούμε.
Ευχαριστώ και τα λέμε.

Binder1.pdf: (291.95 KiB) Μεταφορτώθηκε 546 φορές

Δημοσιεύτηκε: **14 Μάιος 2020 08:36 pm**

socrates έγραψε: ↑14 Μάιος 2020 10:43 am Αλλά με ποιο πρόγραμμα γίνεται τέτοια μετατροπή ώστε να είναι έτοιμα τα αρχεία για επιλογή γλώσσας? Και είναι χρονοβόρο?

Όχι, δεν είναι χρονοβόρο. Τους καταλόγους Columbia και Orthophonic τους "προετοίμασα" για εύρεση όρων με το πράγματι πολύ καλό Acrobat XI Pro που έχεις κι εσύ, το γράφω και στις σημειώσεις των αντίστοιχων pdf στη Βιβλιοθήκη. Δεν θα έλεγα ότι γίνεται μετατροπή, όπως γράφεις. Ουσιαστικά λέμε στο πρόγραμμα να κάνει οπτική αναγνώριση χαρακτήρων, το OCR δηλαδή (Optical Character Recognition). Eν προκειμένω για ελληνικά και αγγλικά αλλά για την ακρίβεια για ελληνικό και λατινικό αλφάβητο αφού αν ψάξεις για b, c, d, κ.λπ. το πρόγραμμα θα βρει το χαρακτήρα ανεξάρτητα από τη γλώσσα που χρησιμοποιείται στο κείμενο.

socrates έγραψε: ↑14 Μάιος 2020 10:43 amΕίναι Adobe Acrobat Pro XI-πολύ καλό μου φαίνεται, και χωρίς πολλά προβλήματα, απλά με τσαντίζει μερικές φορές γιατί εκτυπώνω ένα pdf από το word με μία φωτογραφία για background στο κείμενό μου και αντί για μία μου τη σπάει σε 50-100 φωτογραφίες thumbnails που γεμίζουν τη σελίδα.

Αν εκτυπώνεις pdf μέσα από το Word, τότε το Acrobat δεν παίζει κανένα ρόλο. Είναι θέμα του Word και θα πρέπει να υπάρχει ανάλογη ρύθμιση ώστε η εικόνα που διαλέγεις για φόντο να απλώνεται σε όλο το πλάτος του χαρτιού.

socrates έγραψε: ↑14 Μάιος 2020 10:43 amΤώρα για την ερώτησή σου, αν καταλαβαίνω καλά, ψάχνεις πάντα με ελληνικό πληκτρολόγιο(?)

Όχι, ψάχνω είτε με ελληνικό είτε με αγγλικό πληκτρολόγιο. Ανάλογα τι γλώσσες έχει το pdf και τι ψάχνω. Σημειωτέον, τα συμπληρώματα Victor νομίζω έχουν OCR μόνο για αγγλικά/λατινικό αλφάβητο. Επειδή ήταν πολλά, προτίμησα για ευκολία το OCR που έχει το λογισμικό του σκάνερ το οποίο όμως ήταν μόνο για Αγγλικά. Δεν θεωρώ ότι είναι μεγάλο ζήτημα. Αν βρω χρόνο μπορεί να τα κάνω στο μέλλον και για εύρεση στα ελληνικά. Άλλωστε, επειδή πρόκειται για συμπληρώματα που κυκλοφόρησαν στις ΗΠΑ, είναι δίγλωσσα. Εκτός των άλλων, όπως θα κατάλαβαν όσοι τα μελέτησαν λίγο, τα συμπληρώματα φαίνεται να κυκλοφόρησαν σε ένα ενιαίο πολύγλωσσο έντυπο (όπως τα έντυπα οδηγιών που βρίσκουμε π.χ. σε ηλεκτρικές συσκευές). Ίσως επειδή μπορεί να απευθύνονταν στους διανομείς και όχι στο κοινό. Έτσι, συνήθως η πρώτη σελίδα αριστερά και η τελευταία σελίδα δεξιά είναι αντίστοιχα η τελευταία και η πρώτη για συμπληρώματα που αφορούν άλλες γλώσσες. Επομένως, θα ήταν δύσκολο να προσαρμόζω κάθε φορά το OCR και γι' αυτές τις γλώσσες. Θα πει κανείς, δεν είναι απαραίτητο, αλλά επειδή εμμέσως ίσως να έχει ενδιαφέρον για κάποιους, αποφάσισα να μείνω αρχικά με το λατινικό αλφάβητο και αργότερα βλέπουμε.

socrates έγραψε: ↑14 Μάιος 2020 10:43 amΓύρισα τη γλώσσα του αρχείου ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) πάλι σε αγγλικά και πληκτρολογώ και με λατινικούς και με ελληνικούς χαρακτήρες, μα δεν βρίσκει τίποτα.
Μετά την ξαναγύρισα σε γαλλικά αλλά πάλι το ίδιο αποτέλεσμα, δεν βρίσκει τίποτα.
Οπότε συμπεραίνω ότι εφ' όσον το αρχικό ντοκουμέντο είναι τυπωμένο στα ελληνικά, με λατινικούς χαρακτήρες οποιασδήποτε γλώσσας δεν πρόκειται να εύρει κάτι. Είναι σωστό αυτό ή πάλι δεν καταλαβαίνω?

Ναι, κάτι κάνεις λάθος. Δεν θα έπρεπε να έχεις πρόβλημα γιατί έχεις σύγχρονες εκδόσεις σε λογισμικό/λειτουργικό. Σόρρυ, από μακριά δεν μπορώ να κάνω πολλά. Ειδικά αυτό το "γύρισα τη γλώσσα του αρχείου σε αγγλικά" δεν μου βγάζει πολύ νόημα. Το pdf είναι αυτό που είναι και το πρόγραμμα δεν το νοιάζει ποια γλώσσα απεικονίζεται. Αν έχει γίνει OCR για ελληνικό και λατινικό αλφάβητο (που έχει γίνει) θα έπρεπε απλά να κάνεις αναζήτηση με Ctrl+F και να δουλεύει. Τα υπόλοιπα βήματα δεν είναι σχετικά με την αναζήτηση.

socrates έγραψε: ↑14 Μάιος 2020 10:43 amΤο καλό θα ήταν να αναγνωρίζει και γερμανικά/γαλλικά όπως λες, αλλά το βλέπω πολύπλοκο σαν θέμα.

Δεν είναι δύσκολο να έχει OCR για Γερμανικά και άλλες γλώσσες. Απλώς δεν χρειάστηκε γιατί τα Γερμανικά εμφανίζονται μόνο στα συμπληρώματα Victor και μόνο εμμέσως. Δεν μας αφορούν άμεσα, όπως είπα, αν και έχει την πλάκα του να βλέπεις τι άκουγε την ίδια εποχή το μη ελληνόφωνο κοινό. Αν κάποιος κατάλογος είχε Γαλλικά ή Γερμανικά ή άλλη γλώσσα σαν κύρια, ναι, θα κάναμε το αντίστοιχο OCR. Αλλιώς, ποιος ο λόγος; Τι θα βρίσκει;

socrates έγραψε: ↑14 Μάιος 2020 10:43 amΒλέπω με μεγάλη χαρά πως η αναζήτηση στο νέο αρχείο δουλεύει και στα αγγλικά και στα ελληνικά ταυτόχρονα, ενώ η καθορισμένη OCR γλώσσα του αρχείου παραμένει η γαλλική. Πως γίνεται αυτό, και γιατί δεν μπορώ να το κάνω με το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) ? Το μόνο που υποθέτω είναι πως έχει να κάνει κάτι με την ποιότητα εκτύπωσης (?)

Σ' έχασα λίγο, δεν κατάλαβα. Εφόσον βρίσκεις αποτελέσματα σε Αγγλικά και Ελληνικά, τα Γαλλικά γιατί είναι καθορισμένη γλώσσα; Και γιατί να θες να κάνεις το ίδιο με Orthophonic; Αυτός ο κατάλογος έχει Ελληνικά κυρίως και δευτερευόντως Αγγλικά. Γαλλικά δεν έχει στο κείμενο, οπότε τι θα αναζητήσεις σε αυτή τη γλώσσα; Σόρρυ αν δεν καταλαβαίνω. Δεν είμαι ειδικός, το 'χω πει και στα πρώτα μηνύματα εδώ. Ψάχνοντας πάω κι εγώ. Αν καταλαβαίνει κανείς καλύτερα, ας μας πει.

socrates έγραψε: ↑14 Μάιος 2020 10:43 amΒάζω το αρχείο μου συνημμένο να το τσεκάρεις αν έχεις λίγο χρόνο και μετά το σβήνεις αφού δεν αφορά αυτή τη θεματική ενότητα που συζητούμε.
Ευχαριστώ και τα λέμε.
Binder1.pdf

Με χαρά να τσεκάρω αλλά δεν κατάλαβα τι να τσεκάρω. Αν έχει OCR;

rebetiko.sealabs.net

Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη

Re: Νέα υποσελίδα: Βιβλιοθήκη