Re: Νέα υποσελίδα: Βιβλιοθήκη
Δημοσιεύτηκε: 09 Μάιος 2020 01:33 pm
Ευχαριστούμε Κώστα και τον Gharles Howard βεβαίως!!!
Νομίζω πως αυτό που περιγράφεις είναι κάτι άλλο. Δηλαδή σαν να λες στο πρόγραμμα να μην ψάχνει στα Αγγλικά, αλλά στα Ελληνικά. Όμως το pdf είναι ήδη έτοιμο να δεχτεί αναζήτηση και στις δύο γλώσσες με Edit/Find (Ctrl/Cmd+F). Μου φαίνεται ότι με το παραπάνω απλώς κάνεις ρύθμιση του πού ψάχνει το πρόγραμμα. Για δες μήπως υπάρχει κάπου ρύθμιση για να ψάχνει σε οποιαδήποτε γλώσσα. Πάντως σε εμένα δεν χρειάστηκε ποτέ να κάνω τέτοια ρύθμιση. Απλώς πατάω Ctrl+F και ψάχνω...socrates έγραψε: ↑13 Μάιος 2020 12:03 pm Πήγα στο menu >> view >> tools >> Text Recognition AA In This File όπου άνοιξε ένα μικρό παράθυρο που μου είπε ότι η Primary OCR Language ήταν English UK. Έκανα κλικ στο Edit και άλλαξα τη γλώσσα σε Greek. Πάτησα τα δύο ΟΚ που μου ζήτησε και σε 2-3 λεπτά το PDF έγινε searchable στα ελληνικά!
Όχι, δεν είναι χρονοβόρο. Τους καταλόγους Columbia και Orthophonic τους "προετοίμασα" για εύρεση όρων με το πράγματι πολύ καλό Acrobat XI Pro που έχεις κι εσύ, το γράφω και στις σημειώσεις των αντίστοιχων pdf στη Βιβλιοθήκη. Δεν θα έλεγα ότι γίνεται μετατροπή, όπως γράφεις. Ουσιαστικά λέμε στο πρόγραμμα να κάνει οπτική αναγνώριση χαρακτήρων, το OCR δηλαδή (Optical Character Recognition). Eν προκειμένω για ελληνικά και αγγλικά αλλά για την ακρίβεια για ελληνικό και λατινικό αλφάβητο αφού αν ψάξεις για b, c, d, κ.λπ. το πρόγραμμα θα βρει το χαρακτήρα ανεξάρτητα από τη γλώσσα που χρησιμοποιείται στο κείμενο.
Αν εκτυπώνεις pdf μέσα από το Word, τότε το Acrobat δεν παίζει κανένα ρόλο. Είναι θέμα του Word και θα πρέπει να υπάρχει ανάλογη ρύθμιση ώστε η εικόνα που διαλέγεις για φόντο να απλώνεται σε όλο το πλάτος του χαρτιού.socrates έγραψε: ↑14 Μάιος 2020 10:43 amΕίναι Adobe Acrobat Pro XI-πολύ καλό μου φαίνεται, και χωρίς πολλά προβλήματα, απλά με τσαντίζει μερικές φορές γιατί εκτυπώνω ένα pdf από το word με μία φωτογραφία για background στο κείμενό μου και αντί για μία μου τη σπάει σε 50-100 φωτογραφίες thumbnails που γεμίζουν τη σελίδα.
Όχι, ψάχνω είτε με ελληνικό είτε με αγγλικό πληκτρολόγιο. Ανάλογα τι γλώσσες έχει το pdf και τι ψάχνω. Σημειωτέον, τα συμπληρώματα Victor νομίζω έχουν OCR μόνο για αγγλικά/λατινικό αλφάβητο. Επειδή ήταν πολλά, προτίμησα για ευκολία το OCR που έχει το λογισμικό του σκάνερ το οποίο όμως ήταν μόνο για Αγγλικά. Δεν θεωρώ ότι είναι μεγάλο ζήτημα. Αν βρω χρόνο μπορεί να τα κάνω στο μέλλον και για εύρεση στα ελληνικά. Άλλωστε, επειδή πρόκειται για συμπληρώματα που κυκλοφόρησαν στις ΗΠΑ, είναι δίγλωσσα. Εκτός των άλλων, όπως θα κατάλαβαν όσοι τα μελέτησαν λίγο, τα συμπληρώματα φαίνεται να κυκλοφόρησαν σε ένα ενιαίο πολύγλωσσο έντυπο (όπως τα έντυπα οδηγιών που βρίσκουμε π.χ. σε ηλεκτρικές συσκευές). Ίσως επειδή μπορεί να απευθύνονταν στους διανομείς και όχι στο κοινό. Έτσι, συνήθως η πρώτη σελίδα αριστερά και η τελευταία σελίδα δεξιά είναι αντίστοιχα η τελευταία και η πρώτη για συμπληρώματα που αφορούν άλλες γλώσσες. Επομένως, θα ήταν δύσκολο να προσαρμόζω κάθε φορά το OCR και γι' αυτές τις γλώσσες. Θα πει κανείς, δεν είναι απαραίτητο, αλλά επειδή εμμέσως ίσως να έχει ενδιαφέρον για κάποιους, αποφάσισα να μείνω αρχικά με το λατινικό αλφάβητο και αργότερα βλέπουμε.
Ναι, κάτι κάνεις λάθος. Δεν θα έπρεπε να έχεις πρόβλημα γιατί έχεις σύγχρονες εκδόσεις σε λογισμικό/λειτουργικό. Σόρρυ, από μακριά δεν μπορώ να κάνω πολλά. Ειδικά αυτό το "γύρισα τη γλώσσα του αρχείου σε αγγλικά" δεν μου βγάζει πολύ νόημα. Το pdf είναι αυτό που είναι και το πρόγραμμα δεν το νοιάζει ποια γλώσσα απεικονίζεται. Αν έχει γίνει OCR για ελληνικό και λατινικό αλφάβητο (που έχει γίνει) θα έπρεπε απλά να κάνεις αναζήτηση με Ctrl+F και να δουλεύει. Τα υπόλοιπα βήματα δεν είναι σχετικά με την αναζήτηση.socrates έγραψε: ↑14 Μάιος 2020 10:43 amΓύρισα τη γλώσσα του αρχείου ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) πάλι σε αγγλικά και πληκτρολογώ και με λατινικούς και με ελληνικούς χαρακτήρες, μα δεν βρίσκει τίποτα.
Μετά την ξαναγύρισα σε γαλλικά αλλά πάλι το ίδιο αποτέλεσμα, δεν βρίσκει τίποτα.
Οπότε συμπεραίνω ότι εφ' όσον το αρχικό ντοκουμέντο είναι τυπωμένο στα ελληνικά, με λατινικούς χαρακτήρες οποιασδήποτε γλώσσας δεν πρόκειται να εύρει κάτι. Είναι σωστό αυτό ή πάλι δεν καταλαβαίνω?
Δεν είναι δύσκολο να έχει OCR για Γερμανικά και άλλες γλώσσες. Απλώς δεν χρειάστηκε γιατί τα Γερμανικά εμφανίζονται μόνο στα συμπληρώματα Victor και μόνο εμμέσως. Δεν μας αφορούν άμεσα, όπως είπα, αν και έχει την πλάκα του να βλέπεις τι άκουγε την ίδια εποχή το μη ελληνόφωνο κοινό. Αν κάποιος κατάλογος είχε Γαλλικά ή Γερμανικά ή άλλη γλώσσα σαν κύρια, ναι, θα κάναμε το αντίστοιχο OCR. Αλλιώς, ποιος ο λόγος; Τι θα βρίσκει;
Σ' έχασα λίγο, δεν κατάλαβα. Εφόσον βρίσκεις αποτελέσματα σε Αγγλικά και Ελληνικά, τα Γαλλικά γιατί είναι καθορισμένη γλώσσα; Και γιατί να θες να κάνεις το ίδιο με Orthophonic; Αυτός ο κατάλογος έχει Ελληνικά κυρίως και δευτερευόντως Αγγλικά. Γαλλικά δεν έχει στο κείμενο, οπότε τι θα αναζητήσεις σε αυτή τη γλώσσα; Σόρρυ αν δεν καταλαβαίνω. Δεν είμαι ειδικός, το 'χω πει και στα πρώτα μηνύματα εδώ. Ψάχνοντας πάω κι εγώ. Αν καταλαβαίνει κανείς καλύτερα, ας μας πει.socrates έγραψε: ↑14 Μάιος 2020 10:43 amΒλέπω με μεγάλη χαρά πως η αναζήτηση στο νέο αρχείο δουλεύει και στα αγγλικά και στα ελληνικά ταυτόχρονα, ενώ η καθορισμένη OCR γλώσσα του αρχείου παραμένει η γαλλική. Πως γίνεται αυτό, και γιατί δεν μπορώ να το κάνω με το ORTHOPHONIC (ΑΠΡΙΛΙΟΣ 1936) ? Το μόνο που υποθέτω είναι πως έχει να κάνει κάτι με την ποιότητα εκτύπωσης (?)
Με χαρά να τσεκάρω αλλά δεν κατάλαβα τι να τσεκάρω. Αν έχει OCR;