OCR-Qualität

Dieses Thema im Forum "Software" wurde erstellt von MatzeMumpitz, 15. Oktober 2002.

  1. MatzeMumpitz

    MatzeMumpitz New Member

    Mal ne frage an alle, die Erfahrung mit OCR-Texterkennung gemacht haben.

    : In Prozent, wie akkurat wandelt modernes OCR einen Text, sagen wir mal eine Seite aus dem Duden, um?

    Und wie schnell macht ein G4 der modernen Sorte das?

    Gruß und Danke für die Infos, MatzeMumpitz
     
  2. MatzeMumpitz

    MatzeMumpitz New Member

    Keiner ne Ahnung?

    MM
     
  3. JK

    JK New Member

    Ich arbeite mit Omnipage X. Tempoangaben sind schwierig, am längsten dauert immer noch das Scannen. Die Umwandlung selbst geht schnell, aber da ist dann auch noch die Frage, ob man die lesbaren Bereiche automatisch übernimmt oder per Hand Bereiche definiert. Insgesamt bin ich aber mit der Qualität recht zu frieden.
     
  4. MatzeMumpitz

    MatzeMumpitz New Member

    Hm,

    das hört sich schonmal positiv an, aber ich hätte es gerne konkreter.

    Stell Dir vor Du willst, zu privaten Zwecken, den gesamten Duden (Deutsches Universal Wörterbuch A-Z) scannen und umwandeln. 1800 Seiten/Scanns.

    Vorausgesetzt Du hast viel Zeit, wie wäre Deine Reaktion?

    MM
     
  5. friedrich

    friedrich New Member

    Also, nach meinen Erfahrungen hängt der Nutzen von OCR sehr ab:
    - von der Vorlagenqualität ab (schwarze Schrift auf weißem Papier im Offsetdruck ist super, Kopien sind Mist)
    - Schriftart (Helvetica, Times gehen, mit Meta, Rotis wäre ich da vorsichtiger)
    - sauberen geraden Plazierung des Blattes auf dem Scanner (Drehungen führen zu mehr Fehlern)

    So kommt man vielleicht auf eine Fehlerquote von 1%, soll heißen jedes 100ste Zeichen ist falsch. Das klingt nicht sehr schlimm, bedeutet aber, daß Du immer noch in jedem längeren Satz einen Fehler hast.

    Schneller und besser als abtippen, für meinen Part. Den ganzen Duden scannen? Kann mna machen, wenn man Zeit hat und Lust, sich mit 1800x den gleichen Handgriffen zu langweilen. Ein paar Tage, dann ist man durch.
     
  6. much75

    much75 New Member

    häh, ocb?
    sorry,mir fallen die augen zu...
     
  7. MatzeMumpitz

    MatzeMumpitz New Member

    Danke!

    Jedes 100. Zeichen geht einigermaßen, denke ich. Wie handhabt OCR die Spaltenaufteilung des Textes und die rote Farbe der Stichworte?

    MM
     
  8. friedrich

    friedrich New Member

    Spalten kannst Du anlegen, die scannt er dann wie vorgegeben, wenn die Blätter immer gleich liegen... sonst mußt Du den Erkennungsbereich für jede Seite manuell einstellen.
    Du solltest Für das Projekt den Duden also auseinanderschneiden.

    Jedes 100ste Zeichen in einem Universalwörterbuch wär schon blöd, wo es doch um die richtige Schreibweise geht... übrigens...

    Anmerkungen an der Seite, die zu den Texten gehören? Das wird nichts.
     
  9. Chrigl

    Chrigl New Member

    Ich weiss ja nicht was Du wirklich vor hast, aber den Duden gibt es auch auf CD. Also kannst Du Dir da diese manische Arbeit mit 1800 Seiten ersparen.
     
  10. MatzeMumpitz

    MatzeMumpitz New Member

    Ja, ich weiß, hab ich auch, die Duden CD.

    Ich will den Duden als Text, damit ich mit GREP besser und umfassender suchen kann.

    Nur ein Beispiel: ich möchte alle Substantive aus der Medizin, die mit "A" beginnen, finden und kopieren. Das geht nicht mit dem CD-ROM-Ding, dafür brauchst du ne vernünftige GREP-Suchmaschine. Und die hab ich (in NW 6.5), fehlt mir nur noch der Text ;-)

    Gruß MM
     
  11. friedrich

    friedrich New Member

    Kannst Du nicht den Text aus der CD extrahieren?
     
  12. kawi

    kawi Revolution 666

    > Vorausgesetzt Du hast viel Zeit, wie wäre Deine Reaktion?

    ich würde zusehen das ich das irgendwo ausm netz bekomme :) und das hat absolut nix mit irgendwelchen Geschwindikkeits/qualitätsmerkmalen zu tun ... ich bin doch nicht blöd :)
     
  13. MatzeMumpitz

    MatzeMumpitz New Member

    Sag mir, wo ich im Netz ein Lexikon finde, das ähnlich gut und umfassend ist, wie der große Duden!

    Gibt es nicht.

    Wenn ich den Duden als Text haben will, muss ich ihn scannen.

    Schade, dass es nicht noch mehr Leute gibt, die so eine Textdatei bräuchten, dann könnte man sich die Arbeit teilen. ;-)

    MM
     
  14. MatzeMumpitz

    MatzeMumpitz New Member

    Tja, eigentlich naheliegend, stimmt. Aber erstens sind die Inhalte der Duden CD nicht mit dem Buch zu vergleichen und man müsste jeden einzelnen Beitrag rauskopieren, denke ich. Zweitens - ich habe das Teil gerade mal installiert - friert es mir sofor den Rechner ein!

    Also wieder runtergeschmissen, den MS-Müll.

    Gruß MM
     
  15. Russe

    Russe New Member

    also wenn wir hier im forum 1800 leute sind, dann brauch jeder nur eine seite scannen. ich wär dabei :)
     
  16. MatzeMumpitz

    MatzeMumpitz New Member

    Super, dann haben wir schon zwei Seiten, obwohl... kannst Du meine übernehmen? Ich hab nämlich noch keinen Scanner... ;-)))

    MM
     
  17. kawi

    kawi Revolution 666

    *lol na das fängt ja schonmal gut an... ich würde auch ne Seite scannen nur ... ich habe keinen Duden *lach
     
  18. MatzeMumpitz

    MatzeMumpitz New Member

    Ich könnte dir die Seite faxen ;-))

    MM
     
  19. Russe

    Russe New Member

    da wird die schrifterkennung aber schwierig wenn das zuerst durch ein fax durch muss.

    schneid doch die seite aus und schick sie ihm per post :)
     
  20. MatzeMumpitz

    MatzeMumpitz New Member

    gute Idee, hab aber gerade keine Briefmarke zur Hand. hmm... ach, was, ich schreib die Seite ab und schick ihm nen Mail, oder wir telefonieren und ich diktiers...? Tja, Ideen muss man haben und im Team arbeiten, dann klappt alles!

    MM
     

Diese Seite empfehlen