Het grote Sjolem Alejchem OCR-project
van Refoyl Finkel

Om de fouten uit de geconverteerde teksten te halen heeft Finkel naar redacteuren gezocht die bereid waren de OCR-tekst te vergelijken met het origineel en deze te corrigeren. Tot nu toe hebben 10 redacteuren zich over de OCR-tekst gebogen en is bijna 40 procent van het complete werk van Sjolem Alejchem door een redacteur gecorrigeerd.

Finkel schrijft op 24 december 2015:

At present, about 38% of the entire corpus has been proofread by at least one editor, thanks to a small crew of about 10 editors. I have done some
proofreading myself; it's a lot of fun. Anyone can try out the editing tools;
only registered editors can save their edited text. The editing tools include
a form for requesting editor status.

There is also a "read" feature: You can see any page, whether proofread or not, in any of four forms: original scan, OCR version (as currently proofread), OCR-version with mouse-over word translations, and transliteration into Roman letters.

Inhoudsopgave

There is also a table of contents, pointing both to the latest corrected
version of the OCR as well as any audio recordings we know of.


       http://www.cs.uky.edu/~raphael/yiddish/searchSholem.cgi

Interview met Finkel

Refoyl Finkel

In een interview met In Geveb, A journal of Yiddish Studies, legt Refoyl Finkel uit hoe zijn OCR-programma werkt en waarin het zich onderscheidt van andere soortgelijke programma's.
Lees hier het interview.

 

Losse nummers van Grine medine (10 €) zijn per e-mail of telefonisch te bestellen bij het secretariaat - zie de gegevens onder in de balk. Donateurs van de stichting Jiddisj (vanaf 35 € per jaar) ontvangen Grine Medine zonder verdere kosten thuis.


 
 


Laatst bijgewerkt op 02-02-2016