Het grote Sjolem Alejchem OCR-project
van Refoyl Finkel
Om de fouten uit de geconverteerde teksten te halen heeft
Finkel naar redacteuren gezocht die bereid waren de OCR-tekst te
vergelijken met het origineel en deze te corrigeren. Tot nu toe
hebben 10 redacteuren zich over de OCR-tekst gebogen en is bijna 40
procent van het complete werk van Sjolem Alejchem door een redacteur
Finkel schrijft op 24 december 2015:
At present, about 38% of the entire corpus has been proofread by at
least one editor, thanks to a small crew of about 10 editors. I have
done some
proofreading myself; it's a lot of fun. Anyone can try out the editing
only registered editors can save their edited text. The editing tools
a form for requesting editor status.
There is also a "read" feature: You can see any page, whether proofread
or not, in any of four forms: original scan, OCR version (as currently
proofread), OCR-version with mouse-over word translations, and
transliteration into Roman letters.
There is also a table of contents, pointing both to the latest corrected
version of the OCR as well as any audio recordings we know of.
Interview met Finkel
In een interview met In Geveb, A journal of Yiddish Studies, legt Refoyl
Finkel uit hoe zijn OCR-programma werkt en waarin het zich onderscheidt
van andere soortgelijke programma's.
hier het interview.