Het grote Sjolem Alejchem OCR-project
van Refoyl Finkel
Om de fouten uit de geconverteerde teksten te halen heeft
Finkel naar redacteuren gezocht die bereid waren de OCR-tekst te
vergelijken met het origineel en deze te corrigeren. Tot nu toe
hebben 10 redacteuren zich over de OCR-tekst gebogen en is bijna 40
procent van het complete werk van Sjolem Alejchem door een redacteur
gecorrigeerd.
Finkel schrijft op 24 december 2015:
At present, about 38% of the entire corpus has been proofread by at
least one editor, thanks to a small crew of about 10 editors. I have
done some
proofreading myself; it's a lot of fun. Anyone can try out the editing
tools;
only registered editors can save their edited text. The editing tools
include
a form for requesting editor status.
There is also a "read" feature: You can see any page, whether proofread
or not, in any of four forms: original scan, OCR version (as currently
proofread), OCR-version with mouse-over word translations, and
transliteration into Roman letters.
Inhoudsopgave
There is also a table of contents, pointing both to the latest corrected
version of the OCR as well as any audio recordings we know of.
http://www.cs.uky.edu/~raphael/yiddish/searchSholem.cgi
Interview met Finkel
In een interview met In Geveb, A journal of Yiddish Studies, legt Refoyl
Finkel uit hoe zijn OCR-programma werkt en waarin het zich onderscheidt
van andere soortgelijke programma's.
Lees
hier het interview.
|