סריקה מהירה – מהאוצר עד למוצר
בואו עמנו לסיור מרתק, הצצה לעולם שמאחורי הספר, עולם חי ותוסס, שגם בו נעשתה פריצת דרך מדהימה ומרתקת, אך לא ידועה לכל, זהו עולם הסריקות של ספרי הקודש.
עד לא מכבר, הוצאת ספר הייתה חייבת לעבור דרך הקלדנות. השלב הראשון והבסיסי שעמד בפני כל מו"ל ותיק כמתחיל, להפוך את הספר לטקסט ממוחשב. כך הספר פתוח מול עיני הקלדן, והוא אות אחר אות, מקיש ומקליד. כל מילה שכתוב בספר נכתבת על לוח המקשים המחובר למחשב. כך בסבלנות אין קץ, עקב בצד גודל.
עבודה זו, למעט מקצוענים בתחום, הייתה ועודנה רוויה בשגיאות, הטקסט המוקלד בעבודת יד, 'בעשר אצבעות', חייב לעבור מספר 'מגיהים' שמתאמצים לנפות את הטקסט במידת האפשר, הגהה אחר הגהה ועם זאת כמעט בכל ספר אותו תפתחו תמצאו כמה וכמה טעויות, קריטיות פחות או יותר.
ישנם גם טעויות שאיתם אי אפשר לחיות, הם 'דילוגי השורות'.
לא מדובר בסיפורים של לפני מאה שנה, זו תופעה עגומה אך רווחת, עשרות ספרים חדשים סובלים ממחלת דילוגי השורות. זו עובדה. מדוע? כיצד המגיה לא 'עלה' על זה מיד, הרי חסר תוכן, כיצד יתכן? תכנסו לעולם של המגיה – לעיתים, הוא מפר את הנהלים הקובעים שכל מילה בודקים ומשווים ע"פ המקור, פשוט קשה לו לעקוב מילה מילה, כך הוא לא מזהה מילה בעלת משמעות לא מובנת, המילים נראות תקינות לחלוטין, והוא ממשיך לקטע הבא תוך שהותיר אחריו טעות חמורה.
עם כניסתה לעולם הספר של תוכנת או.סי.אר. (שלושה אותיות באנגלית .o.c.r.) כל זה הפך להיסטוריה!
הכירו את ה- OCR
OCR היא טכנולוגיה המזהה אותיות ומספרים, שנסרקו על ידי סורק, והופכת אותם מתמונה, מדף טקסט מודפס, לקובץ דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR ניתן לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
כך זה עובד. המחשב רואה את הדף, מצלם אותו ופשוט מתחיל לקרוא מילה אחרי מילה, שורה אחר שורה. הוא חכם, הוא מבין מתי לעבור לטור הבא, ומתי להפוך דף, מה המשך ומה לא קשור. הוא מזהה וקורא הכל. לא מחסיר אות. החל ממספר העמוד והכותרות, ועד הגהה שמודפסת בשולים השמאליים, בקיצור תולעת ספרים אמתית ויסודית.
עם הקריאה הוא הופך את האותיות הישנות והשבורות ל'טקסט', חומר מסודר. כחומר ביד היוצר מוכן ופתוח לכל שינוי והתאמה. כך במהירות אדירה ובדיוק מדהים.
מה מיוחד בתוצאות?
אבל מה, כמו בכל דבר טוב, יש גם באגים לא פשוטים, והבעיה המרכזית של תוכנת הOCR היא שהתוכנה אינה מבינה את השפה המיוחדת של ספרי הקודש היהודיים, בספרי קודש נדרשת סריקה חכמה במיוחדת המזהה את השפה הייחודית של ספרי הקודש ואינה מתקנת אותם אוטומטית לעברית ישראלית וצברית.
הפיתוח המיוחד שעליה עמל הרב ברנסדופר – ועד היום ישנם בודדים בעולם שיודעים את הסוד המיוחד – שהפך את תוכנת הסריקה החכמה לתלמיד חכם של ממש, התוכנה יודעת לזהות את הניואנסים המיוחדים של אוצר הספרים היהודי, היא יודעת להבדיל בין עברית תקנית ללשון הקודש ולהפוך את התמונה של הרמב"ם מדפוס ראשון לטקסט חי וברור כמעט ללא שגיאות.
כך, דברים שבעבר לקחו חודשים רבים בעבודה מאומצת של תיקוני שגיאות לוקחים היום מספר ימים, עם יכולות מיוחדת להמיר את הטקסט ולשמור את צורת העמוד המקורית! ב'תוצאות' הוכיחו יכולות גם בספרים ישנים מאוד, ספרים שאותם כמעט לא שייך להקליד, כמו גם בפרויקטים מורכבים שעברו כמה הרמות ידיים עד שהגיעו לתוצאות.