מהי סריקה מהירה של ספרי קודש וכיצד היא משנה את תהליך ההוצאה לאור?
בואו עמנו לסיור מרתק, הצצה לעולם שמאחורי הספר, עולם חי ותוסס, שגם בו נעשתה פריצת דרך מדהימה ומרתקת, אך לא ידועה לכל, זהו עולם הסריקות של ספרי הקודש.
עד לא מכבר, הוצאת ספר הייתה חייבת לעבור דרך הקלדנות. השלב הראשון והבסיסי שעמד בפני כל מו"ל ותיק כמתחיל, להפוך את הספר לטקסט ממוחשב. כך הספר פתוח מול עיני הקלדן, והוא אות אחר אות, מקיש ומקליד. כל מילה שכתוב בספר נכתבת על לוח המקשים המחובר למחשב. כך בסבלנות אין קץ, עקב בצד גודל.
עבודה זו, למעט מקצוענים בתחום, הייתה ועודנה רוויה בשגיאות, הטקסט המוקלד בעבודת יד, 'בעשר אצבעות', חייב לעבור מספר 'מגיהים' שמתאמצים לנפות את הטקסט במידת האפשר, הגהה אחר הגהה ועם זאת כמעט בכל ספר אותו תפתחו תמצאו כמה וכמה טעויות, קריטיות פחות או יותר.
ישנם גם טעויות שאיתם אי אפשר לחיות, הם 'דילוגי השורות'.
לא מדובר בסיפורים של לפני מאה שנה, זו תופעה עגומה אך רווחת, עשרות ספרים חדשים סובלים ממחלת דילוגי השורות. זו עובדה. מדוע? כיצד המגיה לא 'עלה' על זה מיד, הרי חסר תוכן, כיצד יתכן? תכנסו לעולם של המגיה – לעיתים, הוא מפר את הנהלים הקובעים שכל מילה בודקים ומשווים ע"פ המקור, פשוט קשה לו לעקוב מילה מילה, כך הוא לא מזהה מילה בעלת משמעות לא מובנת, המילים נראות תקינות לחלוטין, והוא ממשיך לקטע הבא תוך שהותיר אחריו טעות חמורה.
עם כניסתה לעולם הספר של תוכנת או.סי.אר. (שלושה אותיות באנגלית .o.c.r.) כל זה הפך להיסטוריה!
מהי טכנולוגיית OCR וכיצד היא פועלת?
OCR היא טכנולוגיה המזהה אותיות ומספרים, שנסרקו על ידי סורק, והופכת אותם מתמונה, מדף טקסט מודפס, לקובץ דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR ניתן לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
כך זה עובד. המחשב רואה את הדף, מצלם אותו ופשוט מתחיל לקרוא מילה אחרי מילה, שורה אחר שורה. הוא חכם, הוא מבין מתי לעבור לטור הבא, ומתי להפוך דף, מה המשך ומה לא קשור. הוא מזהה וקורא הכל. לא מחסיר אות. החל ממספר העמוד והכותרות, ועד הגהה שמודפסת בשולים השמאליים, בקיצור תולעת ספרים אמתית ויסודית.
עם הקריאה הוא הופך את האותיות הישנות והשבורות ל'טקסט', חומר מסודר. כחומר ביד היוצר מוכן ופתוח לכל שינוי והתאמה. כך במהירות אדירה ובדיוק מדהים.
מה הייחודיות של סריקת OCR לספרי קודש ב'תוצאות'?
הייחודיות של סריקת OCR לספרי קודש ב'תוצאות' טמונה ביכולתה לזהות ולהבין את השפה המיוחדת של ספרי הקודש היהודיים, בניגוד לתוכנות OCR רגילות שאינן מבינות ניואנסים אלו. פיתוח מיוחד של הרב ברנסדופר הפך את תוכנת הסריקה החכמה ל'תלמיד חכם' של ממש, המסוגל להבדיל בין עברית תקנית ללשון הקודש ולהמיר טקסטים ישנים ומורכבים כמעט ללא שגיאות, תוך שמירה על צורת העמוד המקורית! כך, עבודת תיקון שגיאות שלקחה בעבר חודשים, מתבצעת כעת תוך ימים ספורים, גם בספרים עתיקים ופרויקטים מורכבים.
הפיתוח המיוחד שעליה עמל הרב ברנסדופר – ועד היום ישנם בודדים בעולם שיודעים את הסוד המיוחד – שהפך את תוכנת הסריקה החכמה לתלמיד חכם של ממש, התוכנה יודעת לזהות את הניואנסים המיוחדים של אוצר הספרים היהודי, היא יודעת להבדיל בין עברית תקנית ללשון הקודש ולהפוך את התמונה של הרמב"ם מדפוס ראשון לטקסט חי וברור כמעט ללא שגיאות.
כך, דברים שבעבר לקחו חודשים רבים בעבודה מאומצת של תיקוני שגיאות לוקחים היום מספר ימים, עם יכולות מיוחדת להמיר את הטקסט ולשמור את צורת העמוד המקורית! ב'תוצאות' הוכיחו יכולות גם בספרים ישנים מאוד, ספרים שאותם כמעט לא שייך להקליד, כמו גם בפרויקטים מורכבים שעברו כמה הרמות ידיים עד שהגיעו לתוצאות.



