דפים

יום חמישי, 23 במאי 2013

מתגלגל על הלשון: פונטיקה להמונים

"הבוקר השרבי לא הרתיע את טום; הוא קם, כיוון את הטרמוסטט של מיזוג האוויר לחום מירבי ויצא לרכוב על קורקינט ולשחק קריקט ברחובותיה הלוהטים של בומביי, לא לפני שמילא את התרמוס בתה חם, לבש חולצה תרמית ומדד את טמפרטורת גופו בעזרת טרמומטר כספית סיני עתיק".
מה שתמוה בקטע הקצר הזה אינו ההתנהגות המוזרה של הגיבור פרי מקלדתי, אלא התעתוק השגעוני של המילים הלועזיות לעברית.  
מדוע המילים המגוירות הללו מתועתקות לעברית פעמים עם טי"ת ופעמים עם תי"ו? למה יש גם "טום" וגם "תרמוס", "טרמוסטט" וגם "תרמי", אם כולן כתובות בשפת המקור עם t? מילא אם היה מדובר רק במילים בעלות אטימולוגיה שונה, אך המילים טרמומטר, תרמוס, טרמוסטט ותרמי יוצאות משורש אחד; כולן בנותיה של המילה היוונית thermo, ואף על פי כן התעתוק שלהן אינו אחיד. הגנוטיפ זהה, אם נמשיך במטאפורה המשפחתית, אך הפנוטיפ שונה. אלא שהמצב חמור עוד יותר, שכן גם לאותה מילה עצמה ישנם כמה תעתיקים חלופיים. "תרמוס" יכול גם להיות "טרמוס" בהנף קולמוס! כדי להבין את התופעה ומקורה יש להקדים הקדמה כללית קצרה ביחס לתעתוק.





"תעתיק" או "תעתוק" הוא שמה של הטכניקה שבה מעבירים מילים ממערכת כתב של שפה אחת לזו של שפה אחרת, מעברית לרוסית למשל, או מאנגלית לפרסית. מקור המילה בשם הפעולה "העתקה" שמשמעותה היא "הזזה"*. תעתיק אפוא הוא "הזזה" של אופן כתיבתה של מילה ממערכת סימנים אחת לאחרת, או "תרגום אורתוגרפי" אם תרצו להישמע משכילים מבלי לקום מהכורסא. כמובן שאם מערכת הכתב של שתי השפות משותפת או משותפת-ברובה אין צורך בתעתיק; כך למשל אין צורך לתעתק מאנגלית לספרדית כיוון שרק סימנים בודדים אינם משותפים לשתי השפות (ה-w של האנגלים אינה קיימת בספרדית ו-ñ אינה נמצאת באלפבית האנגלי).
כפי שמלמדים בכל קורס לעריכת לשון, יש שני סוגים של תעתיק: "תעתיק אותיות" (transliteration) שבו המתעתק מתרגם כל סימן-כתב לסימן המקביל לו בשפה שאליה מתעתקים, ו"תעתיק הגאים" (transcription) שבו מתעתקים את המילה כפי שהיא נהגית בפועל. הסוג השני הוא השימושי ביותר שכן הוא מאפשר לקורא "להגות את השם" כפי שהוא באמת ולא רק "ככתבו". נראה שזו הסיבה לכך שסוג תעתוק זה נבחר על ידי "האקדמיה ללשון העברית" כתעתיק הראוי לבוא בפי ההמון העברי:
"ביסוד הכללים מונח העיקרון שאין מתעתקים את השמות על פי כתיבתם במקורם כי אם על פי הגייתם הנשמעת לנו" (מבוא, "כללי התעתוק, תשע"ב"). 
אכן, העובדה שיש לתעתק לפי הקרי ולא לפי הכתיב מקשה על האלגוריתמיזציה של התעתוק; על אף שישנם כללי הגייה שמאפשרים גם לדובר לא-ילידי של השפה להגות מילים חדשות כראוי, לכללים אלו יש יוצאי דופן רבים ואין התאמה מלאה (חד-חד-ערכית) בין סימני הכתב ובין האופן שבו הם נהגים. עברית מנוקדת היא שפת  WYSIWYG בדרך כלל, דהיינו שפה שבה "מה שאתה רואה הוא מה שאתה מקבל". גם בספרדית הוגים את המילים ככתבן ולפי כללים פשוטים אך נוקשים. האנגלית לעומת זאת מציבה אתגר של ממש בפני לומדי השפה כמו גם בפני כל מי שמנסה לכתוב תוכנה להקראה אוטומטית; איך יש לקרוא את רצף הסימנים door, האם כמו במילה boot או כמו במילה book? משום כך רוב תוכנות ההקראה מחזיקות מאגר של מילים יוצאות דופן לצד רשימת כללי ההגייה.
בעבר לא הייתה לשאלת התעתיק הנכון משמעות רבה שכן התעתוק שימש בעיקר לצרכים איזוטריים, כגון כתיבת שמות של ערים וארצות זרות. כאן המקום להזכיר שלתעתיק הנכון הייתה אז - ויש גם כיום - משמעות הלכתית קריטית. כשרותם של כתובות וגיטין יהודיות תלויה בתעתוק נכון של שמות החתן, הכלה והוריהם; תשובות רבות בספרות השו"ת עוסקות בשאלה איך לתעתק שמות לועזיים שונים ומשונים. אכן בימינו הפך התעתוק הנכון לשאלה יומיומית יותר, שכן רוב ככל מוצרי טכנולוגית העילית שקונים שביתה בעולמנו מפותחים בחברות דוברות שפות זרות; אינטרנט, גוגל, פייסבוק ויוטיוב הם רק חלק מאוצר המילים המתחדש של עידן המידע, ושמותיהם העבריים של מוצרים חיוניים אלו (?) תועתק משמם הלועזי.
מתעתק שמכיר את השפה, כללי ההגייה ויוצאי הדופן יכול היה לתעתק כראוי וללא כל תעויוט מבלי כל בעיה. אלא שכאן מצטרף לחגיגה קושי נוסף. כאשר לכל סימן בשפה א' יש סימן מקביל אחד בלבד בשפה ב', הכל פשוט וקל, אך מה עושים כאשר יש כמה חלופות אפשריות? את העיצור הלטיני t, למשל, ניתן לתעתק לעברית כטי"ת או כת"ו. כך גם בנוגע ל-c, שיכולה להיות כ"ף או קו"ף (או אפילו חי"ת, תלוי בתנועה הנסמכת אליה).
רבים מאיתנו אולי מכירים את ה"תעתיק" כ"פונטיקה". באופן רקורסיבי להפליא, מילה זו עצמה היא תעתיק של המילה הלועזית phonetic. רגע, אבל מדוע יש לתעתק מילה זאת כ"פונטיקה" דווקא ולא כ"פונתיקה", "פונטיכה" או אפילו "פונתיכה"? 
מי קובע מהו הסימן המתאים מתוך המבחר האפשרי? אף אחד. עד העת החדשה איש לא נתן דעתו על קביעת כללי תעתוק עבריים מוסכמים. עובדה זו הותירה את אותותיה בכתובים. סקירה רוחבית של הספרות העברית מציגה זאת היטב; בטקסטים מתקופות שונות ואפילו מאותה תקופה ניתן למצוא תעתוקים שונים לאותה מילה לועזת.דוגמא מוכרת לתנודות בתעתוק מציגה המדינה החילונית הראשונה במרחב המוסלמי של אגן הים התיכון, הלא היא Türkiye. מה עושים עם זה? "טורקיה", "טורכיה", "תורכיה" או אולי בכלל "תורקיה"?
הנה תוצאות החיפוש של המחרוזות השונות בגוגל-Ngram:


  
בהתחלה שיחק המזל ל"טורקיה", אך עם הזמן גברה עליה ידה של "תורכיה" שהיא התעתיק הנפוץ יותר בספרות. אכן האקדמיה קובעת ש"בתעתיק שמות מדינות, t היא בדרך כלל ת"ו ולא טי"ת" (עפ"י שו"ת באתר האקדמיה). לטביה, אפגניסטן, טרינידיד וטובגו הן מדינות יוצאות מן הכלל, כך מסתבר... (אני ממש מקווה שלא החמצתם את משחק המילים הנפלא שהטמנתי כאן). וכפי שאפשר לראות בתוצאות החיפוש, בשאלה התורכית הצביע הציבור דווקא לטובת "תורכיה" בת"ו, וזאת על אף שמותג-העל של קפה-עלית קרוי "קפה טורקי".
כפי שהצגנו בפתיחת הרשומה, המציאות מציגה מגוון נרחב ביותר של תעתיקים. יש "תרמוס" וגם "טרמוס" בגלל ששוק התעתיקים נוצר לפני שנוצר הגוף המפקח. "קפה תורכי", לעומת זאת לא מצאתי, אגב. מדוע יש מגוון של תעתיקים? כיוון שהיו מי שתעתקו את ה-thermus כ"תרמוס" והיה מי שתעתק זאת ל"טרמוס". איזה תעתיק שרד? שניהם, אלא שאחד מהם הפך לנפוץ יותר בשל סיבה עלומה. למעשה, התעתיק "הנכון" של מילים מילוניות ותיקות הוא התעתיק הפופולארי בלבד ולא תורה למשה מסיני.



מעניין לבדוק האם האקדמיה הצליחה לצלם תמונת-מסך נכונה של הזירה הלשונית הגועשת. אני בספק, במיוחד בגלל שהשפה משתנה תדיר. כדי לענות על השאלה, קבלו את המבחן האולטימטיבי: "גוגל" ראש בראש מול "מילון אבן שושן". נכון, זה קצת לא הוגן כלפי המתחרה השני, שכן הוא פרסם את ספרו לפני זמן לא מועט, אבל אין לי מילון מודרני יותר... אני מזמין קוראים בעלי מילונים חדשים יותר כמו "ספיר" או "אריאל", לעזור בהשוואה.
בחרתי בשש מן המילים שהזכרתי בטקסט הפתיחה ובדקתי מה הכתיב שמציע מילון אבן שושן ומהן תוצאות החיפוש של הכתיבים השונים האפשריים במנוע של גוגל. התוצאות לפניכם:
1. אבן שושן: תום (ילקוט השמות הפרטיים. שם חדש "מיצירות תקופת התחיה ותקומת ישראל").
גוגל: תום קרוז: 360,000 תוצאות. טום קרוז: 135,000. 
2. אבן שושן: תרמוס
גוגל: תרמוס: 70,800. טרמוס: 253,000.
3. אבן שושן: הצורה תרמו היא הראשית, אך גם טרמו מופיעה במילון.
גוגל: חולצה תרמית: 101,000. חולצה טרמית: 43,700.
4. אבן שושן: טמפרטורה.
גוגל: תמפרטורה: 20,200. טמפרטורה: 1,460,000.
5. אבן שושן: תרמוסטט
גוגל: תרמוסטט: 98,500. טרמוסטט: 78,600. 
6. אבן שושן: תרמומטר
גוגל: תרמומטר: 5,480. טרמומטר: 43,600.
שתי טעויות בלבד מתוך שש מילים זה יפה מאוד. נדמה שמילון אבן שושן עמד במבחן. אכן כשהוקמה האקדמיה ללשון, היא החלה בקביעת כללים שלפיהם יש לתעתק מילים חדשות. אלא שנפלאות דרכיו של התעתיק; על אף שחוקיו האפריוריים מכתיבים לו משמעת קשוחה וברורה שהיא כמעט אלגרותימית, במציאות הוא מתנהג כפרחח פוחח וחסר רסן, ומילים חדשות נוצרות שלא לפי החוקים. ככה זה כשמנסים לכפות סדר והיגיון על השפה האנושית שמתפתחת ללא יד מכוונת וללא מנגנוני משוב ובקרה.

* הערה שכדאי לקרוא גם אם זה אומר שתפסידו 3 דקות מחייכם המשמימים
קרוב לוודאי שהמשמעות המקורית של שם הפועל "להעתיק" הייתה "הזזת חפצים במרחב הפיזי ממקום למקום". עם הזמן נעתק הפועל ממשמעותו המקורית וקיבל משמעות רחבה יותר של "עשיית העתק"; התהליך שבו כותבים "מילה במילה מן המקור, ביד או במכונה" נתכנה בשם "העתקה", מפני שהמילים כביכול מועתקות-זזות מהגיליון המקורי לגיליון החדש. עם הזמן נשתכחה המשמעות המקורית של הפעולה וכיום מקובל להשתמש במילה "העתקה" רק במשמעות החדשה (copy) או בזו המושאלת ממנה של חיקוי, כמו "העתקה בבחינה" שהיא חיקוי כתביו של הזולת באופן בלתי חוקי. אכן, שריד למשמעות המקורית נמצא בביטוי "העתקת מקום מגורים", שאינו כרוך בשימוש במכונת שכפול עצומת מימדים, אלא רק בשירותי סבלים חסוני שכם.
רוו
הה

7 תגובות:

  1. זה גם לגמרי לא טריוויאלי שאת האות V מתעתקים לפעמים כ-ו' כפולה(טריוויאלי; רלוונטי), לפעמים כ-ב' רפה(אוקטבה, אוניברסיטה) ולפעמים גם וגם (טלוויזיה/טלביזיה וכל המילים במשקל זה, כמו רוויזיה, דיביזיה וכן הלאה). האקדמיה ניסתה בזמנו לקבוע כללים לעניין, אך גם כאן, המציאות היא שקובעת.

    השבמחק
    תשובות
    1. יפה! דוגמאות יפות לכך שקשה להכניס לסד את היצור הפראי הזה המכונה "שפה". תודה.

      מחק
  2. הרשומה מעניינת מאוד, ואף חידשה לי. מעניין תמיד להתוודע לזווית התורנית, הפחות מוכרת לי.

    תהיתי בעניין הטי"ת - על פי כללי האקדמיה לתעתיק שמות, t מתועתקת ככלל דווקא לטי"ת, ולא לתי"ו, וכך גם בהנחיות הספציפיות לתעתיק שמות מדינות שנתת לינק אליהן (העיצור t מתועתק בדרך כלל בטי"ת; לכן וטיקן (ולא ותיקן)).

    כמו כן, בדוגמת ההגייה של door באנגלית, הצגת את השאלה אם לבטא כמו boot או כמו book - אם אינני טועה שתי מילים אלה מבוטאות בצורה דומה (אוּ) ואף אחת מהן אינה מבוטאת כמו door (אוֹ) - אולי זו התחכמות שפספסתי (סביר להניח...) או שכדאי להחליף אחת משתי האפשרויות במילה שאכן נכתבת בשתי o אך מבוטאת כמו door - לצערי לא עולה בדעתי דוגמה...

    תודה, נהניתי לקרוא!

    שלומית.

    השבמחק
    תשובות
    1. תודה.
      את צודקת. boot נהגה בדיוק כ-book? גם wood. האם יש מילה אחרת מלבד door שבה o-כפולה נהגית אחרת? אחפש. בכל מקרה, גם אם הדוגמא לא מוצלחת, האמירה נכונה. יש הבדלים בין הכתיבה להגייה באנגלית.
      ושוב, תודה. את מוזמנת להמשיך לקרוא ולהגיב.

      מחק
  3. הכלל הוא שכאשר יש th כותבים ת׳, כל השאר ט׳. תורכיה היא יוצאת מן הכלל כי ההעתקה היא מערבית.
    לכן תרמוס הוא הכתיב הנכון ולא טרמוס.

    השבמחק
    תשובות
    1. שוש ק' המרצה? תודה!
      אבן שוש[ן] אכן עקבי בתעתוק שלו מ-th.

      מחק
  4. כבר תפסו לי את ה-th אז נעיר הערה אחרת...
    לדוברי אנגלית (לפחות בריטית) יש הבדל בצליל 'אוּ' בין food ו-good.
    האחד ארוך יותר מהשני - לא שאני יודע איזה, כי בעברית ישראלית כבר אין תנועות ארוכות וקצרות...

    ואפשר גם להוסיף את התעתיק המגוחך של שלטי החוצות בארץ המתעקשים לתעתק ק כ-q שהיא אחת האותיות הנדירות באנגלית לדוגמא
    http://www.experience-israel.org/wp-content/uploads/2012/02/Petah-Tiqwa.jpg

    השבמחק

רוצה להגיב? זה המקום!