תרגום מכונה

מתוך ויקיפדיה, האנציקלופדיה החופשית

יש לך הודעות חדשות (השווה לגרסה הקודמת).

תרגום מכונה (Machine Translation – MT) הוא סוג של תרגום שבו תוכנת מחשב מנתחת את הטקסט בשפה אחת – "טקסט המקור" – ואז יוצרת טקסט אחר, מקביל, בשפה אחרת – "טקסט היעד", ללא מגע יד אדם. כרגע המצב בתחום תרגום המכונה מחייב התערבות אנושית – עריכה לפני התרגום ואחריו. הענף במדעי המחשב העוסק בתרגום מכונה ובסוגיות דומות מכונה "עיבוד שפה טבעית" (Natural Language Processing - NLP).

כיום, רוב מערכות תרגום המכונה מייצרות "תרגום גרעיני", כלומר תרגום שנותן את עיקרו של טקסט המקור, אך לבד מזה הוא אינו שמיש. אולם, בתחומים בעלי תחום מוגבל מאוד של אוצר מילים ומבנה משפטים פשוט, למשל בדיווחים מטאורולוגיים, תרגום מכונה יכול להביא לתוצאות מועילות.

תרגום מכונה הוא אחד מהנושאים הראשונים שהתעניינו בהם במדעי המחשב, אך התברר כי הוא יעד חמקמק, אף שהיום בכל זאת הצליחו להגיע למספר מערכות שמועילות לצרכים מסוימים.

תרגום מילים בודדות באמצעות מחשב נעשה כעת בהצלחה רבה, לעתים אף ללא צורך בהקלדת הטקסט (באמצעות תוכנת התרגום "בבילון", למשל, שמצוידת במנגנון OCR לזיהוי האותיות). תרגום טקסטים שלמים הוא משימה קשה לאין שיעור, משום שלא די בו בהבנת התרגומים האפשריים של כל מלה, אלא נדרשת הבנה של משמעות הטקסט. על הקושי שבביצוע משימה זו ניתן ללמוד מהסיפור (הבדיוני, כנראה) הבא:

תוכנת תרגום התבקשה לתרגם מאנגלית לרוסית את המשפט (שמקורו בברית החדשה) The spirit is willing but the flesh is weak. כדי לבדוק את נכונות התרגום התבקשה התוכנית לתרגם את פרי עמלה חזרה מרוסית לאנגלית, והתוצאה שפלט המחשב הייתה The vodka is good but the meat is rotten.

[עריכה] תרגום מכונה ותרגום בעזרת מכונה

למרות ששני התחומים דומים זה לזה, אין לבלבל ביניהם; בתרגום מכונה, המתרגם הוא שעוזר למכונה, כלומר התוכנה היא שמתרגמת את הטקסט, ואז הוא נערך על ידי האדם, ואילו בתרגום הנעזר במכונה (MAT), המחשב רק עוזר למתרגם, שמתרגם את הטקסט בעצמו, והאדם הוא שמחליט את ההחלטות החשובות המעורבות בתרגום.

[עריכה] הקדמה

את תהליך התרגום, אם בשביל תרגום ממש או בשביל פירוש, אפשר לפרט כך:

הבנת משמעותו של טקסט המקור
ניסוח מחדש בטקסט היעד.

מאחורי התהליך הפשוט הזה עומד מבצע קוגניטיבי מורכב. על מנת להבין את משמעות טקסט המקור כולו, על המתרגם לפרש ולנתח את כל המאפיינים של הטקסט, תהליך שמצריך ידע רחב בדקדוק, בסמנטיקה, בתחביר ובביטויים של שפת המקור, וכן הכרה של התרבות של דוברי השפה. המתרגם צריך גם את אותו ידע על מנת לנסח את המשמעות הזו מחדש בשפת היעד.

כאן מצוי האתגר של תרגום מכונה: כיצד לתכנת מחשב, כך "שיבין" את הטקסט כמו אדם, וגם יצור טקסט חדש בשפת היעד ש"נשמע" כאילו נכתב בידי אדם.

לבעיה זו אפשר לגשת בכמה צורות.

[עריכה] גישות בלשניות

פעמים רבות נטען, כי ההצלחה של תרגום מכונה תלוי בפתירת הבעיה של הבנת שפה טבעית בידי אדם לפני כן. אולם, ישנן כמה שיטות המשמשות במציאת פתרון בתרגום מכונה, הכוללות:

שיטות חיפוש מילוניות
שיטות מבוססות לשון
שיטות מבוססות סמנטיקה (תרגום מכונה מבוסס ידע)
שיטות סטטיסטיות
שיטות המבוססות על דוגמאות
שיטות המבוססות של חוקים לשוניים

באופן כללי, שיטות המבוססות על חוקים (שלושת הראשונות) מנתחות את הטקסט, כשהם בדרך כלל משתמשות בייצוג סימבולי מגשר, שממנו הטקסט בשפת היעד מיוצר. שיטות אלה מצריכות לקסיקונים נרחבים עם מידע מורפולוגי, תחבירי וסמנטי, ועם חוקים רבים.

שיטות המבוססות על סטטיסטיקה ועל דוגמאות, אינן משתמשות בלקסיקונים ובחוקים, אלא מנסות ליצור תרגומים בהתבסס על טקסטים דו-לשוניים ארוכים, כגון הרשימות האנגליות-צרפתיות של הפרלמנט הקנדי. ניתן להגיע לתוצאות מרשימות בשיטות כאלה, אך טקסטים דו-לשוניים בגודל כזה נדירים מאוד.

אם יש להן די מידע, רוב תוכנות תרגום המכונה עובדות די טוב על מנת שדובר שפה אחת יוכל להבין בערך את משמעות דבריו של הדובר בשפה השנייה. עם זאת, קיים קושי להשיג את המידע הנדרש על מנת לתמוך בשיטה מסוימת. הכמות הגדולה של הטקסט הנדרשת לשיטות הסטטיסטיות אינה נצרכת בשיטות הלשוניות, אך הן מצריכות בלשן מומחה שיעצב את החוקים הלשוניים שהתוכנה משתמשת בהם.

[עריכה] משתמשים

למרות מגבלותיהן, תוכנות תרגום מכונה נמצאות בשימוש על ידי ארגונים שונים בכל העולם. המשתמש הגדול ביותר הוא כנראה האיחוד האירופי, שמשתמש בגרסה משופרת של מערכת SYSTRAN, על מנת לעזור בתרגום אוטומטי של כמות גדולה של טיוטות ראשוניות של מסמכים לשימוש פנימי.

לאחרונה נתגלה, כי באפריל 2003 מיקרוסופט החלה להשתמש במערכת תרגום מורכבת, על מנת לתרגם את מאגר מסמכי התמיכה הטכנית שלה מאנגלית לספרדית. התוכנה פותחה על ידי קבוצת המחקר לשפה טבעית של מיקרוסופט. הקבוצה כרגע בוחנת מערכת אנגלית-יפנית וכן מעלה מערכות אנגלית-צרפתית ואנגלית-גרמנית. שתי המערכות האחרונות משתמשות ברכיב של למידה עצמית של שפה, ואילו לשני הראשונות יש מערכות יצירת שפה שפותחו באופן ידני. המערכות פותחו והוכשרו על ידי מאגרי מידע של מעל למליון משפטים כל אחד.

[עריכה] היסטוריה של תרגום מכונה

הנסיונות הראשונים לתרגום מכונה נעשו לאחר מלחמת העולם השניה. ההערכה הייתה כי למחשבים החדשים לא תהיה בעיה לתרגם טקסטים, בשל יכולתם לפתור בעיות לוגיות סבוכות במהירות הגדולה בהרבה משל בני אדם, והתובנה שאם ילדים קטנים יכולים ללמוד שפה טבעית, אז בוודאי שהמחשבים יוכלו! אלא שלמעשה, הערכה זו נתגלתה כשגויה.

עבודה חלוצית בתחום זה נעשתה על-ידי יהושע בר-הלל, שעסק בנושא זה ב-MIT, ובשנת 1952 הוביל את הכנס הבינלאומי הראשון בנושא זה. מאוחר יותר הביע ספק האם תרגום אוטומטי באיכות גבוהה יהיה אפשרי אי פעם.

ב-7 בינואר 1954, ההצגה הראשונה של מערכת תרגום מכונה נערכה במשרד הראשי של יבמ בניו יורק. דווח עליה באופן רחב בעיתונות, והיא משכה תשומת לב ציבורית רבה. אך המערכת עצמה הייתה רק מערכת "צעצוע", במונחים של היום, וכללה 250 מלים בלבד, כשהיא מתרגמת 49 משפטים נבחרים מרוסית לאנגלית, בעיקר בתחום הכימיה. ובכל זאת, האירוע תמך בהנחה שתרגום מכונה הוא דבר פשוט, והגדיל את המימון של מחקר תרגום מכונה בארצות הברית ובעולם כולו.

במערכות התרגום הרציניות הראשונות השתמשו במלחמה הקרה על מנת לנתח מאמרים מדעיים רוסיים. התרגומים הכלליים שהושגו, הספיקו על מנת להבין את נושא המאמר ואת עיקרו, ואם המאמר עסק בנושא שהיה עשוי להיות מעניין מבחינה בטחונית, הוא הועבר למתרגם אנושי; אם לא, הוא הושלך.

עלייתם של המחשבים הזולים ובעלי העוצמה לקראת סוף המאה ה-20 הביאה את תרגום המכונה להמונים, ושימוש רחב יותר החל לאחר ההפצה באינטרנט.

אך הרבה מהמאמץ שהופנה קודם לכן למחקר תרגום מכונה, עבר כעת לפיתוח אמצעים לתרגום בעזרת מכונה, כגון מאגרי תרגום, שנתפסים כמועילים ומרוויחים יותר.

בספרו של דאגלס אדאמס מדריך הטרמפיסט לגלקסיה מוצג "דג בבל", שנעיצתו באוזן מאפשרת שמיעה חופשית של כל שפה. על שמו של יצור מופלא זה קרוי פרויקט Babel Fish של מנוע החיפוש Alta Vista, המספק תרגום סביר של טקסטים שאותרו באינטרנט.

בהרצאה שנשא יעקב שויקה, פרופסור במחלקה למתמטיקה ומדעי המחשב של אוניברסיטת בר אילן, לרגל פרישתו, הוא העריך כי תרגום מכונה מלא אינו אפשרי, וכי ייתכן שבעתיד אף יימצא חוק מדעי שמגדיר את רמת הדיוק שאפשר להגיע אליה בתרגום אוטומטי. שוויקה היה מעורב בכמה פרויקטים בתחום עיבוד שפה טבעית^[1].