admin
مدیر كل سایت


پست: 243 11 بار تشکر کرده 40 بار در 38 پست تشکر شده
|
تاریخ: یکشنبه 23 دی 1386 - 20:56 عنوان: گوگل چگونه زبان? |
|
|
گوگل چگونه زبانها را ترجمه ميکند؟
ف بطور کلي دو روش براي ترجمه زبانها وجود دارد: ترجمه گرامري و مشابهيابي
در اواخر قرن نوزدهم ميلادي L. L. Zamenhof زبان اسپرانتو را ابداع کرد با اين اميد که يکروزي تمامي انسانها به زباني مشترک صحبت کرده و رابطه برقرار کنند و نهايتا اينهمه سوتفاهم و درگيريهايي که بشر با آنها امروزه روبروست بتدريج برطرف شود. اما نهايتا اين زبان انگليسي بود که بويژه با ورود اينترنت به صحنه ارتباطات جهاني، زبان اول دنيا شده: امروزه انگليسي در بيش از 30 کشور دنيا زبان رسمي و اول است و در بسياري کشورهاي ديگر هم بعنوان زبان دوم در مدارس و جامعه تدريس و استفاده مي شود. تصور کنيد هرگاه که به وبلاگ/سايتهاي خارجي مثلا چيني ژاپني عربي اسپانيول و غيره وارد مي شويد همانجا متوقف مي شويد چرا که مطالب ارزنده شان با زبان شما يکي نيست.
کمپاني IBM سالها پيش ادعا کرده بود که بزودي در اختراع سيستم ترجمه کامپيوتري حرف اول را خواهد زد اما اين گوگل بود که IBM را پس زد و حتي در ترجمه مستقيم و درست زبانهاي عربي و چيني به انگليسي IBM را مغلوب کرد. بطور کلي دو روش براي ترجمه زبانها وجود دارد: ترجمه گرامري و ترجمه(يا مشابه يابي) آماري ( statistical match ).
البته هر دو سيستم نقاظ ضعف و قوت خود را دارند. مثلا روش گرامري ( سختگيرانه ) را بيشتر در نوشتن و ترجمه کتابهاي راهنماي فني ، مثلا کتاب راهنماي مکانيک و غيره استفاده مي کنند و روش آماري/آناليزي را بيشتر براي گفتگوهاي محاوره اي...مثلا ترجمه عبارت " چنين گفت زردشت " که در انگليسي "Thus Spoke Zarathustra" و به آلماني "Also sprach Zarathustra" است را با مساوي فرض کردن دو قسمت "thus spoke" و Also sprach و با استفاده ي ديتابيسي از هر دو کتاب ميتوان براحتي ترجمه کرد. گوگل بيش از 200 ميليارد کلمه را با استفاده از هزاران مدرک و متن موجود در سازمان ملل متحد وارد ديتابيسش کرده و با استفاده آماري-مقايسه اي ، نزديکترين و پر استفاده ترين اصطلاحات و جملات را بعنوان ترجمه به کاربران ميدهد. و اين در حاليست که لزومي ندارد که هيچيک از مهندسان و متخصصان قسمت ترجمه گوگل با اين زبانها آشنايي داشته باشند..تمام کارها را ماشين و کامپيوتر عظيم گوگل انجام مي دهد بي آنکه اين ماشين برايش مهم باشد که گرامر چه اهميتي دارد و يا مثلا رابطه راه رفتن و پا چيست.....
سايتهاي AOL, Alta Vista, Babblefish و حتي گوگل از تکنولوژي ترجمه اي شرکت Systran که در شهر سن ديه گو (امريکا) و پاريس دفتر دارد و سابقه 30 ساله دارد ، استفاده و روزانه تقريبا 25 ميليون صفحه وب ترجمه مي کنند.
اما سيستم ترجمه ماشيني گوگل ( MT system ) ، با مديريت دکتر Franz Josef Och فرانز جوزف اوچ ، فارغ التحصيل دانشگاه کاليفرنياي جنوبي(که تصويرش را اينجا مي بينيد) مدارک سازمان ملل را ، مثلا قوانين و سخنرانيها ، به اين دليل استفاده مي کند که در اين سازمان يک متن يا سخنراني بايد هميشه به دهها زبان مختلف به شکل دقيق و هم معنا و قابل فهم ترجمه شوند. بنابراي يکچنين مدل ترجمه اي ، براي کاربر، رايج تر و قابل فهم تر و امروزي تر است چرا که نمايندگان خودش (کاربر) در سازمان ملل هم همين نوع واژه ها و اصطلاحات را بکار مي برند و يا مثلا در کتابهاي شعر و ادبيات هم بيشتر همين کلمات/اصطلاحات استفاده شده و اينجا ديگر گرامر و دستور زبان ملاک و متراژ اصلي نيستند و ترجمه از آن حالت خشک و رسمي دستور زباني خارج ، و محاوره اي تر ميشود.
فرض کنيد که بخواهيم متني را از انگليسي به فارسي ترجمه کنيم: اين مدل گوگلي، زبان هدف (يعني target - زباني که کاربر ميخواهد به آن ترجمه شود ، يعني فارسي) را بعنوان يکنوع هدف و کد ناشناس فرض مي کند و درست مثل اينکه بخواهد آنرا دي کد deCode (رمز گشايي) کند عمل کرده و رايج ترين و پر استفاده شده ترين کلمات و اصطلاحات رايج در هزاران کتاب و متن هاي آن زبان مورد نظر کاربر را ( که در ديتابيس گوگل ذخيره شده) بارها با يکديگر مقايسه کرده و درين مقايسه ها به بهترين و پر استفاده ترين کلمات و اصطلاحات زبان دوم (هدف) امتياز بيشتري مي دهد ( اسکور score مي دهد و آپتيمايز optimize مي کند) و اينکار را آنقدر ادامه مي دهد تا اينکه به يک ترجمه برتر و نهايي برسد و تمام اين پروسه فقط چند ثانيه طول مي کشد..
اين مدل درست شبيه مدل مغز آدمهاست که دايما خودش را با جذب اطلاعات جديدتر (هرچند کوچک و جزيي) بهبود مي بخشد و هر چيز و پديده اي را بلافاصله مقايسه و تحليل آماري ( Statistical analysis ) مي کند و بهترينش را انتخاب مي کند : چرا که اگر بخواهيم خودمان را صرفا به يکسري قوانين و سنتهاي گرامري محدود کنيم کمتر نتيجه مي گيريم اما مقايسه و آناليز آماري و احتمالاتي و متريک و بالنده بيشترين نتيجه را ميدهد. البته اين محک و متراژ (براي مقايسه) هم بايد قبلا به درستي تعريف شده و مشخص باشد.
نکته جالب اينکه چرا گوگل زبانهاي عربي و چيني (ماندرين) را بعنوان نخستين پروژه ترجمه زبانهايش برگزيد ؟ دکتر مايلز آزبورن Miles Osborne استاد دانشگاه ادينبورگ که روي اين پروژه براي گوگل کار کرده مي گويد که ارتش و اداره امنيت امريکا بخاطر مسايل امنيتي و ضد تروريستي در اين دو منطقه از جهان، نياز فوري به ترجمه از اين دو زبان داشتند و کمک مالي هنگفتي به گوگل درين پروژه کردند تا سريعتر به نتيجه برسد. او مي گويد که دولت امريکا به ترجمه هايي که توسط آدمها و مترجمانش ميشد اطمينان نداشت ولي به ماشين ترجمه گوگل -بخاطر بي نظر بودنش- اعتماد دارد.
منبع ://weblog.mysite.ir _________________ فرشاد غضنفري |
|