زنده کردن زبانهای از دست رفته با استفاده از هوش مصنوعی و ترجمه ماشینی
یادگیری ماشینی، کلید باز کردن درهای زبانهای گمشده
در حوزه باستانشناسی، یادگیری ماشینی به ترجمه زبانهای باستانی کمک بسیار زیادی میکند. در یک زمانی که برخی از زبانها هرگز به رمزگشایی نرسیدهاند، هوش مصنوعی این امکان را به ما میدهد که به ترجمه و درک این زبانهای گمشده بپردازیم.
در سال ۱۸۸۶، آرتور ایوانز، باستانشناس معروف انگلیسی، با یک کتیبه سنگی با متون عجیب روبرو شد که به زبانی مجهول نوشته شده بود. این کتیبه در جزیره کرت یونان کشف شده بود. آرتور ایوانز سریعاً به این منطقه سفر کرد تا مدارک بیشتری را بررسی کند.
وی به سرعت بیشماری از سنگها و لوحها را با الگوهای مشابه کشف کرد که سنگنوشتههای آنها به سده ۱۴ قبل از میلاد باز میگشت. این کشفها یکی از باستانیترین اشکال نوشتاری شناختهشده تاکنون را به نمایش گذاشت.
بر اساس تحقیقات آرتور ایوانز، یک باستانشناس معروف، یک نوع نوشتار با شکل و خط خاص به نام «لینئار ب» در جزیره کرت کشف شد. این نوشتار به دوران ابتدایی هنر باستانی بازمیگردد و اهمیت آن را در زمینه زبانشناسی نشان میدهد. ایوانز و سایر زبانشناسان متوجه شدند که این نوشتار از دو خط مختلف تشکیل شده است.
خط اول به نام “A” وقتی جزیره کرت تحت سلطه تمدن عصر برنز بوده است (از ۱۸۰۰ تا ۱۴۰۰ پیش از میلاد) رایج بوده است. خط دیگر به نام “B” نسبت داده میشود و جدیدتر از خط “A” است (پس از ۱۴۰۰ پیش از میلاد)، زمانی که جزیره کرت تحت حاکمیت تمدن مینسیها از سرزمین اصلی یونان قرار گرفت.
تا سال ۱۹۵۳، تلاشها برای کشف متنهای باستانی به نتیجهای نرسیده بودند، اما آماتور زبانشناس به نام مایکل ونتریس، برای رمزگذاری خط “B” موفق شد.
مایکل ونتریس راهحلی برای رمزگشایی خط “B” ارائه داد. او ابتدا حدس زد که کلمات تکراری در این خط نام مکانهایی در جزیره کرت هستند، و این حدس صحیح ثابت شد. دومین موفقیت او مربوط به فرضیهای بود که نوشتهها ممکن است مربوط به زبان یونان باستان باشند، که نهایتاً توسط ونتریس تایید شد.
استفاده از رویکردهای مبتنی بر ماشین در زبانشناسی این امکان را فراهم میکند که زبانها به سرعت مورد بررسی قرار گیرند و با استفاده از ترجمه ماشینی به زبانهای دیگر ترجمه شوند. این پیشرفتها نشان میدهند که ماشینها میتوانند به تحلیل و درک زبانها کمک کنند و این یک تغییر مهم در حوزه زبانشناسی است.
ترجمه ماشینی از یک زبان به زبان دیگر به شکل عادی تبدیل شده است، حتی اگر کامل نباشد. محققان از MIT و گوگل یک سیستم یادگیری ماشین توسعه دادهاند که میتواند زبانهای از دست رفته را رمزگشایی کند. این سیستم برخی از خطوط یک زبان که به نام B شناخته میشود را با استفاده از یک رویکرد جدید ترجمه کرده است. این روش متفاوت از ترجمه ماشینی معمول است و بر اساس درک ارتباطات بین کلمات با یکدیگر است، بدون توجه به زبان خاص.
پروسهی شروع این روابط برای یک زبان خاص با تجزیه و تحلیل این روابط در متون بزرگ شروع میشود. در این مرحله، ماشین متن را بررسی میکند تا بفهمد چگونه کلمات با یکدیگر در جملات ظاهر میشوند. این الگوهای ظاهری، یک امضای خاص برای هر کلمه در یک فضای چندبعدی پارامتری ایجاد میکند.
در واقع، هر کلمه را میتوان به عنوان یک بردار در این فضا در نظر گرفت. این بردار به عنوان یک محدودیت قوی برای نحوه ظاهر شدن کلمه در هر ترجمه ماشینی عمل میکند. این بردارها از اصول ریاضی ساده پیروی میکنند.
برای مثال، “پادشاه + زن = ملکه” میتواند به عنوان مجموعهای از بردارها عمل کند که از یکدیگر بعد از بعد برای شکلدهی به نوع مسیر در این فضا پیگیری میکنند. اهمیت اصلی ترجمه ماشینی در این است که کلمات در زبانهای مختلف همان نقاط را در فضاهای پارامتری مشابه اشغال میکنند.
این امر این امکان را فراهم میکند که یک نقشه کامل از یک زبان با یک تناظر یک به یک ایجاد شود. به این ترتیب، فرآیند ترجمه جملات به یک فرآیند یافتن مسیرهای مشابه از طریق این فضاها تبدیل میشود. در این فرآیند، دستگاه نیاز به دانستن معنای جملات ندارد.
این فرآیند به مجموعه دادههای بزرگ وابسته است، اما چند سال پیش محققان آلمانی نشان دادند که یک رویکرد مشابه با استفاده از پایگاهدادههای بسیار کوچکتر هم میتواند به ترجمه زبانهای نادر بدون پایگاههای داده بزرگ کمک کند.
دانشمندان محقق گروه آلمانی، جیامینگ لو و رجینا بارزیلی به همراه یوآن سو از آزمایشگاه هوش مصنوعی گوگل، با استفاده از ترفندی نوین به ترجمه ماشینی زبانهای از دست رفته پرداختهاند. آنها توانستهاند این تکنیک را به یک سطح جدید برسانند که به پایگاهداده وابسته نباشد. لو و سو در پروژهای که از تحقیقات گروه آلمانی به سمت پیشرفت در زمینه زبانهای ازدسترفته میرود، از روشهای زبانی برای تکامل زبان در طول زمان بهرهمند شدهاند.
این ترفند به دنبال محدود کردن رویکرد ماشینی بوده که نیاز به پایگاهداده دارد. زبانها در طول زمان به روشهای خاص خود تغییر میکنند، مانند ترتیب حروف و نمادهای مشابه. با این قوانین محدودسازی، ترجمه ماشینی زبانهای از دست رفته را زنده کرده و اطلاعات جالبی از آنها استخراج کردهاند.
لو و همکارانشان با این تکنیک موفق به ترجمه دقیقی از خط B (نسخه اولیهی یونانی باستان) به زبان یونانی شدهاند. این ترجمه به دقت ۶۷ درصد را داشته و از روشهای اتوماتیک برای کشف خط B استفاده کردهاند. در این مطالعه هنوز اطلاعاتی درباره خط A ارائه نشده است و آنها در مورد ترجمه آن به دقت فکر میکنند. حتی با این عدم دانش درباره زبان مادری نمونه، این تکنیک میتواند با استفاده از ترجمه ماشینی بهسرعت هر زبانی را کشف و ترجمه کند.
استفاده از ماشینی برای ترجمه زبانهای نادر میتواند انقلابی در زمینه زبانشناسی به وجود آورد و محدودیتهای زبانی را به چالش بکشد.