این هوش مصنوعی زبان را از چشم یک نوزاد می‌آموزد!

اقتصاد ۱۰۰ - یک شبکه عصبی که تشخیص اشیاء را با استفاده از تجربیات فیلمبرداری شده از دید یک نوزاد آموخته است، می‌تواند درک جدیدی در مورد نحوه یادگیری انسان ارائه می‌دهد.

به گزارش گروه دانش و فناوری،یک مدل هوش مصنوعی(AI) با مطالعه تصاویر و فیلم‌های ضبط‌ شده از بخش کوچکی از زندگی یک نوزاد که توسط یک دوربین قرار گرفته روی سر نوزاد ثبت شده بود، یاد گرفته است کلماتی مانند «تخت» و «توپ» را تشخیص دهد.

به نقل از نیچر، وای‌ کین وونگ(Wai Keen Vong)، یکی از نویسندگان این مطالعه و محقق هوش مصنوعی در دانشگاه نیویورک می‌گوید: نتایج نشان می‌دهد که هوش مصنوعی می‌تواند به ما در درک نحوه یادگیری انسان‌ها کمک کند. وانگ می‌گوید که این موضوع پیش ‌از این نامشخص بود، زیرا سایر مدل‌های یادگیری زبان مانند چت جی‌پی‌تی(ChatGPT) روی میلیاردها نقطه داده آموزش می‌دیدند که با تجربیات دنیای واقعی یک نوزاد قابل مقایسه نیست. وقتی ما به دنیا می‌آییم به ما اینترنت نمی‌دهند.

نویسندگان امیدوارند که این تحقیق که در روز یکم فوریه در مجله «ساینس»(Science) گزارش شده است، به بحث‌های طولانی مدت در مورد چگونگی یادگیری زبان کودکان کمک کند. هوش مصنوعی تنها با ایجاد ارتباط بین تصاویر و کلماتی که با هم می‌دید زبان را آموخت. این هوش مصنوعی با هیچ دانش قبلی در مورد زبان برنامه ریزی نشده بود. وونگ می‌گوید که این برخی از نظریه‌های علوم شناختی را به چالش می‌کشد که برای پیوند دادن معنی به کلمات، نوزادان به دانش ذاتی در مورد نحوه عملکرد زبان نیاز دارند.

هدر بورتفلد(Heather Bortfeld)، دانشمند شناختی در دانشگاه کالیفرنیا، می‌گوید این مطالعه «رویکردی جذاب» برای درک یادگیری اولیه زبان در کودکان است.

نمای چشم نوزاد

وونگ و همکارانش از ۶۱ ساعت تصویر ضبط شده از دوربین قرار گرفته روی کلاه ایمنی یک نوزاد پسر به نام سم استفاده کردند تا تجربیاتی را از دیدگاه نوزاد جمع‌آوری کنند. سم که در نزدیکی آدلاید در استرالیا زندگی می‌کند، از سن شش ماهگی تا حدود دو سالگی، دو بار در هفته یعنی تقریبا یک درصد از ساعات بیداری خود به مدت حدود یک ساعت دوربین را می‌پوشید.

محققان شبکه عصبی خود را که یک هوش مصنوعی الهام گرفته از ساختار مغز است با استفاده از فریم‌های ویدیو و کلماتی که به سم گفته شده است، آموزش دادند. این مدل در معرض ۲۵۰ هزار کلمه و تصاویر مربوطه قرار گرفت که در حین فعالیت‌هایی مانند بازی، خواندن و غذا خوردن گرفته شده بود. این مدل از روشی به نام یادگیری متضاد استفاده کرد تا یاد بگیرد که کدام تصاویر و متن‌ها همخوانی دارند و کدام ندارند.

برای آزمایش این هوش مصنوعی، محققان از مدل خواستند تا یک کلمه را با یکی از چهار تصویر انتخاب شده مطابقت دهد. این آزمایش برای ارزیابی توانایی‌های زبانی کودکان نیز استفاده می‌شود. این هوش مصنوعی اشیاء را در ۶۲ درصد مواقع با موفقیت طبقه‌بندی کرد که عملکردی بسیار بهتر از ۲۵ درصدی است که انتظار می‌رفت به طور تصادفی رخ دهد و قابل مقایسه با یک مدل هوش مصنوعی مشابه است که بر روی ۴۰۰ میلیون تصویر و متن فرای این مجموعه داده آموزش داده شده بود.

در برخی از کلمات، مانند «سیب» و «سگ»، این مدل توانست نمونه‌هایی را که قبلا دیده نشده بودند به درستی شناسایی کند. این کار معمولا برای انسان‌ها نسبتا آسان است.

هوش مصنوعی به طور متوسط در ۳۵ درصد مواقع این کار را با موفقیت انجام داد. وونگ می‌گوید که این مدل زبانی همچنین در شناسایی اشیایی که از نظر ظاهری تفاوت چندانی ندارند، عملکرد بسیار خوبی داشت. یادگیری کلماتی که می‌توانند به موارد مختلفی اشاره کنند مانند «اسباب بازی» برای آن سخت‌تر بود.

درس‌هایی در مورد یادگیری

بورتفلد می‌گوید اتکای این مطالعه به داده‌های یک کودک واحد ممکن است سوالاتی را در مورد تعمیم یافته‌ها به موارد دیگر ایجاد کند، زیرا تجربیات و محیط‌های کودکان بسیار متفاوت است.

او می‌افزاید، اما این تمرین نشان داد که می‌توان موارد زیادی را در روزهای اولیه زندگی نوزاد از طریق ایجاد ارتباط بین منابع حسی مختلف آموخت.

یادگیری زبان در دنیای واقعی بسیار غنی‌تر و متنوع‌تر از هوش مصنوعی است. محققان می‌گویند که از آنجایی که هوش مصنوعی محدود به آموزش با تصاویر ثابت و متن نوشته شده است، نمی‌تواند تعاملات ذاتی زندگی یک نوزاد واقعی را تجربه کند. به گفته وونگ، هوش مصنوعی برای مثال برای یادگیری کلمه «دست» که معمولا در اوایل زندگی نوزاد آموخته می‌شود، تقلا کرد. بچه‌ها دست خود را دارند، آنها تجربه زیادی با آنها دارند. این قطعا جزء گمشده مدل ما است.

انتهای پیام

منبع ايسنا