پرش به مطلب اصلی

لحظه اسپوتنیک

· خواندن 7 دقیقه

لحظه اسپوتنیک

دارون عجم‌اوغلو* در حالی که صنعت هوش مصنوعی آمریکا به تکانی اساسی نیاز داشت، انتشار مدل DeepSeek-R۱ در ۲۰ژانویه باعث سقوط شدید قیمت سهام شرکت تراشه‌‌‌سازِ انویدیا و کاهش ارزش بازار چند شرکت فناوری دیگر شد. برخی این رویداد را «لحظه اسپوتنیک» در رقابت چین و آمریکا برای سلطه بر هوش مصنوعی نامیدند.

لحظه اسپوتنیک

سرمایه‌گذاری‌‌‌های صنعت فناوری آمریکا در هوش مصنوعی بسیار عظیم بوده است. گلدمن‌ساکس تخمین می‌‌‌زند که «شرکت‌های فناوری بزرگ، شرکت‌ها و بخش‌‌‌های خدماتی در سال‌های آینده حدود یک‌تریلیون دلار در سرمایه‌گذاری‌‌‌های مرتبط با هوش مصنوعی هزینه خواهند کرد.» با این حال، مدت‌‌‌هاست که بسیاری از ناظران، از جمله خود من، جهت‌‌‌گیری سرمایه‌گذاری و توسعه هوش مصنوعی در ایالات‌متحده را زیر سوال برده‌‌‌اند.

در حالی که همه شرکت‌های پیشرو در این صنعت از الگویی مشابه استفاه می‌کنند (هرچند مدل تقریبا متن‌‌‌باز متا کمی متفاوت است)، به نظر می‌آید که صنعت هوش مصنوعی همه‌‌‌‌‌ تخم‌‌‌مرغ‌‌‌های خود را در یک سبد گذاشته است. شرکت‌های فناوری آمریکایی بدون استثنا شیفته مقیاس‌‌‌پذیری هستند. آنها با استناد به قوانین هنوز اثبات‌نشده «مقیاس‌‌‌گذاری»، فرض می‌کنند که تغذیه مدل‌‌‌هایشان با داده‌‌‌های بیشتر و توان محاسباتی قوی‌‌‌تر، کلید دستیابی به قابلیت‌‌‌های بیشتر است. برخی حتی ادعا می‌کنند که «افزایش مقیاس، تنها چیزی است که نیاز داریم.» پیش از ۲۰ژانویه، شرکت‌های آمریکایی حاضر نبودند برای مدل‌‌‌های پایه‌‌‌ای که براساس مجموعه داده‌‌‌های عظیم از پیش آموزش دیده‌‌‌اند و هدفشان پیش‌بینی کلمه بعدی در یک دنباله است، جایگزینی در نظر بگیرند. 

می‌توان گفت آنها به‌‌‌طور انحصاری بر مدل‌‌‌های انتشاری۱ و چت‌‌‌بات‌‌‌هایی متمرکز بودند که برای انجام وظایف انسانی (یا شبیه به انسان) طراحی شده‌‌‌اند. با این حال، در حالی که دیپ‌‌‌سیک رویکردی عمدتا مشابه دارد، به نظر می‌رسد بیش از حد معمول بر یادگیری تقویتی ۲، روش ترکیب متخصصان ۳ (استفاده از چند مدل کوچک‌تر و کارآمدتر)، تقطیر۴ و بهبود استدلال زنجیره‌‌‌ای۵ افکار تمرکز کرده است. گفته می‌شود که این استراتژی به دیپ‌‌‌سیک اجازه داده است تا مدلی رقابتی را با کسری از هزینه تولید کند.

اگرچه هنوز اختلاف‌‌‌نظرهایی درباره صحت ادعاهای دیپ‌‌‌سیک وجود دارد، این اتفاق باعث آشکار شدن «گروه اندیشی۶» در صنعت هوش مصنوعی آمریکا شده است. نابینایی این صنعت نسبت به روش‌های جایگزین، ارزان‌‌‌تر و نویدبخش‌‌‌تر، دقیقا همان چیزی را نشان داده که من و سایمون جانسون در کتاب «قدرت و پیشرفت» که درست پیش از آغاز عصر هوش مصنوعی نوشته شده بود پیش‌بینی کرده بودیم. اکنون پرسش این است که آیا صنعت هوش مصنوعی آمریکا نقاط کور خطرناک‌‌‌تری هم دارد؟ برای مثال، آیا شرکت‌های پیشروی آمریکایی فرصت هدایت مدل‌‌‌هایشان به مسیری «بیشتر انسانی» را از دست داده‌‌‌اند؟ حدس من این است که پاسخ مثبت است، اما گذر زمان این را مشخص خواهد کرد.

سوال دیگر این است که آیا چین در حال پیشی‌گرفتن از آمریکاست؟ و اگر چنین باشد، آیا به این معناست که ساختارهای اقتدارگرایانه و از بالا به پایین (آنچه جیمز رابینسون و من آن را «نهادهای استثماری» می‌‌‌نامیم) می‌‌‌توانند در نوآوری به همان اندازه یا حتی بیشتر از ساختارهای پایین به بالا، کارآمد باشند؟

تمایل من این است که باور کنم کنترل از بالا مانع نوآوری می‌شود؛ همان‌طور که در کتاب «چرا ملت‌‌‌ها شکست می‌‌‌خورند» من و رابینسون استدلال کردیم. در حالی که موفقیت دیپ‌‌‌سیک به نظر می‌رسد این ادعا را به چالش می‌‌‌کشد، هنوز مدرکی قطعی حاکی از آن که نوآوری تحت نهادهای استثماری می‌‌‌تواند به همان اندازه نوآوری در سایه نهادهای فراگیر، قدرتمند یا پایدار باشد، وجود ندارد. در نهایت، دیپ‌‌‌سیک بر پایه سال‌ها پیشرفت‌‌‌های علمی در آمریکا (و بعضا در اروپا) ساخته شده است. تمام روش‌های پایه‌‌‌ای آن در ایالات‌متحده ابداع شده‌‌‌اند.

 مدل‌‌‌های ترکیب متخصصان و یادگیری تقویتی، دهه‌‌‌ها پیش در موسسات تحقیقاتی آکادمیک توسعه یافتند و این شرکت‌های بزرگ فناوری آمریکایی بودند که مدل‌‌‌های انتقالی، استدلال زنجیره‌‌‌ای و تقطیر را معرفی کردند. کاری که دیپ‌‌‌سیک انجام داده، موفقیت در مهندسی است: ترکیب همان روش‌ها به شکلی موثرتر از آنچه شرکت‌های آمریکایی انجام داده‌‌‌اند. باید دید آیا شرکت‌ها و موسسات تحقیقاتی چینی قادر خواهند بود گام بعدی را بردارند و روش‌ها، محصولات و رویکردهای تحول‌‌‌آفرین خودشان را ارائه دهند یا خیر. علاوه بر این، به نظر می‌رسد دیپ‌‌‌سیک با بیشتر شرکت‌های هوش مصنوعی چینی که معمولا فناوری‌‌‌هایی برای دولت تولید یا از بودجه دولتی استفاده می‌کنند، تفاوت دارد. اگر این شرکت (که از یک صندوق پوشش ریسک منشأ گرفته است) تا پیش از این خارج از دید عموم فعالیت می‌‌‌کرد، آیا اکنون که در کانون توجه قرار گرفته، خلاقیت و پویایی‌اش ادامه خواهد یافت؟ در هر صورت، موفقیت یک شرکت به‌‌‌تنهایی نمی‌‌‌تواند به‌عنوان مدرکی قطعی برای این گزاره که چین قادر است در نوآوری از جوامع بازتر پیشی بگیرد تلقی شود.

سوال دیگر درباره ژئوپلیتیک است. آیا این ماجرا به این معناست که کنترل صادرات ایالات‌متحده و سایر اقداماتی که برای مهار تحقیقات هوش مصنوعی چین انجام شده، شکست خورده‌‌‌اند؟ پاسخ این پرسش نیز هنوز مشخص نیست. دیپ‌‌‌سیک مدل‌‌‌های اخیر خود (V۳ وR۱ ) را روی تراشه‌‌‌های قدیمی‌‌‌تر و کم‌‌‌قدرت‌‌‌تر آموزش داده است، اما برای پیشرفت‌‌‌های بیشتر و گسترش مقیاس خود ممکن است همچنان به قدرتمندترین تراشه‌‌‌ها نیاز داشته باشد. با این حال، مشخص است که رویکرد بازی جمع‌صفر آمریکا غیرقابل اجرا و اشتباه بوده است. 

چنین استراتژی‌‌‌ای تنها در صورتی منطقی است که باور داشته باشید ما به سمت هوش جامع مصنوعی (مدل‌‌‌هایی که می‌‌‌توانند در هر دستور شناختی توانایی‌ای معادل انسان داشته باشند) حرکت می‌‌‌کنیم و اینکه هر کس زودتر به هوش جامع مصنوعی برسد، یک مزیت ژئوپلیتیک عظیم خواهد داشت. با چسبیدن به این فرضیات -که هیچ‌‌‌یک لزوما موجه نیستند- ما از همکاری سازنده با چین، در بسیاری از حوزه‌‌‌ها جلوگیری کرده‌‌‌ایم. برای مثال، اگر یک کشور مدل‌‌‌هایی تولید کند که بهره‌‌‌وری انسانی را افزایش دهد یا به تنظیم بهتر مصرف انرژی کمک کند، چنین نوآوری‌‌‌ای برای هر دو کشور سودمند خواهد بود؛ به‌‌‌ویژه اگر به‌‌‌طور گسترده مورد استفاده قرار گیرد. 

دیپ‌‌‌سیک نیز مانند شرکت‌های آمریکایی، جاه‌‌‌طلبی توسعه هوش جامع مصنوعی را دارد. ایجاد مدلی که با هزینه‌‌‌ای به‌‌‌مراتب کمتر آموزش داده شود، می‌‌‌تواند تغییر بزرگی ایجاد کند. اما کاهش هزینه‌‌‌های توسعه با استفاده از روش‌های شناخته‌‌‌شده فعلی، نمی‌‌‌تواند باعث شود که در چند سال آینده به طور معجزه‌‌‌آسایی به هوش جامع مصنوعی برسیم. اینکه آیا هوش جامع در کوتاه‌‌‌مدت قابل دستیابی است، همچنان یک پرسش باقی می‌‌‌ماند (و اینکه آیا مطلوب است یا نه، حتی بحث‌‌‌برانگیزتر است). حتی اگر هنوز جزئیات کاملی درباره نحوه توسعه مدل‌‌‌های دیپ‌‌‌سیک یا پیامدهای این موفقیت برای آینده صنعت هوش مصنوعی نداشته باشیم، یک نکته روشن است: یک استارت‌آپ چینی موفق شده است وسواس صنعت فناوری نسبت به مقیاس را متزلزل کند و شاید حتی آنها را کمی بترساند.

۱  . Diffusion Models

یک نوع از مدل‌های مولد است. مدل انتشاری یک روش یادگیری مبتنی بر احتمال است که برای مدل‌‌سازی و تولید داده‌های با ساختار پیچیده استفاده می‌شود.

۲ . در الگوریتم های یادگیری ماشین تقویتی، عامل با محیطی تعامل می‌کند و می‌آموزد که چگونه تصمیمات بهینه‌ای بگیرد تا پاداشش را حداکثر و جریمه‌اش را حداقل کند.

۳ . یک تکنیک یادگیری ماشین

۴ . به فرآیند انتقال دانش از یک مدل نسبتا بزرگ به یک‌مدل کوچک تقطیر دانش گفته می‌شود.

۵ . تحریک زنجیره‌ای از فکر، تکنیکی است که هدف آن بهبود عملکرد مدل‌های زبان بزرگ در کارهای استدلالی پیچیده با تشویق مدل به تولید مراحل استدلال میانی است. برخلاف روش‌های پیشنهادی سنتی که معمولا یک درخواست واحد ارائه می‌دهند و انتظار پاسخ مستقیم دارند، درخواست CoT فرآیند استدلال را به یک‌سری مراحل کوچک‌تر و به هم مرتبط تقسیم می‌کند.

۶. پدیده‌ای روان‌شناسانه است که در بین گروهی از مردم رخ می‌دهد، بدین شکل که میل به هارمونی و همگرایی در گروه، به تصمیم‌گیری غیرعقلانی یا ناکارآمد منجر می‌شود.

* استاد اقتصاد دانشگاه MIT

منبع: donya-e-eqtesad.com