برگردان از ترجمان: سال ۲۰۲۳، سال هوش مصنوعی بود. سالی که هر بار شبکههای اجتماعی را باز میکردی، با تصاویر عجیب و غریب، توهمی یا آخرالزمانیای مواجه میشدی که هوش مصنوعی ساخته بود. یا داستانهای پر شور و شوقی میشنیدی که چهکارهایی از چت جیپیتی برمیآید. اما کسانی که تحولات هوش مصنوعی را جدیتر دنبال میکردند، انگار به این خلاقیتها چندان خوشبین نبودند. جیمز برایدل، در این مقالۀ مفصل توضیح میدهد که چرا برخی از رایجترین تصورات دربارۀ هوش مصنوعی، در واقع، سراپا غلطاند.
آزمایشگاه تحقیقات هوش مصنوعی اُپن اِیآی، در ژانویۀ ۲۰۲۱، نسخۀ محدودی از نرمافزاری به نام دال-ای را منتشر کرد. کاربر توضیح سادهای از تصویری که در ذهن داشت را برای نرمافزار مینوشت و، بعد از مکثی کوتاه، نرمافزار بهطرزی عجیب تفسیر خوبی از ایدۀ کاربر ترسیم میکرد که درحد کار تصویرگری حرفهای یا یک طراح ماهر ادوبی بود، اما بسیار سریعتر و البته رایگان. مثلاً مینوشتید «خوک بالداری که بر فراز ماه پرواز میکند، ترسیمشده توسط آنتوان دو سنت اگزوپری» و خروجی برنامه، بعد از یکی دو دقیقه پردازش، میشد تصویری هرچند سرهمبندیشده اما شبیه به آثار آبرنگ خالق شازده کوچولو.
یک سال و اندی بعد نسخۀ گستردهتری از این نرم افزار منتشر شد و اینترنت را منفجر کرد. رسانههای اجتماعی پر شد از انواع و اقسام مخلوقات عجیبوغریب و حیرتانگیز و ملغمۀ درهموبرهمی از فانتزیها و سبکهای هنری مختلف شکل گرفت. چند ماه نگذشته بود که با ارائۀ محصول دیگری از اُپن اِیآی به نام چتجیپیتی موج مشابهی، اینبار مبتنی بر زبان، به راه افتاد. کافی است از چتجیپیتی بخواهید خلاصهای از کتاب سفر ایوب را برایتان به سبک آلن گینزبرگِ شاعر تولید کند تا، طی چند ثانیه، نتیجۀ قابلقبولی تقدیمتان کند. بعد، از او بخواهید که شعر زوزۀ آلن گینزبرگ را درقالب اسلایدهای ارائۀ مشاورۀ مدیریت درآورد و این کار را هم برایتان انجام خواهد داد. توانایی این برنامهها برای ساختن دنیاهای عجیبوغریب جدید، در قالب کلمات و تصاویر، مردم را از خود بیخود کرد و تمایل به امتحانکردن این برنامهها باعث ایجاد محتواهای روزافزونی دربارۀ نکات و ریزهکاریهای استفاده از این ابزارها، و بهویژه نحوۀ ساختاربندی ورودیها برای رسیدن به جالبترین خروجیها، شد.
این مهارت آخر معروف شد به «مهندسی درخواست» 1: فن چهارچوببندی دستورها به شکلی که بهراحتی برای سیستم قابلفهم باشد و درنتیجه منجر به دریافت نزدیکترین نتایج به انتظارات کاربر، یا حتی فراتر از آن، شود. مفسران حوزۀ فناوری خیلی زود پیشبینی کردند که مهندسی درخواست در آیندۀ «بدون کدنویسی» به شغلی پرمتقاضی و پُردرآمد تبدیل خواهد شد، آیندهای که در آن قدرتمندترین راه برای بدهبستان با سیستمهای هوش مصنوعی از طریق زبان انسانی خواهد بود. در آینده دیگر نیازی به بلدبودن نقاشی یا برنامهنویسی کامپیوتر نخواهد بود؛ کافی است خواستهمان را درِ گوش ماشین زمزمه کنیم و بقیۀ کارها را بسپاریم به او. بنابراین سقف تولیدات هوش مصنوعی بهاندازۀ سقف تخیلات خود ما خواهد بود.
دال-ای در ادامه بهسرعت پیشرفت کرد و نمونههای مشابه آن نیز از راه رسیدند. دال-ای مینی (که بعدها نامش به کرایون تغییر یافت) برای آنهایی که به خدمات خصوصی اُپن اِیآی دعوت نشده بودند این فرصت را فراهم کرد که با ابزاری مشابه، که قدرت کمتری داشت اما همچنان بسیار جذاب بود، وربروند. در همین اثنا تلاش تجاری مستقلی به نام میدجرنی و مدل متنباز استیبل دیفیوژن رویکرد متفاوتی را برای طبقهبندی و تولید تصاویر به کار گرفتند، اما اهدافشان تا حد زیادی همان بود. طی چند ماه این حوزه گسترش پیدا کرد و تولید ویدئوهای کوتاه و مدلهای سهبعدی را هم شامل شد و هر روز سروکلۀ ابزارهای جدیدی از سوی دپارتمانهای دانشگاهها و برنامهنویسانِ تفننی پیدا میشد. علاوهبرآن غولهای فعلیِ حوزۀ رسانههای اجتماعی مثل فیسبوک (معروف به متا)، گوگل، مایکروسافت و امثالهم بهعنوان غولهای هوش مصنوعی وارد میدان شدند. حالا دیگر عرصۀ جدیدی از پژوهش، نرمافزار و رقابت شکل گرفته بود.
نام دال-ای ترکیبی است از نام ربات قهرمان دیزنی، وال-ای، و هنرمند سوررئالیست اسپانیایی، سالوادور دالی. از یک سو با ماشین کوچکِ بیباک، دوستداشتنی و خودمختاری طرفیم که پسماندههای تمدن انسانیِ فروپاشیده را جارو میکند و از سوی دیگر با مردی که معروفترین سخنانش عبارتاند از «کسی که نخواهد از چیزی تقلید کند چیزی خلق نخواهد کرد» و «آنچه مهم است گسترش سردرگمی است، نه حذف آن». هر دو نامهای تحسینبرانگیزی برای طیف وسیعی از ابزارهایی هستند که آنها را بهعنوان خلقکنندگان تصاویر هوش مصنوعی میشناسیم.
در سالی که گذشت موج جدید ابزارهای هوش مصنوعی، که برای مصرفکنندگان نهایی ارائه شده بودند، تخیل مردم را درگیر خود کرد. این موج همچنین باعث شد اقبال به شرکتهای بزرگ حوزۀ فناوری رو کند، شرکتهایی که علیرغم تلاش بسیار نتوانسته بودند اکثر ما را متقاعد کنند که چیزهایی مثل بلاکچین یا واقعیت مجازی (یا همان «متاورس») آیندۀ مطلوب تکتک ما مردم است. هوش مصنوعی اما لااقل برای پنج دقیقه هم که شده سرگرممان میکند. گذشته از آن «هوش مصنوعی» هنوز کیفیت درخشان و علمیتخیلی خودش را دارد که ما را یاد رباتهای غولپیکر و مغزهای اَبَرانسانها، که کمترین ارتباط را با داستانهای واقعی دارند، میاندازد. البته آنچه در پسِ ماجرا می گذرد خیلی هم جدید نیست.
مفاهیم بنیادین دانشگاهیِ مربوط به هوش مصنوعی در چند دهۀ اخیر تغییری نکردهاند. نظریهپردازی و حتی استفاده از فناوری زیربنایی شبکههای عصبی -روشی برای یادگیری ماشینی مبتنی بر کارکرد مغز واقعی- به دهۀ ۱۹۹۰ بر میگردد. در همان زمان هم میشد از شبکههای عصبی مصنوعی برای تولید تصاویر استفاده کرد، اما تصاویر ساختهشده اکثراً تصاویری انتزاعی و بیساختار و لکههای رنگی با حداقل خمیرمایۀ هیجانی و زیباییشناختی بودند. تولید اولین رباتهای مکالمه با کیفیت قابلقبول حتی به پیش از این تاریخ بر میگردد. در سال ۱۹۶۴ جوزف ویزنبام، دانشمند علوم کامپیوتر در انستیتو فناوری ماساچوست، نرمافزار ربات مکالمهای ساخت به نام اِلیزا. این نرمافزار از روش رواندرمانگران «شخصمحور» الگوبرداری کرده بود، یعنی هر چه میگفتی را به خودت انعکاس میداد؛ اگر میگفتی «غمگینم» الیزا در جواب میگفت «چرا غمگینی؟» و مواردی شبیه این (البته ویزنبام میخواست با این پروژه سطحیبودن ارتباطات انسانی را نشان دهد نه اینکه نقشۀ راهی برای محصولات آینده ترسیم کند).
نمونههای اولیۀ هوش مصنوعی چیز زیادی از دنیا نمیدانستند و گروههای دانشگاهی توان پردازشی کافی برای بهرهبردای از این سیستمها در مقیاس وسیع را نداشتند. آنچه امروزه فرق کرده هوشمندی نیست بلکه تفاوت در دادهها و توان پردازش است. شرکتهای بزرگ حوزۀ فناوری ۲۰ سال وقت صرف گردآوری حجم عظیمی داده از فرهنگ و زندگی روزمرۀ مردم کردهاند و مراکز دادۀ عظیم و انرژیخواری ساختهاند و آن را با قویترین کامپیوترها پر کردهاند تا بتوانند آن حجم عظیم داده را زیرورو کنند. بهاینترتیب شبکههای عصبی مصنوعی که روزگاری کهنه و فرتوت انگاشته میشدند حالا توان فوقالعادهای یافتهاند و نتیجهاش شده فورانی از همین هوشهای مصنوعی که امروز شاهدش هستیم.
مبنای تولید تصاویر بهوسیلۀ هوش مصنوعی سرهمکردن و تحلیل میلیونها میلیون تصویر برچسبگذاریشده است، یعنی تصاویری که توضیحی دربارۀ محتوایش به آن پیوست شده است. سپس این تصاویر و توضیحاتشان را شبکههای عصبی مصنوعیای پردازش میکنند که یاد میگیرند ویژگیهای خاص و بسیار ظریفِ تصاویر مثل اَشکال، رنگها و ترکیببندیها را به کلمات و عبارات مشخصی مرتبط کنند. سپس این ویژگیها بهصورت لایهلایه روی هم قرار میگیرد تا ترتیب تازهای از شکل، رنگ و ترکیببندی را تولید کند و این کار بر اساس میلیاردها ارتباط اولویتبندیشدهای انجام میشود که از روی یک درخواست سادۀ کاربر ساخته شده است. اما آنهمه تصاویر اولیه از کجا میآیند؟
مجموعهدادههای منتشرشده توسط یک گروه غیرانتفاعی آلمانی به نام لایِن مثال خوبی از این نوع مجموعههای متنتصویر است که از آن برای آموزشدادن مدلهای بزرگ هوش مصنوعی استفاده میشود (استیبل دیفیوژن، گوگلز ایمیجن و چند مدل هوش مصنوعی دیگر بر مبنای همین پایگاه دادههای لاین کار میکنند). سازمان اینترنتی غیرانتفاعی دیگری به نام کامن کراول بیش از یک دهه است که تا جایی که دسترسی دارد بخشهای عمومی شبکۀ وب را اندیسگذاری و ذخیره میکند. این مجموعه هر ماه ۳ میلیارد صفحۀ وب را در قالب فایل ذخیره میکند. پژوهشگران لاین نگاهی به بخشی از دادههای کامن کراول انداختند و تمام تصاویر آن را با برچسب «جایگزین» علامتگذاری و استخراج کردند و برای هر تصویر یک خط یا بخشی از متن آن صفحه که در توصیف آن تصویر آمده بود را هم جدا کردند. پس از کمی اصلاحات، پیوندهایی به تصاویر اصلی و متنهای توصیفکنندۀ آنها را در قالب مجموعههای عظیمی منتشر کردند. بهاینترتیب لاین-۵بی، شامل بیش از ۵ میلیارد دوتاییِ متنتصویر، در مارس ۲۰۲۲ منتشر شد. آنها هر تصویری را که میشد با هر تعریفی آن را «عمومی» قلمداد کرد گردآوری کردند، یعنی هر تصویری که تابهحال به هر نحوی در اینترنت منتشر شده ممکن است در برنامۀ آنها ذخیره شده باشد و آنها این کار را فارغ از هر پیامد عجیبی که ممکن است برای آن متصور شوید انجام دادهاند.
در سپتامبر ۲۰۲۲، یک هنرمند سبک دیجیتالی از سانفرانسیسکو به نام لاپین سراغ استفاده از ابزاری رفت به نام «آیا از من در آموزش استفاده شده است؟» که این امکان را برای هنرمندان فراهم میکند که ببینند آیا از اثر هنری آنها برای آموزش مدلهای هوش مصنوعیِ تولید تصاویر استفاده شده است یا نه. وبسایت «آیا از من در آموزش استفاده شده است» را هنرمندانی به نامهای مت درایهورست و هالی هرندن ایجاد کردهاند. فعالیت هنری این دو نفر آنها را به این فکر انداخت که مسیرهایی را بررسی کنند که هوش مصنوعی از طریق آن حاصل زحمات هنرمندان را استفاده میکند. وقتی لاپین داشت از این ابزار برای بررسی پایگاهدادههای لاین استفاده میکرد تصویری از چهرۀ خودش را در آن پیدا کرد. او رد تصویر را گرفت و رسید به عکسهایی که پزشکش، زمانی که برای درمان یک بیماری نادر ژنتیکی مراجعه کرده بود، از او گرفته بود. این عکسها بهعنوان بخشی از پروندۀ پزشکی او گرفته شده بود و او اسنادی را امضا کرده بود که استفاده از این تصاویر را به پروندۀ پزشکی او محدود میکرد. پزشک موردنظر در سال ۲۰۱۸ فوت کرده بود و این تصاویر پزشکی خصوصی به نحوی سر از اینترنت درآورده بود و سپس وارد بایگانی کامن کراول و مجموعهدادههای لاین شده بود و سرانجام از آنجا وارد دلورودۀ شبکههای عصبی مصنوعیای شده بود که داشتند دربارۀ معنای تصاویر و نحوۀ تولید تصاویر جدید از روی آنها آموزش میدیدند. کسی چه میداند؟ شاید هوش مصنوعیْ آن بافت محو صورتی، در نقاشی خوک بهسبک آنتوان دو سنت اگزوپری، را به شکلی ماهرانه از تصویر نمونۀ گوشت یک بیمار مبتلا به سرطان برداشت کرده باشد.
لاپین در مصاحبه با وبسایت ارز تکنیکا گفت «این کار چیزی شبیه مالخریِ دیجیتال است. یک نفر تصویری را از داخل پروندههای پزشک مرحوم من میدزدد و این تصویر سر از اینترنت درمیآورد و سپس این پایگاههای دادۀ هوش مصنوعی آن را از اینترنت دریافت میکنند. اینکه عکس خصوصی شما به اینترنت درز کند بهخودیخود اتفاق ناگواری است، چه برسد به اینکه بهعنوان جزئی از یک محصول استفاده شود. این موضوع دربارۀ عکس هر کسی صادق است و محدود به مدارک پزشکی نیست. و احتمال سوءاستفاده از این عکسها در آینده خیلی زیاد است» (البته طبق حساب کاربری لاپین در توییتر، او همچنان از ابزارهایی مثل دال-ای برای تولید آثار هنریاش استفاده میکند).
بهطور کلی این نوع نرمافزارهای هوش مصنوعی که در دسترس عموم قرار دارند، خواه با تصاویر سروکار داشته باشند خواه با کلمات، و نیز بسیاری از نرمافزارهای دادهمحورِ اینچنینی، همانند مثالی که آوردیم، بر مبنای تصرف گستردۀ دادههای فرهنگیِ موجود عمل میکنند و دامنۀ عملشان برای ما به این راحتیها قابل درک نیست. اکثر متنها و تصاویری که این سیستمها، چه بهصورت عمومی چه خصوصی، چه قانونی و چه غیرقانونی، از اینترنت جمعآوری میکنند ذیل مفهوم گنگی به نام «استفادۀ منصفانه» قرار میگیرد (موضوعی که در ایالاتمتحده مجاز است اما در اتحادیۀ اروپا اگر کاملاً غیرقانونی هم نباشد لااقل محل تردید است). گذشته از موارد نادری مثل ماجرای لاپین، بخش زیادی از آنچه در درون شبکههای عصبیِ پیشرفته میگذرد ناشناخته است و به تبع آن درک نحوۀ کار این شبکهها از بیرون واقعاً غیرممکن است. اما از یک چیز میتوان مطمئن بود و آن این است که خروجیهای این نرمافزارهای هوش مصنوعی اصلاً و ابداً خلاقیتهایی جادویی و بدیعِ ماشینهایی خارقالعاده نیستند، بلکه این خروجیها تماماً وابسته به زحمات قدرنادیده و بیدستمزد نسلهای مختلفی از هنرمندان انسانی هستند.
روش تولید تصویر و متن بهوسیلۀ هوش مصنوعی کاملاً منطبق بر مفهوم انباشت اولیۀ سرمایه است، یعنی تصاحب دسترنج عدۀ زیادی از افراد به نفع ثروتاندوزی و پیشرفت شرکتهای فناوری سیلیکونولی و مالکان میلیاردر آنها. این شرکتها با سرککشیدن در جنبههای مختلف زندگی روزمرۀ ما پول درمیآورند، ازجمله در شخصیترین و خلاقانهترین حوزههای زندگی ما مثل علایق محرمانهمان، مکالمات خصوصیمان، مشابهتها و رؤیاهایمان. آنها تخیلات ما را همانطوری تصاحب میکنند که در گذشته زمینداران و اشرافزادگانِ دزد زمینهای سابقاً همگانی را تصاحب میکردند. آنها نوید این را به ما میدهند که با این کارشان قرار است قلمروهای جدیدی از تجربیات انسانی را پیش روی ما بگشایند، دسترسی به تمام دانش بشری را برایمان فراهم کنند و انواع جدیدی از ارتباطات انسانی را برایمان خلق نمایند. اما درعوض رؤیاهای خودمان را، پس از بستهبندی مجدد بهعنوان محصولات ماشینهای هوشمند، دوباره به خودمان میفروشند. با این تفاوت که درآمد دیگری هم از محل تبلیغات مربوط به این دادوستد نصیبشان خواهد شد.
عجیببودن تولید تصاویر بهوسیلۀ هوش مصنوعی هم در خروجی آن است و هم در ورودی آن. یک بار کاربری شروع میکند به واردکردن یکسری عبارت مُهمل بهعنوان ورودی در نرمافزار، و بعد گیج میشود و حتی کمی حالش خراب میشود از اینکه میبیند نرمافزار دال-ای مینی انگار خیلی خوب میداند که مثلاً منظور او از عبارت بیمعنای «کرانگِس» چه بوده است، عبارتی مهمل و ساختگی که در دنیای خارج هیچ معنایی نداشت اما در این نرمافزار منجر به خلق چهرهای بههمریخته، عریان و هیولاگونه شده بود. و این کرانگِس از این به بعد در تصورات نرمافزار هوش مصنوعی چنان واضح بود که بهراحتی میتوانست آن را دستکاری کند. بهاینترتیب خروجیهای دیگری بر اساس کرانگِس برای سایر کاربران آماده کرد. تافتههای سنتی کرانگس، موزائیکهای کرانگس بهسبک روم باستان، نقاشیهای رنگ روغن از کرانگس، تصاویری از کرانگس که افراد مشهور را بغل کرده و -اینترنت است دیگر- کرانگس با «جذابیت جنسی».
اما کرانگس بهراستی کیست یا چیست؟ کاربران توییتر خیلی زود این مخلوق را «نخستین نهانجاندار2 هوش مصنوعی» نامیدند، موجودی مثل پاگُنده که این بار در سرزمینهای ناشناختۀ تخیلات هوش مصنوعی زندگی میکند. و بهخاطر درک محدودی که از نحوۀ کار سیستم داریم، این احتمالاً واضحترین جوابی است که در این زمان میتوانیم بدهیم. ما قادر نیستیم فرایندهای تصمیمگیری این سیستمها را بهدقت بررسی کنیم چراکه نحوۀ «فکرکردن» این شبکههای عصبی مصنوعی ذاتاً با انسان متفاوت است. این نوع تفکر محصول نوعی نظمدهیِ بسیار پیچیده و ریاضیاتی به جهان است و در تضاد با روش تاریخی و هیجانیای است که ما انسانها از آن برای نظمدادن به افکارمان استفاده میکنیم. کرانگس رؤیایی است که از دل مدلسازی هوش مصنوعی دربارۀ جهان پدیدار شده است، ترکیبی از میلیاردها ارجاعی که مرجعشان را فراموش کرده و، درقالب شخصیتی اسطورهای، از تجربۀ انسانی فراتر رفته است. اتفاقاً خوب است و حتی میتوان گفت شگفتانگیز است. اما این سؤال را به ذهن متبادر میکند که کرانگس رؤیای چه کسی است که به تصویر کشیده شده است؟ چه ترکیبی از فرهنگ انسانی، و با چه زاویۀ دیدی، به خلق چنین کابوسی انجامیده است؟
اتفاق مشابهی برای هنرمند دیجیتال دیگری افتاد که درحال آزمودن درخواستهای منفی بود. درخواست منفی روشی است برای تولید آنچه از نظر سیستم نقطۀ مقابل چیزی است که برایش توضیح داده شده است. وقتی آن هنرمند عبارت «براندو::۱-» را وارد کرد سیستم تصویری تولید کرد که تاحدی شبیه به لوگوی شرکت سازندۀ بازیهای ویدئویی به نام دیجیتا پنتیکس بود. اینکه تصویر ایجادشده در نگاه چندبعدی سیستم برعکس تصویر مارلون براندو باشد تا حدودی قابل فهم به نظر میرسد. او در ادامه سعی کرد بررسی کند که آیا سیستم میتواند مسیر برعکس این را هم طی کند و درخواست «لوگوی دیجیتا پنتیکس که شبیه دورنمای شهر است::۱-» را وارد کرد و اینجا بود که اتفاق بسیار عجیبتری رخ داد. تمام تصاویر ساختهشده زنی ترسناک را نشان میدادند با چشمانی فرورفته و گونههای سرخ. آن هنرمند نام این شخصیت را گذاشت لوب. از آن زمان به بعد، بهطرز غیرعادی و نگرانکنندهای، انگار لوب قصد رفتن نداشت و هر بار که تصویر ساختهشدۀ او را دوباره، در ترکیب با درخواستِ متنیِ بهظاهر متفاوتی، به سیستم برمیگرداند سیستم در جواب باز هم تصویر لوب را ترسیم میکرد و هربار، بهشکلی کابوسوار، خونینتر، زخمیتر و خشنتر.
یکی از توضیحاتی که برای لوب و احتمالاً کرانگس میتوان ارائه داد ازاینقرار است: هرچند درک سازوکارِ تخیل ماشین بسیار بسیار دشوار است، میتوان آن را به صورت شکل یا فرمی در نظر گرفت که قرار نیست کاملاً صاف یا گرد باشد، بلکه پستیوبلندیها و قلهها و درههایی دارد، بخشهایی پر از اطلاعات و بخشهایی فاقد ویژگیهای زیاد. آن بخشهایی که پر از اطلاعات است به شبکههایی از اطلاعات مربوط میشود که سیستم مطالب زیادی دربارۀ آن «میداند». مثلاً میتوان نواحی مرتبط با صورت انسان، ماشینها و گربهها را بهعنوان نمونهای از این موضوع تصور کرد که، با توجه به توزیع گستردۀ تصاویری که میتوان در سرتاسر اینترنت از آنها پیدا کرد، سیستم اطلاعات زیادی دربارۀ آنها دارد.
اینها همان ناحیههایی هستند که نرمافزارهای هوش مصنوعی هنگام تولید تصاویرشان بهشدت روی آن تکیه میکنند. اما جاهای دیگری از شکل هم هستند که کمتر دیده شدهاند و موقع ساخت تصویر بر اساس درخواستهای منفی، یا حتی عبارات مهمل، نوبت به آنها میرسد. ماشین برای پاسخ به چنین درخواستهایی باید بر پیوندهای مبهمتر و غیرمتقنتر شبکۀ عصبیاش تکیه کند و شاید حتی استنتاجش را بر اساس کلیت آنچه میداند متضادش چه میتواند باشد انجام دهد. و این سرزمینی است که امثال لوب و کرانگس را میتوان در آن پیدا کرد.
نظریۀ قانعکنندهای است اما سؤالات ناراحتکنندهای را پیش روی ما قرار میدهد. مثل اینکه چرا کرانگس و لوب اینشکلی هستند، یعنی چرا بهسمت وحشت و خشونت میروند و چرا به کابوس میمانند. به نظر میرسد نرمافزارهای هوشمند تولید تصاویر، در تلاششان برای درک و تکثیر کلیت فرهنگ بصری انسانها، تاریکترین ترسهای ما را بازآفرینی کردهاند. شاید این فقط نشانهای باشد بر اینکه این سیستمها درواقع در تقلید هشیاری انسان خیلی خوب عمل میکنند و تا حد وحشتی که در اعماق هستیمان کمین کرده است، یعنی ترس از پلیدی، مرگ و فساد، پیش رفتهاند. و دراینصورت باید بپذیریم که اینها مؤلفههای ثابتی از ماشینهایی هستند که ما آنها را بهشکل خودمان ساختهایم. هیچ گریزی از این دلمشغولیها و خطرات و هیچ راهی برای تعدیل و مهندسی واقعیت وضعیت انسانی وجود ندارد. ناپاکی و بیزاری از زندگی و مرگ با ما باقی خواهد ماند و ما ناگزیر از پرداختن به آن هستیم، درست همانطور که امید، عشق، شادی و میل به اکتشاف با ما خواهند ماند.
این موضوع مهم است، چراکه تولیدکنندگان هوشمند تصاویر هرآنچه فناوریهای قبلی انجام دادهاند را انجام خواهند داد اما یک قدم از آنها فراتر خواهند رفت. این سیستمها سوگیریها و پیشداوریهای سازندگان خود را بازتولید خواهند کرد، مثل وبکمهایی که فقط چهرۀ سفیدپوستان را تشخیص میدهند یا سیستمهای پیشگویی جُرم پلیس که متمرکز میشوند روی محلههای کمدرآمد. علاوهبرآن، سیستمهای هوشمند تولید تصاویرْ سطح بازی را نیز ارتقا خواهند داد، یعنی حالا دیگر معیار عملکرد هوش مصنوعی دارد از حوزۀ محدودِ حل معماها و چالشها -مثل بازی شطرنج یا بازیِ گو و یا تبعیت از قوانین ترافیکی- به قلمرو بسیار وسیعترِ تخیل و خلاقیت تغییر میکند.
هرچند صحبت از «خلاقیت» هوش مصنوعی ممکن است اغراقآمیز باشد -چون درواقع هیچ اصالتی در تصاویر تولیدشده وجود ندارد و هرچه هست تقلید و تکرار بسیار ماهرانه است- اما این به آن معنی نیست که هوش مصنوعی نمیتواند از پسِ انجام بسیاری از کارهای معمول «هنرمندانهای» برآید که از دیرباز گمان میکردیم فقط هنرمندان مجرب میتوانند انجامشان دهند، از تصویرگران و طراحان گرافیک گرفته تا نوازندگان، فیلمبرداران و درواقع حتی نویسندگان. با تغییر بزرگی مواجه شدهایم. هوش مصنوعی اکنون سراغ تجربههای اساسیِ احساس، هیجان و خُلق رفته و این کار این امکان را برایش فراهم میکند که جهان را در سطوحی حتی عمیقتر و متقاعدکنندهتر شکل داده و بر آن تأثیر بگذارد.
اُپن اِیآی در نوامبر ۲۰۲۲ از چتجیپیتی رونمایی کرد و درک ما از نحوۀ تعامل هوش مصنوعی و خلاقیت انسان را بیشازپیش تغییر داد. چتجیپیتی که، از نظر ساختاری، ربات مکالمه است (نرمافزاری که مکالمات انسانی را تقلید میکند) قابلیتهایی بهمراتب فراتر از مکالمه دارد. اگر درخواست درستی به آن داده شود قادر است کدهای کامپیوتریای بنویسد که کار میکنند؛ مسائل ریاضی را حل کند؛ فعالیتهای معمول نویسندگی، از نقد کتاب گرفته تا نوشتن مقالههای علمی، متن سخنرانی عروسی و نوشتن قراردادهای قانونی، را تقلید کند.
بهوضوح میتوان دریافت که این برنامه برای آنهایی که در نوشتن متن ایمیل یا مقاله مشکل دارند چه موهبتی محسوب میشود اما، از سوی دیگر، همین برنامه و همچنین برنامههای هوشمند تولید تصاویر میتوانند جایگزین کسانی شوند که از این کارها امرار معاش میکنند. همین الان خیلی از مدارس و دانشگاهها سیاستهایی را در منع استفاده از چتجیپیتی وضع کردهاند، چون نگراناند که دانشآموزان و دانشجوها مقالههایشان را با کمک این برنامه بنویسند. مجلۀ علمی نیچر هم مجبور شده است سیاستنامهای منتشر کند و توضیح دهد که چرا نمیتوان نام این نرمافزار را در فهرست نویسندگان مقالات درج کرد (چون این برنامه نمیتواند رضایتنامه را امضا کند و نمیتواند مسئولیت محتوای مقاله را بر عهده بگیرد). اما خودِ این مؤسسات هم از استفادۀ نادرست از این ابزار در امان نیستند. در ماه فوریه، دانشکدۀ آموزش و توسعۀ انسانیِ پیبادی در دانشگاه وندربیلت ایالت تنسی در پیِ حادثۀ تیراندازی در میشیگان پیامی را برای همدردی و ارائۀ توصیههایی به دانشجویان منتشر کرد که دانشجویان از خواندنش شوکه شدند. هرچند محتوای نامه دربارۀ ارزش جامعه، احترام متقابل و باهمبودن بود، اما پایین متن نوشته شده بود که این نامه بهوسیلۀ چتجیپیتی تولید شده است. خیلیها این کار را خلاف اخلاق و بهنوعی اشتباه و غیرعادی دانستند؛ به نظر میرسد حوزههایی در زندگی وجود دارد که میانجیگری ماشینها در آنها نیازمند تعمق بیشتری است.
پس حالا که جایگزینیِ کامل ارتباطات انسانی با چپجیپیتی کار نامناسبی است یکی از روندهای مشخصی که شکل گرفته تلاش برای استفاده از چتجیپیتی بهعنوان نوعی دستیار خردمند است که میتواند ما را، در میان باتلاق دانش موجود، بهسمت اطلاعاتی که دنبالش هستیم هدایت کند. مایکروسافت یکی از اولین شرکتهایی بود که به این سمت حرکت کرد و تنظیمات موتور جستوجوی بینگ، که بیشترِ کاربران خیلی تحویلش نمیگرفتند، را تغییر داد و آن را تبدیل کرد به ربات مکالمهای که در پشت صحنه از چتجیپیتی استفاده میکرد و به این ترتیب تا حد زیادی به محبوبیت بینگ افزود. بهرغم تبوتاب اینترنتی (و ژورنالیستی) فعلی برای مشورتگرفتن از چتجیپیتی در تقریباً تمام مشکلات، اصلِ رابطۀ این نرمافزار با دانش در وضعیت نسبتاً متزلزلی قرار دارد.
اخیراً از چتجیپیتی خواستم تا تعدادی کتاب در موضوع موردعلاقۀ جدیدم به من معرفی کند. موضوع موردنظر عبارت بود از مردمسالاریِ چندگونهای 3، یعنی ایدۀ استفاده از مخلوقات غیرانسانی در فرایند تصمیمگیریهای سیاسی. تقریباً میتوان گفت مفیدترین کاربرد این ابزار همین است که به او بگویی «هی، الان دارم به فلان موضوع فکر میکنم. میتوانی اطلاعات بیشتری راجع بهش به من بدهی؟» و چتجیپیتی هم از خدایش است که این کار را برایمان انجام دهد. من هم سؤالم را پرسیدم و او فهرستی از کتابهایی را معرفی کرد که بهصورت عمیق به بررسی این حوزۀ جدید میپرداختند و، با زبان متقاعدکنندۀ انسانی برایم توضیح داد که چرا باید حتماً این کتابها را بخوانم. عملکردش درخشان بود! بهجز اینکه بعداً کاشف به عمل آمد که تنها یکی از چهار کتابی که معرفی کرده در واقعیت وجود دارد و تعداد زیادی از مفاهیمی که چتجیپیتی فکر میکرد باید بیشتر دربارۀ شان مطالعه کنم درواقع کلاً از پروپاگاندای جناح راست گرفته شده بود. مثلاً برایم توضیح داد که جنبش «استفادۀ خردمندانه» درصدد ترویج حقوق حیوانات است، درحالیکه درحقیقت این جنبش یک مفهوم آزادیخواهانه و ضدمحیطزیستی است که گسترش حقوق مالکیت را دنبال میکند.
حالا علت این اتفاق این نبود که چتجیپیتی ذاتاً راستگراست، بلکه علتش این بود که این نرمافزار ذاتاً احمق است. چتجیپیتی اکثر محتوای اینترنت را خوانده است و میداند که زبان انسانها قرار است چطور باشد، اما این برنامه ابداً نسبتی با واقعیت ندارد. این جملاتِ رؤیایی اوست که به نظر درست میآید و گوشدادن به صحبتهای او حقیقتاً بهاندازۀ گوشدادن به رؤیاهای یک نفر جالب است. این برنامه در تولید خروجیای که منطقی به نظر برسد خیلی خوب عمل میکند و از آن بهتر در تولید مطالب کلیشهای، مبتذل و غیراصیل، چراکه اینگونه مطالب بخش عمدۀ خوراک ورودی آن را تشکیل میدهد. اما این نرمافزار هنوز نمیتواند ارتباط معناداری با دنیا، همانگونه که واقعاً هست، برقرار کند. به هرکس که وانمود میکند چتجیپیتی بویی، هرچند غیردقیق، از شعور و هشیاری 4 برده است اعتماد نکنید (زمانی که این مطلب را برای انتشار آماده میکردیم اُپن اِیآی نسخۀ جدیدی از سیستمی که چتجیپیتی بر اساس آن کار میکند را منتشر کرد و اعلام کرد که «احتمال کمتری وجود دارد که این برنامه حقایق را تولید کند»).
باور به اینکه این نوع نرمافزارهای هوش مصنوعی واقعاً دانا و معنادار هستند جداً خطرناک است. خطرات این باور میتواند چشمۀ تفکر جمعی ما، و اساساً توانایی تفکر ما، را مسموم کند. اگر، همانطور که شرکتهای حوزۀ فناوری اعلام کردهاند، قرار باشد در آینده نتایج درخواستهای ارائهشده به چتجیپیتی بهعنوان جواب به کسانی ارائه شود که در اینترنت بهدنبال کسب اطلاعات هستند و اگر، همانطور که برخی مفسران میگویند، قرار باشد در آینده از چتجیپیتی در کلاسهای درس بهعنوان دستیار آموزشی استفاده شود، دراینصورت توهمات این نرمافزار رسمیت پیدا خواهد کرد و بهعنوان حائلی بین ما و منابع اطلاعاتیِ موثقتر و آزمودنیتر قرار خواهد گرفت و بهمرور زمان مرز بین این توهمات هوش مصنوعی و آن محتواهای موثق رفتهرفته محو و محوتر میشود، تا جایی که سرانجام این دو از هم قابلتشخیص نخواهند بود. علاوهبرآن، هیچ زمانی بهاندازۀ امروز ضروری نبوده که ما توانایی تحقیق و ارزیابیِ نقادانۀ دانش را داشته باشیم، بهویژه به دلیل آسیبی که شرکتهای حوزۀ فناوری به نحوۀ انتشار اطلاعات وارد کردهاند. اعتماد کامل به رؤیاهای ماشینی که بهغلط برنامهریزی شده است بهمنزلۀ کنارگذاشتن کامل چنین تفکر نقادانهای است.
فناوریهای هوش مصنوعی برای کرۀ زمین هم مضرند. فرایند آموزشدادن به تنها یک مدل هوش مصنوعی -طبق پژوهشی که در سال ۲۰۱۹ به چاپ رسید- میتواند باعث انتشار بیش از ۲۸۴ تن دیاکسید کربن شود که تقریباً پنج برابر کل دیاکسید کربنی است که در طول عمر یک خودرو متوسط آمریکایی، از مرحلۀ تولید تا پایان فعالیتش، منتشر میشود. انتظار میرود میزان این نوع انتشار دیاکسیدن کربن طی پنج سال آینده حدود ۵۰ درصد افزایش یابد، آن هم در شرایطی که سیارۀ ما مدام گرمتر میشود، آب اقیانوسها اسیدیتر میشود، جنگلها آتش میگیرند، اَبَرتوفانها به راه میافتند و گونههای بیشتری بهسمت انقراض میروند. هیچ چیز نابخردانهتر از وضع بهکارگیری فعلیِ هوش مصنوعی در عصر حاضر نیست.
حالا بیایید یک قدم به عقب برگردیم. اگر مصادیق فعلیِ «هوش مصنوعی» تا این حد ناامیدکنندهاند، آیا جایگزینی برای آنها وجود دارد؟ آیا میتوان فناوریهای قدرتمندی برای مرتبسازی و تبادل اطلاعات تصور کرد که ما را استثمار نکند، از ما سوءاستفاده نکند، گمراهمان نکند و جای ما را نگیرد؟ بله میتوان، به شرطی که بتوانیم از شبکههای قدرتِ شرکتهایی که موج فعلی هوش مصنوعی را تعریف کردهاند خارج شویم.
درحقیقت همین الان هم نمونههایی از هوش مصنوعی وجود دارد که، با دورزدن قدرتِ ریشهدار شرکتها، به نفع جوامع خاصی استفاده میشوند. همهجای دنیا زبانهای بومی در معرض تهدید قرار دارند. سازمان ملل متحد تخمین زده که هر دو هفته یکی از این زبانها از بین میرود و نسلها دانش و تجربه را هم با خودش میبرد. این مشکل، که نتیجۀ سیاستهای استعماری و همسانسازیهای نژادپرستانۀ چند قرن اخیر است، بر اثر غلبۀ روزافزون مدلهای زبانیِ مبتنی بر یادگیری ماشینی تشدید شده است. این مدلهای هوشمند باعث میشوند که قدرت زبانهای رایج بیشتر شود و، از سوی دیگر، زبانهای کمترشناختهشده کمتر از قبل در معرض دید قرار گرفته و استفاده شوند.
در منطقۀ آوتیروآ در نیوزلند یک ایستگاه رادیویی غیرانتفاعی به نام ته هیکو مدیا، که برنامههایش را به زبان مائوری پخش میکند، تصمیم میگیرد برای این نابرابری در بازنمایی زبانهای مختلف در دنیای فناوری راه حلی پیدا کند. بایگانی عظیم این ایستگاه رادیویی که حاصل ۲۰ سال انتشار برنامه بود گسترۀ وسیعی از اصطلاحات و عبارتهای محاورهای و منحصربهفردی را شامل میشد که خیلی از آنها را دیگر هیچ انسان زندهای استفاده نمیکرد. آنها این بایگانی صوتی بزرگ را قبلاً دیجیتالی کرده بودند، اما لازم بود آن فایلهای صوتی تبدیل به متن شوند تا برای پژوهشگران حوزۀ زبان و جامعۀ مائوری قابلاستفاده شود. آنها برای حل این مشکل تصمیم گرفتند مدل هوشمند تشخیصِ گفتارِ اختصاصیِ خودشان را آموزش دهند تا بتواند به فایلهای صوتی موجود در بایگانی «گوش دهد» و آنها را به متن تبدیل کند.
ته هیکو مدیا، طی پنج سال، با استفاده از فناوریهای متنباز و نرمافزارهایی که خودشان توسعه داده بودند توانست تقریباً غیرممکن را ممکن کند، یعنی توانست به سیستم تشخیص گفتار بسیار دقیقی برای زبان مائوری دست پیدا کند که بهوسیلۀ جامعۀ مربوط به همان زبان ساخته شده بود و مالکیتش هم متعلق به خودِ آن جامعه بود. کاری که آنها موفق به انجامش شدند چیزی فراتر از تلاش برای تولید نرمافزار بود. آنها با تمام گروههای اجتماعیِ مائوری که میتوانستند تماس گرفتند و از آنها خواستند عبارتهای از پیش نوشتهشدهای را بخوانند و صدای خودشان را ضبط کنند تا از آن برای گردآوری پیکرهای از گفتارِ همراه با توضیحات استفاده کنند. تولید این پیکره شرط لازم برای آموزش مدل هوش مصنوعی آنها به حساب میآمد.
آنها برای کسی که بیشترین جملات را ضبط و ارسال کند جایزۀ نقدی تعیین کردند -و یکی از کنشگران به نام ته میهینگا کومن بهتنهایی ۴ هزار عبارت را ضبط کرد- اما گردانندگان این برنامه متوجه شدند که بزرگترین انگیزه برای مشارکتکنندگان چشمانداز مشترک احیای این زبان و حفظ مالکیت آن برای جامعۀ مائوری است. آنها طی چند هفته توانستند مدلی بسازند که میتوانست گفتارهای ضبطشده را با دقت ۸۶ درصد تشخیص دهد که فراتر از حداقل دقت لازم برای شروع تبدیل کل بایگانیشان به متن بود.
موفقیت این ایستگاه رادیویی راه را به سایر گروههای بومی نشان داد و حالا مردمان موهاوک در جنوب شرقی کانادا و بومیهای هاوایی پروژههای مشابهی را شروع کردهاند. این کار همچنین توانست اصل حق حاکمیت دادهها را برای زبانهای بومی، و در ادامۀ مسیر، برای سایر اَشکال دانش بومی جا بیندازد. هنگامی که شرکتهای تجاری بینالمللی خودشان را به گویندگان مائوری نزدیک کردند، تا به آنها در ساخت مدلشان کمک کنند، ته هیکو مدیا کارزاری علیه این اقدام آنها به راه انداخت با این استدلال که «این شرکتها زبان ما را سرکوب کردهاند و با زور آن را از چنگ اجدادمان درآوردهاند و حالا میخواهند زبان خودمان را بهعنوان یک خدمت جدید به خودمان بفروشند».
کهاونی ماههلونا، بومی هاوایی و یکی از همبنیانگذاران رادیوی ته هیکو ودیا، مینویسد «دادهها آخرین مرز استعمارند». تمام کارهای ته هیکو تحت مجوزی به نام کایتیآکیتانا منتشر شد، قانونی دربارۀ قیمومیت و حفاظت از دادهها که تضمین میکند تمام دادههایی که وارد مدل هوشمند یک زبان و سایر پروژهها میشوند تحت مالکیت جامعهای که آن را ایجاد کرده باقی خواهند ماند که، در این مورد، منظور از جامعه آن گویندگان زبان مائوری هستند که به پیشبرد این پروژه کمک کردند. طبق این مجوز تصمیمگیری دربارۀ اعطای این مجوز به دیگران هم، مطابق با تیکانا (رسوم و پروتکل مائوری)، بر عهدۀ خود آن جامعه خواهد بود. آنها، با اتخاذ این روش، هم زبان مائوری را احیا کردند و هم در برابر سیستمهای استعمار دیجیتالی که ادامهدهندۀ قرنها ظلم و ستم بودند ایستادگی کرده و آنها را تغییر دادند.
به نظرم درسی که از موج فعلی «هوش مصنوعی» میتوان گرفت این است که هوش در تصورات شرکتهای تجاری چیزی ناقص و معیوب است. وقتی در جهانبینی شما بیشینهکردن سود افضلِ فضائل باشد و عیار هر چیز با معیارِ ارزش سهامداران سنجیده شود جای تعجب نیست که هنرمندیتان، تخیلاتتان، زیباییشناسیتان و ابرازهای هیجانیتان بهطرز اسفناکی ضعیف و درمانده باشد. ما در ابزارهایی که از آن استفاده میکنیم، رسانههایی که مخاطبشان هستیم و جوامعی که درشان زندگی میکنیم لیاقتمان بیش از اینهاست و تنها زمانی به آنچه لیاقتش را داریم میرسیم که قادر باشیم بهطور کامل در آنها مشارکت کنیم و اینکه دیگر مرعوب آنها نشویم، چون واقعاً آنقدرها که به نظر میرسد پیچیده نیستند. بهقول اسطورۀ کتابهای علمیتخیلی، اورسولا کِی لی گویین، « فناوریْ هر کاری است که میتوانیم انجامدادنش را یاد بگیریم».
* این مطلب برشی است از کتاب New Dark Age نوشتۀ جیمز برایدل.
پاورقی:
1. prompt engineering: منظور از پرامپت متن درخواست یا دستوری است که به نرمافزارهای هوش مصنوعی داده میشود [مترجم].
2. cryptid: موجودات اغلب ترسناکی که در فرهنگ عوام به آنها اشاره شده اما وجودشان هیچگاه از نظر علمی تأیید نشده است [مترجم].
3. multi-species democracy
4. consciousness