اکووطن - هوش مصنوعی، احمق به شکلی قانع کننده!

آزمایشگاه تحقیقات هوش مصنوعی اُپن اِی‌آی، در ژانویۀ ۲۰۲۱، نسخۀ محدودی از نرم‌افزاری به نام دال‌-ای را منتشر کرد. کاربر توضیح ساده‌ای از تصویری که در ذهن داشت را برای نرم‌افزار می‌نوشت و، بعد از مکثی کوتاه، نرم‌افزار به‌طرزی عجیب تفسیر خوبی از ایدۀ کاربر ترسیم می‌کرد که درحد کار تصویرگری حرفه‌ای یا یک طراح ماهر ادوبی بود، اما بسیار سریع‌تر و البته رایگان. مثلاً می‌نوشتید «خوک بالداری که بر فراز ماه پرواز می‌کند، ترسیم‌شده توسط آنتوان دو سنت اگزوپری» و خروجی برنامه، بعد از یکی دو دقیقه پردازش، می‌شد تصویری هرچند سرهم‌بندی‌شده اما شبیه به آثار آبرنگ خالق شازده کوچولو.
یک سال و اندی بعد نسخۀ گسترده‌تری از این نرم افزار منتشر شد و اینترنت را منفجر کرد. رسانه‌های اجتماعی پر شد از انواع و اقسام مخلوقات عجیب‌وغریب و حیرت‌انگیز و ملغمۀ درهم‌وبرهمی از فانتزی‌ها و سبک‌های هنری مختلف شکل گرفت. چند ماه نگذشته بود که با ارائۀ محصول دیگری از اُپن اِی‌آی به نام چت‌جی‌پی‌تی موج مشابهی، این‌بار مبتنی بر زبان، به راه افتاد. کافی است از چت‌جی‌پی‌تی بخواهید خلاصه‌ای از کتاب سفر ایوب را برایتان به سبک آلن گینزبرگِ شاعر تولید کند تا، طی چند ثانیه، نتیجۀ قابل‌قبولی تقدیمتان کند. بعد، از او بخواهید که شعر زوزۀ آلن گینزبرگ را درقالب اسلایدهای ارائۀ مشاورۀ مدیریت درآورد و این کار را هم برایتان انجام خواهد داد. توانایی این برنامه‌ها برای ساختن دنیاهای عجیب‌وغریب جدید، در قالب کلمات و تصاویر، مردم را از خود بی‌خود کرد و تمایل به امتحان‌کردن این برنامه‌ها باعث ایجاد محتواهای روزافزونی دربارۀ نکات و ریزه‌کاری‌های استفاده از این ابزارها، و به‌ویژه نحوۀ ساختاربندی ورودی‌ها برای رسیدن به جالب‌ترین خروجی‌ها، شد.
این مهارت آخر معروف شد به «مهندسی درخواست» 1: فن چهارچوب‌بندی دستورها به شکلی که به‌راحتی برای سیستم قابل‌فهم باشد و درنتیجه منجر به دریافت نزدیک‌ترین نتایج به انتظارات کاربر، یا حتی فراتر از آن، شود. مفسران حوزۀ فناوری خیلی زود پیش‌بینی کردند که مهندسی درخواست در آیندۀ «بدون کدنویسی» به شغلی پرمتقاضی و پُردرآمد تبدیل خواهد شد، آینده‌ای که در آن قدرتمندترین راه برای بده‌بستان با سیستم‌های هوش مصنوعی از طریق زبان انسانی خواهد بود. در آینده دیگر نیازی به بلدبودن نقاشی یا برنامه‌نویسی کامپیوتر نخواهد بود؛ کافی است خواسته‌مان را درِ گوش ماشین زمزمه کنیم و بقیۀ کارها را بسپاریم به او. بنابراین سقف تولیدات هوش مصنوعی به‌اندازۀ سقف تخیلات خود ما خواهد بود.
دال-ای در ادامه به‌سرعت پیشرفت کرد و نمونه‌های مشابه آن نیز از راه رسیدند. دال-ای مینی (که بعدها نامش به کرایون تغییر یافت) برای آن‌هایی که به خدمات خصوصی اُپن اِی‌آی دعوت نشده بودند این فرصت را فراهم کرد که با ابزاری مشابه، که قدرت کمتری داشت اما همچنان بسیار جذاب بود، وربروند. در همین اثنا تلاش تجاری مستقلی به نام میدجرنی و مدل متن‌باز استیبل دیفیوژن رویکرد متفاوتی را برای طبقه‌بندی و تولید تصاویر به کار گرفتند، اما اهدافشان تا حد زیادی همان بود. طی چند ماه این حوزه گسترش پیدا کرد و تولید ویدئوهای کوتاه و مدل‌های سه‌بعدی را هم شامل شد و هر روز سروکلۀ ابزارهای جدیدی از سوی دپارتمان‌های دانشگاه‌ها و برنامه‌نویسانِ تفننی پیدا می‌شد. علاوه‌برآن غول‌های فعلیِ حوزۀ رسانه‌های اجتماعی مثل فیسبوک (معروف به متا)، گوگل، مایکروسافت و امثالهم به‌عنوان غول‌های هوش مصنوعی وارد میدان شدند. حالا دیگر عرصۀ جدیدی از پژوهش، نرم‌افزار و رقابت شکل گرفته بود.
نام دال-ای ترکیبی است از نام ربات قهرمان دیزنی، وال‌-ای، و هنرمند سوررئالیست اسپانیایی، سالوادور دالی. از یک سو با ماشین کوچکِ بی‌باک، دوست‌داشتنی و خودمختاری طرفیم که پس‌مانده‌های تمدن انسانیِ فروپاشیده‌ را جارو می‌کند و از سوی دیگر با مردی که معروف‌ترین سخنانش عبارت‌اند از «کسی که نخواهد از چیزی تقلید کند چیزی خلق نخواهد کرد» و «آنچه مهم است گسترش سردرگمی است، نه حذف آن». هر دو نام‌های تحسین‌برانگیزی برای طیف وسیعی از ابزارهایی هستند که آن‌ها را به‌عنوان خلق‌کنندگان تصاویر هوش مصنوعی می‌شناسیم.
در سالی که گذشت موج جدید ابزارهای هوش مصنوعی، که برای مصرف‌کنندگان نهایی ارائه شده بودند، تخیل مردم را درگیر خود کرد. این موج همچنین باعث شد اقبال به شرکت‌های بزرگ حوزۀ فناوری رو کند، شرکت‌هایی که علی‌رغم تلاش بسیار نتوانسته بودند اکثر ما را متقاعد کنند که چیزهایی مثل بلاک‌چین یا واقعیت مجازی (یا همان «متاورس») آیندۀ مطلوب تک‌تک ما مردم است. هوش مصنوعی اما لااقل برای پنج دقیقه هم که شده سرگرممان می‌کند. گذشته از آن «هوش مصنوعی» هنوز کیفیت درخشان و علمی‌تخیلی خودش را دارد که ما را یاد ربات‌های غول‌پیکر و مغزهای اَبَرانسان‌ها، که کمترین ارتباط را با داستان‌های واقعی دارند، می‌اندازد. البته آنچه در پسِ ماجرا می گذرد خیلی هم جدید نیست.
مفاهیم بنیادین دانشگاهیِ مربوط به هوش مصنوعی در چند دهۀ اخیر تغییری نکرده‌اند. نظریه‌پردازی و حتی استفاده از فناوری زیربنایی شبکه‌های عصبی -روشی برای یادگیری ماشینی مبتنی بر کارکرد مغز واقعی- به دهۀ ۱۹۹۰ بر می‌گردد. در همان زمان هم می‌شد از شبکه‌های عصبی مصنوعی برای تولید تصاویر استفاده کرد، اما تصاویر ساخته‌شده اکثراً تصاویری انتزاعی و بی‌ساختار و لکه‌های رنگی با حداقل خمیرمایۀ هیجانی و زیبایی‌شناختی بودند. تولید اولین ربات‌های مکالمه با کیفیت قابل‌قبول حتی به پیش از این تاریخ بر می‌گردد. در سال ۱۹۶۴ جوزف ویزنبام، دانشمند علوم کامپیوتر در انستیتو فناوری ماساچوست، نرم‌افزار ربات مکالمه‌ای ساخت به نام اِلیزا. این نرم‌افزار از روش روان‌درمانگران «شخص‌محور» الگوبرداری کرده بود، یعنی هر چه می‌گفتی را به خودت انعکاس می‌داد؛ اگر می‌گفتی «غمگینم» الیزا در جواب می‌گفت «چرا غمگینی؟» و مواردی شبیه این (البته ویزنبام می‌خواست با این پروژه سطحی‌بودن ارتباطات انسانی را نشان دهد نه اینکه نقشۀ راهی برای محصولات آینده ترسیم کند).
نمونه‌های اولیۀ هوش مصنوعی چیز زیادی از دنیا نمی‌دانستند و گروه‌های دانشگاهی توان پردازشی کافی برای بهره‌بردای از این سیستم‌ها در مقیاس وسیع را نداشتند. آنچه امروزه فرق کرده هوشمندی نیست بلکه تفاوت در داده‌ها و توان پردازش است. شرکت‌های بزرگ حوزۀ فناوری ۲۰ سال وقت صرف گردآوری حجم عظیمی داده از فرهنگ و زندگی روزمرۀ مردم کرده‌اند و مراکز دادۀ عظیم و انرژی‌خواری ساخته‌اند و آن را با قوی‌ترین کامپیوترها پر کرده‌اند تا بتوانند آن حجم عظیم داده را زیرورو کنند. به‌این‌ترتیب شبکه‌های عصبی مصنوعی که روزگاری کهنه و فرتوت انگاشته می‌شدند حالا توان فوق‌العاده‌ای یافته‌اند و نتیجه‌اش شده فورانی از همین هوش‌های مصنوعی که امروز شاهدش هستیم.
مبنای تولید تصاویر به‌وسیلۀ هوش مصنوعی سرهم‌کردن و تحلیل میلیون‌ها میلیون تصویر برچسب‌گذاری‌شده است، یعنی تصاویری که توضیحی دربارۀ محتوایش به آن پیوست شده است. سپس این تصاویر و توضیحاتشان را شبکه‌های عصبی مصنوعی‌ای پردازش می‌کنند که یاد می‌گیرند ویژگی‌های خاص و بسیار ظریفِ تصاویر مثل اَشکال، رنگ‌ها و ترکیب‌بندی‌ها را به کلمات و عبارات مشخصی مرتبط کنند. سپس این ویژگی‌ها به‌صورت لایه‌لایه روی هم قرار می‌گیرد تا ترتیب تازه‌ای از شکل، رنگ و ترکیب‌بندی را تولید کند و این کار بر اساس میلیاردها ارتباط اولویت‌بندی‌شده‌ای انجام می‌شود که از روی یک درخواست سادۀ کاربر ساخته شده است. اما آن‌همه تصاویر اولیه از کجا می‌آیند؟
مجموعه‌داده‌های منتشرشده توسط یک گروه غیرانتفاعی آلمانی به نام لایِن مثال خوبی از این نوع مجموعه‌های متن‌تصویر است که از آن برای آموزش‌دادن مدل‌های بزرگ هوش مصنوعی استفاده می‌شود (استیبل دیفیوژن، گوگلز ایمیجن و چند مدل هوش مصنوعی دیگر بر مبنای همین پایگاه داده‌های لاین کار می‌کنند). سازمان اینترنتی غیرانتفاعی دیگری به نام کامن کراول بیش از یک دهه است که تا جایی که دسترسی دارد بخش‌های عمومی شبکۀ وب را اندیس‌گذاری و ذخیره می‌کند. این مجموعه هر ماه ۳ میلیارد صفحۀ وب را در قالب فایل ذخیره می‌کند. پژوهشگران لاین نگاهی به بخشی از داده‌های کامن کراول انداختند و تمام تصاویر آن را با برچسب «جایگزین» علامت‌گذاری و استخراج کردند و برای هر تصویر یک خط یا بخشی از متن آن صفحه که در توصیف آن تصویر آمده بود را هم جدا کردند. پس از کمی اصلاحات، پیوندهایی به تصاویر اصلی و متن‌های توصیف‌کنندۀ آن‌ها را در قالب مجموعه‌های عظیمی منتشر کردند. به‌این‌ترتیب لاین-۵بی، شامل بیش از ۵ میلیارد دوتاییِ متن‌تصویر، در مارس ۲۰۲۲ منتشر شد. آن‌ها هر تصویری را که می‌شد با هر تعریفی آن را «عمومی» قلمداد کرد گردآوری کردند، یعنی هر تصویری که تابه‌حال به هر نحوی در اینترنت منتشر شده ممکن است در برنامۀ آن‌ها ذخیره شده باشد و آن‌ها این کار را فارغ از هر پیامد عجیبی که ممکن است برای آن متصور شوید انجام داده‌اند.
در سپتامبر ۲۰۲۲، یک هنرمند سبک دیجیتالی از سانفرانسیسکو به نام لاپین سراغ استفاده از ابزاری رفت به نام «آیا از من در آموزش استفاده شده است؟» که این امکان را برای هنرمندان فراهم می‌کند که ببینند آیا از اثر هنری آن‌ها برای آموزش مدل‌های هوش مصنوعیِ تولید تصاویر استفاده شده است یا نه. وبسایت «آیا از من در آموزش استفاده شده است» را هنرمندانی به نام‌های مت درای‌هورست و هالی هرندن ایجاد کرده‌اند. فعالیت هنری این دو نفر آن‌ها را به این فکر انداخت که مسیرهایی را بررسی کنند که هوش مصنوعی از طریق آن حاصل زحمات هنرمندان را استفاده می‌کند. وقتی لاپین داشت از این ابزار برای بررسی پایگاه‌داده‌های لاین استفاده می‌کرد تصویری از چهرۀ خودش را در آن پیدا کرد. او رد تصویر را گرفت و رسید به عکس‌هایی که پزشکش، زمانی که برای درمان یک بیماری نادر ژنتیکی مراجعه کرده بود، از او گرفته بود. این عکس‌ها به‌عنوان بخشی از پروندۀ پزشکی او گرفته شده بود و او اسنادی را امضا کرده بود که استفاده از این تصاویر را به پروندۀ پزشکی او محدود می‌کرد. پزشک موردنظر در سال ۲۰۱۸ فوت کرده بود و این تصاویر پزشکی خصوصی به نحوی سر از اینترنت درآورده بود و سپس وارد بایگانی کامن کراول و مجموعه‌داده‌های لاین شده بود و سرانجام از آنجا وارد دل‌ورودۀ شبکه‌های عصبی مصنوعی‌ای شده بود که داشتند دربارۀ معنای تصاویر و نحوۀ تولید تصاویر جدید از روی آن‌ها آموزش می‌دیدند. کسی چه می‌داند؟ شاید هوش مصنوعیْ آن بافت محو صورتی، در نقاشی خوک به‌سبک آنتوان دو سنت اگزوپری، را به شکلی ماهرانه از تصویر نمونۀ گوشت یک بیمار مبتلا به سرطان برداشت کرده باشد.
لاپین در مصاحبه با وبسایت ارز تکنیکا گفت «این کار چیزی شبیه مال‌خریِ دیجیتال است. یک نفر تصویری را از داخل پرونده‌های پزشک مرحوم من می‌دزدد و این تصویر سر از اینترنت درمی‌آورد و سپس این پایگاه‌های دادۀ هوش مصنوعی آن را از اینترنت دریافت می‌کنند. اینکه عکس خصوصی شما به اینترنت درز کند به‌خودی‌خود اتفاق ناگواری است، چه برسد به اینکه به‌عنوان جزئی از یک محصول استفاده شود. این موضوع دربارۀ عکس هر کسی صادق است و محدود به مدارک پزشکی نیست. و احتمال سوءاستفاده از این عکس‌ها در آینده خیلی زیاد است» (البته طبق حساب کاربری لاپین در توییتر، او همچنان از ابزارهایی مثل دال-ای برای تولید آثار هنری‌اش استفاده می‌کند).
به‌طور کلی این نوع نرم‌افزارهای هوش مصنوعی که در دسترس عموم قرار دارند، خواه با تصاویر سروکار داشته باشند خواه با کلمات، و نیز بسیاری از نرم‌افزارهای داده‌محورِ این‌چنینی، همانند مثالی که آوردیم، بر مبنای تصرف گستردۀ داده‌های فرهنگیِ موجود عمل می‌کنند و دامنۀ عملشان برای ما به این راحتی‌ها قابل درک نیست. اکثر متن‌ها و تصاویری که این سیستم‌ها، چه به‌صورت عمومی چه خصوصی، چه قانونی و چه غیرقانونی، از اینترنت جمع‌آوری‌ می‌کنند ذیل مفهوم گنگی به نام «استفادۀ منصفانه» قرار می‌گیرد (موضوعی که در ایالات‌متحده مجاز است اما در اتحادیۀ اروپا اگر کاملاً غیرقانونی هم نباشد لااقل محل تردید است). گذشته از موارد نادری مثل ماجرای لاپین، بخش زیادی از آنچه در درون شبکه‌های عصبیِ پیشرفته می‌گذرد ناشناخته است و به‌ تبع آن درک نحوۀ کار این شبکه‌ها از بیرون واقعاً غیرممکن است. اما از یک چیز می‌توان مطمئن بود و آن این است که خروجی‌های این نرم‌افزارهای هوش مصنوعی اصلاً و ابداً خلاقیت‌هایی جادویی و بدیعِ ماشین‌هایی خارق‌العاده نیستند، بلکه این خروجی‌ها تماماً وابسته به زحمات قدرنادیده و بی‌دستمزد نسل‌های مختلفی از هنرمندان انسانی هستند.
روش تولید تصویر و متن به‌وسیلۀ هوش مصنوعی کاملاً منطبق بر مفهوم انباشت اولیۀ سرمایه است، یعنی تصاحب دسترنج عدۀ زیادی از افراد به نفع ثروت‌اندوزی و پیشرفت شرکت‌های فناوری سیلیکون‌ولی و مالکان میلیاردر آن‌ها. این شرکت‌ها با سرک‌کشیدن در جنبه‌های مختلف زندگی روزمرۀ ما پول درمی‌آورند، ازجمله در شخصی‌ترین و خلاقانه‌ترین حوزه‌های زندگی ما مثل علایق محرمانه‌مان، مکالمات خصوصی‌مان، مشابهت‌ها و رؤیاهایمان. آن‌ها تخیلات ما را همان‌طوری تصاحب می‌کنند که در گذشته زمین‌داران و اشراف‌زادگانِ دزد زمین‌های سابقاً همگانی را تصاحب می‌کردند. آن‌ها نوید این را به ما می‌دهند که با این کارشان قرار است قلمروهای جدیدی از تجربیات انسانی را پیش روی ما بگشایند، دسترسی به تمام دانش بشری را برایمان فراهم کنند و انواع جدیدی از ارتباطات انسانی را برایمان خلق نمایند. اما درعوض رؤیاهای خودمان را، پس از بسته‌بندی مجدد به‌عنوان محصولات ماشین‌های هوشمند، دوباره به خودمان می‌فروشند. با این تفاوت که درآمد دیگری هم از محل تبلیغات مربوط به این دادوستد نصیبشان خواهد شد.
عجیب‌بودن تولید تصاویر به‌وسیلۀ هوش مصنوعی هم در خروجی آن است و هم در ورودی آن. یک بار کاربری شروع می‌کند به واردکردن یک‌سری عبارت مُهمل به‌عنوان ورودی در نرم‌افزار، و بعد گیج می‌شود و حتی کمی حالش خراب می‌شود از اینکه می‌بیند نرم‌افزار دال-ای مینی انگار خیلی خوب می‌داند که مثلاً منظور او از عبارت بی‌معنای «کرانگِس» چه بوده است، عبارتی مهمل و ساختگی که در دنیای خارج هیچ معنایی نداشت اما در این‌ نرم‌افزار منجر به خلق چهره‌ای به‌هم‌ریخته، عریان و هیولاگونه شده بود. و این کرانگِس از این به بعد در تصورات نرم‌افزار هوش مصنوعی چنان واضح بود که به‌راحتی می‌توانست آن را دستکاری کند. به‌این‌ترتیب خروجی‌های دیگری بر اساس کرانگِس برای سایر کاربران آماده کرد. تافته‌های سنتی کرانگس، موزائیک‌های کرانگس به‌سبک روم باستان، نقاشی‌های رنگ روغن از کرانگس، تصاویری از کرانگس که افراد مشهور را بغل کرده و -اینترنت است دیگر- کرانگس با «جذابیت جنسی».
اما کرانگس به‌راستی کیست یا چیست؟ کاربران توییتر خیلی زود این مخلوق را «نخستین نهان‌جاندار2 هوش مصنوعی» نامیدند، موجودی مثل پاگُنده که این بار در سرزمین‌های ناشناختۀ تخیلات هوش مصنوعی زندگی می‌کند. و به‌خاطر درک محدودی که از نحوۀ کار سیستم داریم، این احتمالاً واضح‌ترین جوابی است که در این زمان می‌توانیم بدهیم. ما قادر نیستیم فرایندهای تصمیم‌گیری این سیستم‌ها را به‌دقت بررسی کنیم چراکه نحوۀ «فکرکردن» این شبکه‌های عصبی مصنوعی ذاتاً با انسان متفاوت است. این نوع تفکر محصول نوعی نظم‌دهیِ بسیار پیچیده و ریاضیاتی به جهان است و در تضاد با روش تاریخی و هیجانی‌ای است که ما انسان‌ها از آن برای نظم‌دادن به افکارمان استفاده می‌کنیم. کرانگس رؤیایی است که از دل مدل‌سازی هوش مصنوعی دربارۀ جهان پدیدار شده است، ترکیبی از میلیاردها ارجاعی که مرجعشان را فراموش کرده و، درقالب شخصیتی اسطوره‌ای، از تجربۀ انسانی فراتر رفته است. اتفاقاً خوب است و حتی می‌توان گفت شگفت‌انگیز است. اما این سؤال را به ذهن متبادر می‌کند که کرانگس رؤیای چه کسی است که به تصویر کشیده شده است؟ چه ترکیبی از فرهنگ انسانی، و با چه زاویۀ دیدی، به خلق چنین کابوسی انجامیده است؟
اتفاق مشابهی برای هنرمند دیجیتال دیگری افتاد که درحال آزمودن درخواست‌های منفی بود. درخواست منفی روشی است برای تولید آنچه از نظر سیستم نقطۀ مقابل چیزی است که برایش توضیح داده شده است. وقتی آن هنرمند عبارت «براندو::۱-» را وارد کرد سیستم تصویری تولید کرد که تاحدی شبیه به لوگوی شرکت سازندۀ بازی‌های ویدئویی به نام دیجیتا پنتیکس بود. اینکه تصویر ایجاد‌شده در نگاه چندبعدی سیستم برعکس تصویر مارلون براندو باشد تا حدودی قابل فهم به نظر می‌رسد. او در ادامه سعی کرد بررسی کند که آیا سیستم می‌تواند مسیر برعکس این را هم طی کند و درخواست «لوگوی دیجیتا پنتیکس که شبیه دورنمای شهر است::۱-» را وارد کرد و اینجا بود که اتفاق بسیار عجیب‌تری رخ داد. تمام تصاویر ساخته‌شده زنی ترسناک را نشان می‌دادند با چشمانی فرورفته و گونه‌های سرخ. آن هنرمند نام این شخصیت را گذاشت لوب. از آن زمان به بعد، به‌طرز غیرعادی و نگران‌کننده‌ای، انگار لوب قصد رفتن نداشت و هر بار که تصویر ساخته‌شدۀ او را دوباره، در ترکیب با درخواستِ متنیِ به‌ظاهر متفاوتی، به سیستم برمی‌گرداند سیستم در جواب باز هم تصویر لوب را ترسیم می‌کرد و هربار، به‌شکلی کابوس‌وار، خونین‌تر، زخمی‌تر و خشن‌تر.
یکی از توضیحاتی که برای لوب و احتمالاً کرانگس می‌توان ارائه داد ازاین‌قرار است: هرچند درک سازوکارِ تخیل ماشین بسیار بسیار دشوار است، می‌توان آن را به صورت شکل یا فرمی در نظر گرفت که قرار نیست کاملاً صاف یا گرد باشد، بلکه پستی‌وبلندی‌ها و قله‌ها و دره‌هایی دارد، بخش‌هایی پر از اطلاعات و بخش‌هایی فاقد ویژگی‌های زیاد. آن بخش‌هایی که پر از اطلاعات است به شبکه‌هایی از اطلاعات مربوط می‌شود که سیستم مطالب زیادی دربارۀ آن «می‌داند». مثلاً می‌توان نواحی مرتبط با صورت انسان، ماشین‌ها و گربه‌ها را به‌عنوان نمونه‌ای از این موضوع تصور کرد که، با توجه به توزیع گستردۀ تصاویری که می‌توان در سرتاسر اینترنت از آن‌ها پیدا کرد، سیستم اطلاعات زیادی دربارۀ آن‌ها دارد.
این‌ها همان ناحیه‌هایی هستند که نرم‌افزارهای هوش مصنوعی هنگام تولید تصاویرشان به‌شدت روی آن تکیه می‌کنند. اما جاهای دیگری از شکل هم هستند که کمتر دیده شده‌اند و موقع ساخت تصویر بر اساس درخواست‌های منفی، یا حتی عبارات مهمل، نوبت به آن‌ها می‌رسد. ماشین برای پاسخ به چنین درخواست‌هایی باید بر پیوندهای مبهم‌تر و غیرمتقن‌تر شبکۀ عصبی‌اش تکیه کند و شاید حتی استنتاجش را بر اساس کلیت آنچه می‌داند متضادش چه می‌تواند باشد انجام دهد. و این سرزمینی است که امثال لوب و کرانگس را می‌توان در آن پیدا کرد.
نظریۀ قانع‌کننده‌ای است اما سؤالات ناراحت‌کننده‌ای را پیش روی ما قرار می‌دهد. مثل اینکه چرا کرانگس و لوب این‌شکلی هستند، یعنی چرا به‌سمت وحشت و خشونت می‌روند و چرا به کابوس می‌مانند. به نظر می‌رسد نرم‌افزارهای هوشمند تولید تصاویر، در تلاششان برای درک و تکثیر کلیت فرهنگ بصری انسان‌ها، تاریک‌ترین ترس‌های ما را بازآفرینی کرده‌اند. شاید این فقط نشانه‌ای باشد بر اینکه این سیستم‌ها درواقع در تقلید هشیاری انسان خیلی خوب عمل می‌کنند و تا حد وحشتی که در اعماق هستی‌مان کمین کرده است، یعنی ترس از پلیدی، مرگ و فساد، پیش رفته‌اند. و دراین‌صورت باید بپذیریم که این‌ها مؤلفه‌های ثابتی از ماشین‌هایی هستند که ما آن‌ها را به‌شکل خودمان ساخته‌ایم. هیچ گریزی از این دل‌مشغولی‌ها و خطرات و هیچ راهی برای تعدیل و مهندسی واقعیت وضعیت انسانی وجود ندارد. ناپاکی و بیزاری از زندگی و مرگ با ما باقی خواهد ماند و ما ناگزیر از پرداختن به آن هستیم، درست همان‌طور که امید، عشق، شادی و میل به اکتشاف با ما خواهند ماند.
این موضوع مهم است، چراکه تولیدکنندگان هوشمند تصاویر هرآنچه فناوری‌های قبلی انجام داده‌اند را انجام خواهند داد اما یک قدم از آن‌ها فراتر خواهند رفت. این سیستم‌ها سوگیری‌ها و پیش‌داوری‌های سازندگان خود را بازتولید خواهند کرد، مثل وب‌کم‌هایی که فقط چهرۀ سفیدپوستان را تشخیص می‌دهند یا سیستم‌های پیشگویی جُرم پلیس که متمرکز می‌شوند روی محله‌های کم‌درآمد. علاوه‌برآن، سیستم‌های هوشمند تولید تصاویرْ سطح بازی را نیز ارتقا خواهند داد، یعنی حالا دیگر معیار عملکرد هوش مصنوعی دارد از حوزۀ محدودِ حل معماها و چالش‌ها -مثل بازی شطرنج یا بازیِ گو و یا تبعیت از قوانین ترافیکی- به قلمرو بسیار وسیع‌ترِ تخیل و خلاقیت تغییر می‌کند.
هرچند صحبت از «خلاقیت» هوش مصنوعی ممکن است اغراق‌آمیز باشد -چون درواقع هیچ اصالتی در تصاویر تولیدشده وجود ندارد و هرچه هست تقلید و تکرار بسیار ماهرانه است- اما این به آن معنی نیست که هوش مصنوعی نمی‌تواند از پسِ انجام بسیاری از کارهای معمول «هنرمندانه‌ای» برآید که از دیرباز گمان می‌کردیم فقط هنرمندان مجرب می‌توانند انجامشان دهند، از تصویرگران و طراحان گرافیک گرفته تا نوازندگان، فیلم‌برداران و درواقع حتی نویسندگان. با تغییر بزرگی مواجه شده‌ایم. هوش مصنوعی اکنون سراغ تجربه‌های اساسیِ احساس، هیجان و خُلق رفته و این کار این امکان را برایش فراهم می‌کند که جهان را در سطوحی حتی عمیق‌تر و متقاعدکننده‌تر شکل داده و بر آن تأثیر بگذارد.
اُپن اِی‌آی در نوامبر ۲۰۲۲ از چت‌جی‌پی‌تی رونمایی کرد و درک ما از نحوۀ تعامل هوش مصنوعی و خلاقیت انسان را بیش‌ازپیش تغییر داد. چت‌جی‌پی‌تی که، از نظر ساختاری، ربات مکالمه است (نرم‌افزاری که مکالمات انسانی را تقلید می‌کند) قابلیت‌هایی به‌مراتب فراتر از مکالمه دارد. اگر درخواست درستی به آن داده شود قادر است کد‌های کامپیوتری‌ای بنویسد که کار می‌کنند؛ مسائل ریاضی را حل کند؛ فعالیت‌های معمول نویسندگی، از نقد کتاب گرفته تا نوشتن مقاله‌های علمی، متن سخنرانی عروسی و نوشتن قراردادهای قانونی، را تقلید کند.
به‌وضوح می‌توان دریافت که این برنامه برای آن‌هایی که در نوشتن متن ایمیل یا مقاله مشکل دارند چه موهبتی محسوب می‌شود اما، از سوی دیگر، همین برنامه و همچنین برنامه‌های هوشمند تولید تصاویر می‌توانند جایگزین کسانی شوند که از این کارها امرار معاش می‌کنند. همین الان خیلی از مدارس و دانشگاه‌ها سیاست‌هایی را در منع استفاده از چت‌جی‌پی‌تی وضع کرده‌اند، چون نگران‌اند که دانش‌آموزان و دانشجوها مقاله‌هایشان را با کمک این برنامه بنویسند. مجلۀ علمی نیچر هم مجبور شده است سیاست‌نامه‌ای منتشر کند و توضیح دهد که چرا نمی‌توان نام این نرم‌افزار را در فهرست نویسندگان مقالات درج کرد (چون این برنامه نمی‌تواند رضایت‌نامه را امضا کند و نمی‌تواند مسئولیت محتوای مقاله را بر عهده بگیرد). اما خودِ این مؤسسات هم از استفادۀ نادرست از این ابزار در امان نیستند. در ماه فوریه، دانشکدۀ آموزش و توسعۀ انسانیِ پی‌بادی در دانشگاه وندربیلت ایالت تنسی در پیِ حادثۀ تیراندازی در میشیگان پیامی را برای همدردی و ارائۀ توصیه‌هایی به دانشجویان منتشر کرد که دانشجویان از خواندنش شوکه شدند. هرچند محتوای نامه دربارۀ ارزش جامعه، احترام متقابل و باهم‌بودن بود، اما پایین متن نوشته شده بود که این نامه به‌وسیلۀ چت‌جی‌پی‌تی تولید شده است. خیلی‌ها این کار را خلاف اخلاق و به‌نوعی اشتباه و غیرعادی دانستند؛ به نظر می‌رسد حوزه‌هایی در زندگی وجود دارد که میانجیگری ماشین‌ها در آن‌ها نیازمند تعمق بیشتری است.
پس حالا که جایگزینیِ کامل ارتباطات انسانی با چپ‌جی‌پی‌تی کار نامناسبی است یکی از روندهای مشخصی که شکل گرفته تلاش برای استفاده از چت‌جی‌پی‌تی به‌عنوان نوعی دستیار خردمند است که می‌تواند ما را، در میان باتلاق دانش موجود، به‌سمت اطلاعاتی که دنبالش هستیم هدایت کند. مایکروسافت یکی از اولین شرکت‌هایی بود که به این سمت حرکت کرد و تنظیمات موتور جست‌وجوی بینگ، که بیشترِ کاربران خیلی تحویلش نمی‌گرفتند، را تغییر داد و آن را تبدیل کرد به ربات مکالمه‌ای که در پشت صحنه از چت‌جی‌پی‌تی استفاده می‌کرد و به این ترتیب تا حد زیادی به محبوبیت بینگ افزود. به‌رغم تب‌وتاب اینترنتی (و ژورنالیستی) فعلی برای مشورت‌گرفتن از چت‌جی‌پی‌تی در تقریباً تمام مشکلات، اصلِ رابطۀ این نرم‌افزار با دانش در وضعیت نسبتاً متزلزلی قرار دارد.
اخیراً از چت‌جی‌پی‌تی خواستم تا تعدادی کتاب در موضوع موردعلاقۀ جدیدم به من معرفی کند. موضوع موردنظر عبارت بود از مردم‌سالاریِ چندگونه‌ای 3، یعنی ایدۀ استفاده از مخلوقات غیرانسانی در فرایند تصمیم‌گیری‌های سیاسی. تقریباً می‌توان گفت مفیدترین کاربرد این ابزار همین است که به او بگویی «هی، الان دارم به فلان موضوع فکر می‌کنم. می‌توانی اطلاعات بیشتری راجع به‌ش به من بدهی؟» و چت‌جی‌پی‌تی هم از خدایش است که این کار را برایمان انجام دهد. من هم سؤالم را پرسیدم و او فهرستی از کتاب‌هایی را معرفی کرد که به‌صورت عمیق به بررسی این حوزۀ جدید می‌پرداختند و، با زبان متقاعدکنندۀ انسانی برایم توضیح داد که چرا باید حتماً این کتاب‌ها را بخوانم. عملکردش درخشان بود! به‌جز اینکه بعداً کاشف به عمل آمد که تنها یکی از چهار کتابی که معرفی کرده در واقعیت وجود دارد و تعداد زیادی از مفاهیمی که چت‌جی‌پی‌تی فکر می‌کرد باید بیشتر دربارۀ شان مطالعه کنم درواقع کلاً از پروپاگاندای جناح راست گرفته شده بود. مثلاً برایم توضیح داد که جنبش «استفادۀ خردمندانه» درصدد ترویج حقوق حیوانات است، درحالی‌که درحقیقت این جنبش یک مفهوم آزادی‌خواهانه و ضدمحیط‌زیستی است که گسترش حقوق مالکیت را دنبال می‌کند.
حالا علت این اتفاق این نبود که چت‌جی‌پی‌تی ذاتاً راست‌گراست، بلکه علتش این بود که این نرم‌افزار ذاتاً احمق است. چت‌جی‌پی‌تی اکثر محتوای اینترنت را خوانده است و می‌داند که زبان انسان‌ها قرار است چطور باشد، اما این برنامه ابداً نسبتی با واقعیت ندارد. این جملاتِ رؤیایی اوست که به نظر درست می‌آید و گوش‌دادن به صحبت‌های او حقیقتاً به‌اندازۀ گوش‌دادن به رؤیاهای یک نفر جالب است. این برنامه در تولید خروجی‌ای که منطقی به نظر برسد خیلی خوب عمل می‌کند و از آن بهتر در تولید مطالب کلیشه‌ای، مبتذل و غیراصیل، چراکه این‌گونه مطالب بخش عمدۀ خوراک ورودی آن را تشکیل می‌دهد. اما این نرم‌افزار هنوز نمی‌تواند ارتباط معناداری با دنیا، همان‌گونه که واقعاً هست، برقرار کند. به هرکس که وانمود می‌کند چت‌جی‌پی‌تی بویی، هرچند غیردقیق، از شعور و هشیاری 4 برده است اعتماد نکنید (زمانی که این مطلب را برای انتشار آماده می‌کردیم اُپن اِی‌آی نسخۀ جدیدی از سیستمی که چت‌جی‌پی‌تی بر اساس آن کار می‌کند را منتشر کرد و اعلام کرد که «احتمال کمتری وجود دارد که این برنامه حقایق را تولید کند»).
باور به اینکه این نوع نرم‌افزارهای هوش مصنوعی واقعاً دانا و معنادار هستند جداً خطرناک است. خطرات این باور می‌تواند چشمۀ تفکر جمعی ما، و اساساً توانایی تفکر ما، را مسموم کند. اگر، همان‌طور که شرکت‌های حوزۀ فناوری اعلام کرده‌اند، قرار باشد در آینده نتایج درخواست‌های ارائه‌شده به چت‌جی‌پی‌تی به‌عنوان جواب به کسانی ارائه شود که در اینترنت به‌دنبال کسب اطلاعات هستند و اگر، همان‌طور که برخی مفسران می‌گویند، قرار باشد در آینده از چت‌جی‌پی‌تی در کلاس‌های درس به‌عنوان دستیار آموزشی استفاده شود، دراین‌صورت توهمات این نرم‌افزار رسمیت پیدا خواهد کرد و به‌عنوان حائلی بین ما و منابع اطلاعاتیِ موثق‌تر و آزمودنی‌تر قرار خواهد گرفت و به‌مرور زمان مرز بین این توهمات هوش مصنوعی و آن محتواهای موثق رفته‌رفته محو و محوتر می‌شود، تا جایی که سرانجام این دو از هم قابل‌تشخیص نخواهند بود. علاوه‌برآن، هیچ زمانی به‌اندازۀ امروز ضروری نبوده که ما توانایی تحقیق و ارزیابیِ نقادانۀ دانش را داشته باشیم، به‌ویژه به دلیل آسیبی که شرکت‌های حوزۀ فناوری به نحوۀ انتشار اطلاعات وارد کرده‌اند. اعتماد کامل به رؤیاهای ماشینی که به‌غلط برنامه‌ریزی شده است به‌منزلۀ کنارگذاشتن کامل چنین تفکر نقادانه‌ای است.
فناوری‌های هوش مصنوعی برای کرۀ زمین هم مضرند. فرایند آموزش‌دادن به تنها یک مدل هوش مصنوعی -طبق پژوهشی که در سال ۲۰۱۹ به چاپ رسید- می‌تواند باعث انتشار بیش از ۲۸۴ تن دی‌اکسید کربن شود که تقریباً پنج برابر کل دی‌اکسید کربنی است که در طول عمر یک خودرو متوسط آمریکایی، از مرحلۀ تولید تا پایان فعالیتش، منتشر می‌شود. انتظار می‌رود میزان این نوع انتشار دی‌اکسیدن کربن طی پنج سال آینده حدود ۵۰ درصد افزایش یابد، آن هم در شرایطی که سیارۀ ما مدام گرم‌تر می‌شود، آب اقیانوس‌ها اسیدی‌تر می‌شود، جنگل‌ها آتش می‌گیرند، اَبَرتوفان‌ها به راه می‌افتند و گونه‌های بیشتری به‌سمت انقراض می‌روند. هیچ چیز نابخردانه‌تر از وضع به‌کارگیری فعلیِ هوش مصنوعی در عصر حاضر نیست.
حالا بیایید یک قدم به عقب برگردیم. اگر مصادیق فعلیِ «هوش مصنوعی» تا این حد ناامیدکننده‌اند، آیا جایگزینی برای آن‌ها وجود دارد؟ آیا می‌توان فناوری‌های قدرتمندی برای مرتب‌سازی و تبادل اطلاعات تصور کرد که ما را استثمار نکند، از ما سوءاستفاده نکند، گمراهمان نکند و جای ما را نگیرد؟ بله می‌توان، به شرطی که بتوانیم از شبکه‌های قدرتِ شرکت‌هایی که موج فعلی هوش مصنوعی را تعریف کرده‌اند خارج شویم.
درحقیقت همین الان هم نمونه‌هایی از هوش مصنوعی وجود دارد که، با دورزدن قدرتِ ریشه‌دار شرکت‌ها، به نفع جوامع خاصی استفاده می‌شوند. همه‌جای دنیا زبان‌های بومی در معرض تهدید قرار دارند. سازمان ملل متحد تخمین زده که هر دو هفته یکی از این زبان‌ها از بین می‌رود و نسل‌ها دانش و تجربه را هم با خودش می‌برد. این مشکل، که نتیجۀ سیاست‌های استعماری و همسان‌سازی‌های نژادپرستانۀ چند قرن اخیر است، بر اثر غلبۀ روزافزون مدل‌های زبانیِ مبتنی بر یادگیری ماشینی تشدید شده است. این مدل‌های هوشمند باعث می‌شوند که قدرت زبان‌های رایج بیشتر شود و، از سوی دیگر، زبان‌های کمترشناخته‌شده کمتر از قبل در معرض دید قرار گرفته و استفاده شوند.
در منطقۀ آو‌تی‌روآ در نیوزلند یک ایستگاه رادیویی غیرانتفاعی به نام ته هیکو مدیا، که برنامه‌هایش را به زبان مائوری پخش می‌کند، تصمیم می‌گیرد برای این نابرابری در بازنمایی زبان‌های مختلف در دنیای فناوری راه حلی پیدا کند. بایگانی عظیم این ایستگاه رادیویی که حاصل ۲۰ سال انتشار برنامه بود گسترۀ وسیعی از اصطلاحات و عبارت‌های محاوره‌ای و منحصربه‌فردی را شامل می‌شد که خیلی از آن‌ها را دیگر هیچ انسان زنده‌ای استفاده نمی‌کرد. آن‌ها این بایگانی صوتی بزرگ را قبلاً دیجیتالی کرده بودند، اما لازم بود آن فایل‌های صوتی تبدیل به متن شوند تا برای پژوهشگران حوزۀ زبان و جامعۀ مائوری قابل‌استفاده شود. آن‌ها برای حل این مشکل تصمیم گرفتند مدل هوشمند تشخیصِ گفتارِ اختصاصیِ خودشان را آموزش دهند تا بتواند به فایل‌های صوتی موجود در بایگانی «گوش دهد» و آن‌ها را به متن تبدیل کند.
ته هیکو مدیا، طی پنج سال، با استفاده از فناوری‌های متن‌باز و نرم‌افزارهایی که خودشان توسعه داده بودند توانست تقریباً غیرممکن را ممکن کند، یعنی توانست به سیستم تشخیص گفتار بسیار دقیقی برای زبان مائوری دست پیدا کند که به‌وسیلۀ جامعۀ مربوط به همان زبان ساخته شده بود و مالکیتش هم متعلق به خودِ آن جامعه بود. کاری که آن‌ها موفق به انجامش شدند چیزی فراتر از تلاش برای تولید نرم‌افزار بود. آن‌ها با تمام گروه‌های اجتماعیِ مائوری که می‌توانستند تماس گرفتند و از آن‌ها خواستند عبارت‌های از پیش نوشته‌شده‌ای را بخوانند و صدای خودشان را ضبط کنند تا از آن برای گردآوری پیکره‌ای از گفتارِ همراه با توضیحات استفاده کنند. تولید این پیکره شرط لازم برای آموزش مدل هوش مصنوعی آن‌ها به حساب می‌آمد.
آن‌ها برای کسی که بیشترین جملات را ضبط و ارسال کند جایزۀ نقدی تعیین کردند -و یکی از کنشگران به نام ته میهینگا کومن به‌تنهایی ۴ هزار عبارت را ضبط کرد- اما گردانندگان این برنامه متوجه شدند که بزرگ‌ترین انگیزه برای مشارکت‌کنندگان چشم‌انداز مشترک احیای این زبان و حفظ مالکیت آن برای جامعۀ مائوری است. آن‌ها طی چند هفته توانستند مدلی بسازند که می‌توانست گفتارهای ضبط‌شده را با دقت ۸۶ درصد تشخیص دهد که فراتر از حداقل دقت لازم برای شروع تبدیل کل بایگانی‌شان به متن بود.
موفقیت این ایستگاه رادیویی راه را به سایر گروه‌های بومی نشان داد و حالا مردمان موهاوک در جنوب شرقی کانادا و بومی‌های هاوایی پروژه‌های مشابهی را شروع کرده‌اند. این کار همچنین توانست اصل حق حاکمیت داده‌ها را برای زبان‌های بومی، و در ادامۀ مسیر، برای سایر اَشکال دانش بومی جا بیندازد. هنگامی که شرکت‌های تجاری بین‌المللی خودشان را به گویندگان مائوری نزدیک کردند، تا به آن‌ها در ساخت مدلشان کمک کنند، ته هیکو مدیا کارزاری علیه این اقدام آن‌ها به راه انداخت با این استدلال که «این شرکت‌ها زبان ما را سرکوب کرده‌اند و با زور آن را از چنگ اجدادمان درآورده‌اند و حالا می‌خواهند زبان خودمان را به‌عنوان یک خدمت جدید به خودمان بفروشند».
که‌اونی ماهه‌لونا، بومی هاوایی و یکی از هم‌بنیان‌گذاران رادیوی ته هیکو ودیا، می‌نویسد «داده‌ها آخرین مرز استعمارند». تمام کارهای ته هیکو تحت مجوزی به نام کای‌تی‌آکی‌تانا منتشر شد، قانونی دربارۀ قیمومیت و حفاظت از داده‌ها که تضمین می‌کند تمام داده‌هایی که وارد مدل هوشمند یک زبان و سایر پروژه‌ها می‌شوند تحت مالکیت جامعه‌ای که آن را ایجاد کرده باقی خواهند ماند که، در این مورد، منظور از جامعه آن گویندگان زبان مائوری هستند که به پیشبرد این پروژه کمک کردند. طبق این مجوز تصمیم‌گیری دربارۀ اعطای این مجوز به دیگران هم، مطابق با تی‌کانا (رسوم و پروتکل مائوری)، بر عهدۀ خود آن جامعه خواهد بود. آن‌ها، با اتخاذ این روش، هم زبان مائوری را احیا کردند و هم در برابر سیستم‌های استعمار دیجیتالی که ادامه‌دهندۀ قرن‌ها ظلم و ستم بودند ایستادگی کرده و آن‌ها را تغییر دادند.
به نظرم درسی که از موج فعلی «هوش مصنوعی» می‌توان گرفت این است که هوش در تصورات شرکت‌های تجاری چیزی ناقص و معیوب است. وقتی در جهان‌بینی شما بیشینه‌کردن سود افضلِ فضائل باشد و عیار هر چیز با معیارِ ارزش سهام‌داران سنجیده شود جای تعجب نیست که هنرمندی‌تان، تخیلاتتان، زیبایی‌شناسی‌تان و ابرازهای هیجانی‌تان به‌طرز اسفناکی ضعیف و درمانده باشد. ما در ابزارهایی که از آن استفاده می‌کنیم، رسانه‌هایی که مخاطبشان هستیم و جوامعی که درشان زندگی می‌کنیم لیاقتمان بیش از این‌هاست و تنها زمانی به آنچه لیاقتش را داریم می‌رسیم که قادر باشیم به‌طور کامل در آن‌ها مشارکت کنیم و اینکه دیگر مرعوب آن‌ها نشویم، چون واقعاً آن‌قدرها که به نظر می‌رسد پیچیده نیستند. به‌قول اسطورۀ کتاب‌های علمی‌تخیلی، اورسولا کِی لی گویین، « فناوریْ هر کاری است که می‌توانیم انجام‌دادنش را یاد بگیریم».

* این مطلب برشی است از کتاب New Dark Age نوشتۀ جیمز برایدل.

پاورقی:
1. prompt engineering: منظور از پرامپت متن درخواست یا دستوری است که به نرم‌افزارهای هوش مصنوعی داده می‌شود [مترجم].
2. cryptid: موجودات اغلب ترسناکی که در فرهنگ عوام به آن‌ها اشاره شده اما وجودشان هیچ‌گاه از نظر علمی تأیید نشده است [مترجم].
3. multi-species democracy
4. consciousness