مقدمه: قدرت هوش مصنوعی بر روی کامپیوتر شما
اجرای محلی (Local) مدلهای هوش مصنوعی بر روی کامپیوتر شخصی، به سرعت در حال تبدیل شدن به گزینهای جذاب برای کاربران حرفهای و علاقهمندان است. این رویکرد به دلیل مزایای کلیدی مانند حفظ کامل حریم خصوصی دادهها، عدم وجود هزینههای مستمر اشتراک و قابلیت سفارشیسازی بینظیر، قدرتی استثنایی را در اختیار شما قرار میدهد. دیگر نیازی نیست برای هر پردازش، اطلاعات خود را به سرورهای خارجی ارسال کنید؛ همه چیز تحت کنترل شما و بر روی سختافزار شما باقی میماند.
این مقاله به دو حوزه اصلی از مدلهای هوش مصنوعی اوپن سورس میپردازد: مدلهای زبانی بزرگ (LLMs) برای تولید، تحلیل و تعامل با متن، و مدلهای تولید تصویر (Stable Diffusion) برای خلق آثار بصری خیرهکننده. در هر بخش، ابزارهای کلیدی معرفی شده و راهنمای نصب آنها ارائه خواهد شد.
برای ورود به این دنیای هیجانانگیز، اولین و مهمترین قدم، درک پیشنیازهای سختافزاری است؛ چرا که انتخاب صحیح سختافزار، تضمینکننده یک تجربه روان و کارآمد خواهد بود.
——————————————————————————–
بخش ۱: پیشنیازهای سختافزاری برای ورود به دنیای هوش مصنوعی محلی
پیش از انتخاب نرمافزار و دانلود مدلها، درک نیازمندیهای سختافزاری، کلیدیترین قدم برای یک تجربه روان و کارآمد است. اگرچه بسیاری از ابزارها قابلیت اجرا بر روی پردازنده مرکزی (CPU) را نیز دارند، اما سرعت و عملکرد آنها به شدت به قدرت کارت گرافیک (GPU) و به خصوص حافظه آن (VRAM) وابسته است. سرمایهگذاری بر روی سختافزار مناسب، تفاوت میان یک فرآیند تولید خلاقانه و یک تجربه کند و خستهکننده را رقم میزند.
مؤلفههای سختافزاری حیاتی
- کارت گرافیک (GPU) و حافظه آن (VRAM): این مؤلفه، مهمترین عامل در اجرای محلی مدلهای هوش مصنوعی است. مدلهای هوش مصنوعی، بهویژه مدلهای بزرگ، به شدت حافظهمحور هستند. داشتن VRAM کافی از انتقال پردازش به رم سیستم که بسیار کندتر است، جلوگیری کرده و سرعت تولید را به شکل چشمگیری افزایش میدهد. به عنوان یک قاعده کلی، برای عملکرد روان، به فضایی در حدود ۱.۲ برابر حجم فایل مدل در VRAM نیاز دارید. این بدان معناست که یک مدل ۷ میلیارد پارامتری کوانتایز شده با حجم تقریبی ۵ گیگابایت، برای اجرای بهینه به حدود ۶ گیگابایت VRAM نیاز خواهد داشت. در صورت کمبود VRAM، سیستم مجبور به استفاده از رم اصلی میشود که سرعت پردازش را به شدت کاهش داده و تجربه کاربری را مختل میکند.
- حافظه رم (RAM): حداقل ۸ گیگابایت رم برای اکثر ابزارها ضروری است، اما برای اجرای روانتر مدلهای بزرگتر و جلوگیری از کندی سیستم، ۱۶ گیگابایت یا بیشتر به شدت پیشنهاد میشود. رم کافی به سیستم اجازه میدهد تا دادههای مورد نیاز را به سرعت پردازش کند، بهویژه زمانی که VRAM کارت گرافیک پر میشود.
- پردازنده (CPU) و فضای ذخیرهسازی: اگرچه میتوان مدلهای کوچک را تنها با استفاده از CPU اجرا کرد، اما این کار به شدت کند خواهد بود و تجربه کاربری مطلوبی را به همراه نخواهد داشت. همچنین، به یاد داشته باشید که مدلهای هوش مصنوعی حجم بالایی دارند و ممکن است دهها یا حتی صدها گیگابایت از فضای ذخیرهسازی شما را اشغال کنند. بنابراین، داشتن فضای کافی، بهویژه بر روی یک حافظه SSD، برای مدیریت و بارگذاری سریع مدلها ضروری است.
جدول مقایسهای سیستم مورد نیاز برای رابطهای کاربری تولید تصویر
در جدول زیر، نیازمندیهای سختافزاری برای چهار رابط کاربری محبوب Stable Diffusion، بر اساس اطلاعات مقاله «حداقل سیستم مورد نیاز رابط کاربری در استیبل دیفیوژن» از وبسایت کافه آرتک، مقایسه شده است.
| رابط کاربری | حداقل سیستم مورد نیاز | سیستم پیشنهادی |
| Automatic1111 | CPU: چهار هستهای (Intel Core i5/AMD Ryzen 5)<br>RAM: ۸ گیگابایت<br>GPU: NVIDIA GTX 1050 (حداقل ۴ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۱۰ گیگابایت | CPU: هشت هستهای (Intel Core i7/AMD Ryzen 7)<br>RAM: ۱۶ گیگابایت یا بیشتر<br>GPU: NVIDIA RTX 3060 (حداقل ۸ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۲۰ گیگابایت |
| Fooocus | CPU: چهار هستهای (Intel Core i5/AMD Ryzen 5)<br>RAM: ۸ گیگابایت<br>GPU: NVIDIA GTX 1060 (حداقل ۶ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۱۰ گیگابایت | CPU: شش هستهای (Intel Core i7/AMD Ryzen 7)<br>RAM: ۱۶ گیگابایت یا بیشتر<br>GPU: NVIDIA RTX 3060 (حداقل ۱۲ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۲۰ گیگابایت |
| ComfyUI | CPU: چهار هستهای (Intel Core i5/AMD Ryzen 5)<br>RAM: ۸ گیگابایت<br>GPU: NVIDIA GTX 1060 (حداقل ۶ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۱۰ گیگابایت | CPU: هشت هستهای (Intel Core i7/AMD Ryzen 7)<br>RAM: ۱۶ گیگابایت یا بیشتر<br>GPU: NVIDIA RTX 3060 (حداقل ۱۲ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۲۰ گیگابایت |
| Forge | CPU: چهار هستهای (Intel Core i5/AMD Ryzen 5)<br>RAM: ۸ گیگابایت<br>GPU: NVIDIA GTX 1050 (حداقل ۴ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۸ گیگابایت | CPU: شش هستهای (Intel Core i7/AMD Ryzen 7)<br>RAM: ۱۶ گیگابایت یا بیشتر<br>GPU: NVIDIA RTX 2060 (حداقل ۶ گیگابایت VRAM)<br>فضای ذخیرهسازی: ۱۵ گیگابایت |
با شناخت کافی از پیشنیازهای سختافزاری، اکنون آمادهایم تا به بررسی نرمافزارهای اجرای مدلهای زبانی بزرگ بپردازیم و ببینیم چگونه میتوان قدرت آنها را به صورت محلی در اختیار گرفت.
——————————————————————————–
بخش ۲: اجرای مدلهای زبانی بزرگ (LLMs) به صورت محلی
مدلهای زبانی بزرگ (LLMs) مانند ChatGPT، انقلابی در نحوه تعامل ما با اطلاعات و تولید محتوا ایجاد کردهاند. خوشبختانه، ابزارهای مدرن و کاربرپسند، اجرای نسخههای اوپن سورس این مدلها را بر روی کامپیوترهای شخصی ممکن ساختهاند. این ابزارها به شما اجازه میدهند تا بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی، از یک دستیار هوش مصنوعی قدرتمند بهرهمند شوید.
معرفی و مقایسه سه ابزار اصلی
در ادامه، سه ابزار کلیدی برای اجرای محلی LLMها معرفی و مقایسه میشوند. این توضیحات منحصراً بر اساس مقاله “How to Run a Local LLM on Windows in 2025” تهیه شده است.
- LM Studio (سادهترین راه): این ابزار بهترین گزینه برای کاربران غیرفنی است که به دنبال یک تجربه ساده و بدون نیاز به خط فرمان هستند. LM Studio یک رابط کاربری گرافیکی (GUI) تمیز ارائه میدهد که شامل یک مرورگر داخلی برای جستجو و دانلود مستقیم مدلها از پلتفرم Hugging Face است. همچنین، این ابزار یک سرور محلی داخلی با API سازگار با OpenAI راهاندازی میکند که به شما اجازه میدهد تا از مدلها در اسکریپتها و برنامههای خود نیز استفاده کنید.
- Ollama (گزینه محبوب توسعهدهندگان): این ابزار با نصب سبک و دستورات بسیار ساده در ترمینال، تجربهای سریع و کارآمد را فراهم میکند. با دستوری مانند
ollama run llama3.1، میتوانید به سرعت یک مدل را اجرا کرده و با آن در محیط ترمینال چت کنید. Ollama همچنین یک سرور محلی در آدرسhttp://localhost:11434راهاندازی میکند که به خوبی با رابطهای کاربری وب مانند Open WebUI ادغام میشود و انعطافپذیری بالایی را برای توسعهدهندگان به ارمغان میآورد. - llama.cpp (برای کاربران حرفهای): اگر به دنبال حداکثر کنترل، کمترین سربار (Overhead) و بهینهترین عملکرد هستید، llama.cpp بهترین انتخاب است. این ابزار که با زبان C/C++ نوشته شده، برای اجرای بهینه مدلهای کوانتایز شده با فرمت GGUF طراحی شده است. این فرمت با کوانتایز کردن (کاهش دقت) وزنهای مدل، حجم آن را به شکل چشمگیری کاهش میدهد و اجرای مدلهای بزرگ و قدرتمند را حتی روی سختافزارهای مصرفی با VRAM محدود ممکن میسازد.
راهنمای نصب مختصر
در ادامه، راهنمای نصب گامبهگام و مختصر برای دو ابزار کاربرپسند LM Studio و Ollama ارائه میشود.
نصب LM Studio
- فایل نصب LM Studio برای ویندوز را از وبسایت رسمی آن دانلود و نصب کنید.
- برنامه را باز کرده و از بخش “Discover”، مدل مورد نظر خود را (مانند “llama”، “qwen” یا “phi”) جستجو و روی “Download” کلیک کنید.
- پس از اتمام دانلود، روی “Run” کلیک کنید تا بتوانید بلافاصله با مدل چت کنید.
نصب Ollama
- فایل نصب Ollama برای ویندوز را از وبسایت رسمی آن دانلود و اجرا کنید. این ابزار در پوشه کاربری شما نصب میشود و نیازی به دسترسی ادمین ندارد.
- یک پنجره ترمینال یا PowerShell باز کرده و دستور اجرای مدل مورد نظر خود را وارد کنید. برای مثال:
- بلافاصله یک محیط چت تعاملی در ترمینال برای شما فعال میشود. برای استفاده از مدلهای دیگر، کافی است نام آن را جایگزین
llama3.1کنید (مانندmistralیاgemma2).
با اجرای موفقیتآمیز اولین مدل زبانی بر روی سیستم خود، حال آمادهاید تا وارد دنیای جذاب و خلاقانه تولید تصویر با هوش مصنوعی شوید.
——————————————————————————–
بخش ۳: اجرای مدلهای تولید تصویر (Stable Diffusion) به صورت محلی
مدل Stable Diffusion به عنوان قدرتمندترین و محبوبترین مدل اوپن سورس برای تولید تصویر شناخته میشود که به کاربران اجازه میدهد آثار بصری خیرهکنندهای را تنها با نوشتن چند کلمه خلق کنند. با این حال، تجربه کار با این مدل و کیفیت خروجی نهایی، به شدت تحت تأثیر رابط کاربری (UI) است که انتخاب میکنید. هر رابط کاربری، فلسفه طراحی و مجموعهای از ابزارهای منحصربهفرد خود را دارد که برای نیازهای کاربران مختلف بهینه شده است.
معرفی و مقایسه رابطهای کاربری اصلی
در ادامه، چهار رابط کاربری اصلی برای Stable Diffusion معرفی و بر اساس پروفایلهای کاربری مختلف دستهبندی میشوند:
- Fooocus: بهترین گزینه برای مبتدیان و کاربرانی که به دنبال سادگی و نتایج سریع، شبیه به Midjourney هستند. این ابزار پیچیدگیها را پنهان کرده و تمرکز را بر روی پرامپتنویسی خلاقانه قرار میدهد.
- Automatic1111 (و Forge): به عنوان استاندارد صنعتی شناخته میشود و دارای بزرگترین جامعه کاربری و بیشترین تعداد افزونهها است. این رابط برای کاربرانی مناسب است که به دنبال تعادل بین سادگی و کنترل پیشرفته هستند. Forge نیز نسخهای بهینهسازی شده از آن است که با مدیریت بهتر حافظه، عملکرد سریعتری را ارائه میدهد.
- InvokeAI: برای کاربرانی که به یک تجربه کاربری زیبا و بصری اهمیت میدهند. این ابزار با طراحی مدرن و ابزارهای قدرتمندی مانند بوم یکپارچه (Unified Canvas)، حسی شبیه به نرمافزارهای ویرایش عکس حرفهای را القا میکند.
- ComfyUI: انتخاب کاربران حرفهای و هنرمندان فنی. این رابط کاربری مبتنی بر گره (Node-Based) به شما امکان میدهد تا گردشکارهای (Workflows) پیچیده بسازید و کنترل کاملی بر تمام مراحل تولید تصویر داشته باشید. این رویکرد، تکرارپذیری و شفافیت بینظیری را فراهم میکند.
——————————————————————————–
۳.۱. Fooocus: سادگی و قدرت میدجرنی، به صورت رایگان و محلی
فلسفه طراحی Fooocus، به حداقل رساندن پیچیدگیهای فنی و تمرکز کامل بر روی قدرت پرامپتنویسی است. این ابزار با پنهان کردن تنظیمات پیشرفته و بهینهسازی خودکار پرامپتها، به شما اجازه میدهد تا با کمترین تلاش، تصاویری با کیفیت بسیار بالا خلق کنید. این ویژگیها، Fooocus را به یک جایگزین رایگان و محلی عالی برای سرویسهایی مانند Midjourney تبدیل کرده است.
ویژگیهای کلیدی
- رابط کاربری بسیار ساده و مینیمال.
- کیفیت بالای خروجی با پرامپتهای کوتاه و ساده.
- نیاز کمتر به نوشتن پرامپتهای منفی (Negative Prompts) پیچیده.
راهنمای نصب مختصر
نصب Fooocus بسیار ساده است. مراحل زیر را بر اساس ویدیوی “آموزش نصب Fooocus” دنبال کنید:
- در گوگل عبارت “Fooocus” را جستجو کرده و وارد صفحه رسمی پروژه در GitHub شوید.
- در صفحه GitHub، به پایین اسکرول کرده تا به بخش دانلود برسید. روی لینک دانلود مستقیم برای ویندوز کلیک کنید تا فایل فشرده (با حجم حدود ۱.۸ گیگابایت) دانلود شود.
- پس از اتمام دانلود، فایل فشرده را در مکان دلخواه خود استخراج (Unzip) کنید.
- وارد پوشه استخراج شده شوید و فایل
run.batرا اجرا کنید. در اولین اجرا، برنامه به صورت خودکار مدل پایه (Juggernaut XL، با حجم حدود ۶.۶ گیگابایت) را دانلود خواهد کرد. پس از اتمام این فرآیند، رابط کاربری Fooocus در مرورگر شما باز خواهد شد.
——————————————————————————–
۳.۲. InvokeAI: رابط کاربری زیبا و تجربه بصری
InvokeAI با تمرکز بر پایداری و تجربه کاربری (UX)، خود را از سایر رابطهای کاربری متمایز میکند. این ابزار حسی شبیه به کار با نرمافزارهای ویرایش عکس حرفهای مانند فتوشاپ را ارائه میدهد و برای هنرمندان و کاربرانی که به یک محیط کاری زیبا و منظم اهمیت میدهند، ایدهآل است.
ویژگیهای برجسته
- رابط کاربری زیبا و بصری: طراحی مدرن، کاربرپسند و سازمانیافته که کار با آن را لذتبخش میکند.
- بوم یکپارچه (Unified Canvas): این ویژگی قدرتمند، قابلیتهای inpainting (ترمیم بخشی از تصویر) و outpainting (گسترش تصویر) را به شکلی بسیار ساده و کارآمد فراهم میکند. شما میتوانید به راحتی تصویر خود را بر روی یک بوم عملاً بینهایت گسترش دهید و با کنترل کامل، ترکیبات بصری پیچیدهای خلق کنید.
راهنمای نصب مختصر
مراحل نصب InvokeAI بر اساس ویدیوی “InvokeAI: BEST WebUI for Stable Diffusion?” به شرح زیر است:
- از صفحه رسمی InvokeAI، اسکریپت نصب مربوط به سیستمعامل خود (ویندوز) را دانلود کنید.
- فایل فشرده دانلود شده را استخراج کرده و فایل
install.batرا اجرا کنید. - یک پنجره ترمینال باز میشود و سوالاتی در مورد محل نصب و مدلهای مورد نیاز از شما پرسیده خواهد شد. به سوالات پاسخ دهید و منتظر بمانید تا فرآیند دانلود مدلها به پایان برسد.
- پس از اتمام نصب، فایل
invoke.batرا اجرا کنید تا سرور محلی راهاندازی شود. سپس آدرس نمایش داده شده در ترمینال را در مرورگر خود باز کنید تا وارد رابط کاربری شوید.
——————————————————————————–
۳.۳. ComfyUI: کنترل کامل با گردش کار مبتنی بر گره (Node-Based)
ComfyUI یک رابط کاربری کاملاً متفاوت است که به جای منوها و اسلایدرهای سنتی، از یک سیستم مبتنی بر گره (Node) استفاده میکند. این رویکرد به کاربران اجازه میدهد تا گردش کار تولید تصویر را به صورت بصری و ماژولار بسازند. این طراحی، منعکسکننده ابزارهای حرفهای مورد استفاده در صنعت جلوههای ویژه و گرافیک کامپیوتری (مانند Nuke یا گراف شیدر Blender) است و به همین دلیل برای هنرمندان فنی و متخصصان این حوزه، بسیار آشنا و کارآمد به نظر میرسد. این رویکرد، فرآیند تولید تصویر را از یک «جعبه سیاه» به یک خط لوله شفاف و قابل اشکالزدایی تبدیل میکند. این روش کنترل دقیق، شفافیت کامل و قابلیت بازتولید بینظیری را فراهم میکند، اما منحنی یادگیری آن برای مبتدیان تندتر است.
مزایا و معایب کلیدی
- مزایا:
- کنترل دقیق: کنترل کامل بر تمام مراحل تولید تصویر.
- قابلیت اشتراکگذاری: امکان ذخیره و اشتراکگذاری گردشکارها به صورت فایلهای JSON.
- بهینهسازی: عملکرد سریع و مصرف بهینه VRAM به دلیل پردازش تنها گرههای مورد نیاز.
- معایب:
- پیچیدگی اولیه: برای مبتدیان، درک منطق گرهها ممکن است چالشبرانگیز باشد.
- نیاز به دانش فنی: برای استفاده بهینه، نیاز به درک مفاهیم پایه Stable Diffusion دارید.
راهنمای نصب مختصر و حیاتی
نصب صحیح ComfyUI، بهویژه نصب ComfyUI Manager، کلید استفاده کارآمد از این ابزار قدرتمند است. مراحل زیر را با دقت دنبال کنید:
- پیشنیازها:
- نسخه پرتابل (Portable) ComfyUI را از صفحه رسمی GitHub آن دانلود کنید.
- Python نسخه ۳.۱۲ را از وبسایت رسمی پایتون دانلود کنید (توصیه میشود از نسخههای جدیدتر مانند ۳.۱۳ به دلیل احتمال ناسازگاری با برخی افزونهها، فعلاً استفاده نکنید).
- Git را از وبسایت رسمی آن دانلود کنید.
- نصب پیشنیازها:
- ابتدا Git را با تنظیمات پیشفرض نصب کنید.
- سپس Python را نصب کنید و حتماً در اولین صفحه نصب، تیک گزینه “Add Python to PATH” را فعال کنید.
- راهاندازی اولیه ComfyUI:
- فایل فشرده ComfyUI را استخراج کنید.
- وارد پوشه استخراج شده شوید و فایل
run_nvidia_gpu.bat(برای کارتهای گرافیک انویدیا) را اجرا کنید. در اولین اجرا، برنامه نیازمندیهای خود را نصب خواهد کرد.
- نصب ComfyUI Manager (مهمترین قدم):
- این ابزار برای مدیریت، آپدیت و نصب افزونهها (Custom Nodes) ضروری است. برای نصب آن، وارد پوشه
ComfyUI/custom_nodesشوید. - در نوار آدرس این پوشه، عبارت
cmdرا تایپ کرده و Enter را بزنید تا پنجره ترمینال دقیقاً در مسیر درست باز شود. - دستور زیر را کپی و اجرا کنید:
- پس از اتمام، ComfyUI را مجدداً راهاندازی کنید.
- این ابزار برای مدیریت، آپدیت و نصب افزونهها (Custom Nodes) ضروری است. برای نصب آن، وارد پوشه
- افزودن مدل:
- مدلهای Checkpoint خود (با فرمت
.safetensors) را در پوشهComfyUI/models/checkpointsکپی کنید.
- مدلهای Checkpoint خود (با فرمت
با نصب ابزارهای قدرتمندی مانند ComfyUI، شما کنترل کاملی بر فرآیند خلاقیت خود خواهید داشت. اکنون زمان آن است که با جمعبندی مطالب، بهترین ابزار را برای شروع سفر خود انتخاب کنید.
——————————————————————————–
بخش ۴: نتیجهگیری و انتخاب ابزار مناسب برای شما
دنیای هوش مصنوعی محلی، یک اکوسیستم پویا و به سرعت در حال تکامل است. ابزارهایی که امروز بررسی کردیم، تنها نقطه شروعی برای خلاقیت و نوآوری بر روی سختافزار شخصی شما هستند. انتخاب ابزار مناسب، بیش از یک تصمیم فنی، یک سرمایهگذاری بر روی گردش کار شماست. چه به دنبال سادگی و سرعت باشید و چه نیازمند کنترل مطلق، یک راهحل اوپن سورس برای توانمندسازی شما وجود دارد.
توصیههای نهایی بر اساس پروفایل کاربر
- کاربر مبتدی: اگر به دنبال سریعترین و سادهترین راه برای خلق تصاویر باکیفیت هستید و نمیخواهید درگیر تنظیمات فنی شوید، بدون شک با Fooocus شروع کنید. این ابزار به شما اجازه میدهد تا با تمرکز بر روی خلاقیت در پرامپتنویسی، نتایجی شبیه به Midjourney به دست آورید.
- کاربر علاقهمند و توسعهدهنده: اگر به دنبال یک ابزار همهکاره با جامعه کاربری بزرگ و افزونههای فراوان برای تولید تصویر هستید، Automatic1111 یا نسخه بهینهشده آن Forge انتخابهای استانداردی هستند. برای کار با مدلهای زبانی، Ollama با سادگی و انعطافپذیری بالای خود، بهترین گزینه برای شروع و ادغام با پروژههای دیگر است.
- کاربر حرفهای و هنرمند فنی: اگر به کنترل کامل، ساخت گردشکارهای پیچیده و تکرارپذیری نتایج نیاز دارید، ComfyUI ابزار بیرقیب شماست. اگرچه منحنی یادگیری تندتری دارد، اما قدرتی که در اختیار شما قرار میدهد، در هیچ ابزار دیگری یافت نمیشود.