ابزار ردهبندی و مقایسه چتباتهای هوش مصنوعی معرفی شد
اقتصاد ۱۰۰ - با توجه به تعداد فراوان چتباتها با قابلیتهای مختلف جای خالی ابزاری جهت مقایسه چتباتهای هوش مصنوعی به شدت احساس میشد. حال این ابزار ساخته شده است.
به گزارش گروه دانش و فناوری، در نوامبر گذشته از هنگام محبوبیت همگانی ChatGPT، چتباتهای فراوان دیگری هم ایجاد شدهاند که تحت عنوان رقیب ChatGPT معرفی شدهاند. این چتباتها از لحاظ LLM، قیمت، رابط کاربری، دسترسی به اینترنت و موارد دیگری دارای تفاوتهایی بوده و جهت تسهیل مقایسه آنها، یک سازمان تحقیقاتی به نام Model Systems Organization که از سوی دانشجویان و اساتید «دانشگاه کالیفرنیا، برکلی» تأسیس شده، از پلتفرم بنچمارکگیری برای مدلهای زبان بزرگ (LLM) و مقایسه چتباتهای هوش مصنوعی با نام Chatbot Arena رونمایی کرده است.
با این پلتفرم به کاربران میتوانند به مقایسه چتباتهای هوش مصنوعی با یکدیگر بپردازند. بهمنظور آزمایش چتباتها با این پلتفرم، ابتدا کاربران باید یک درخواست را ارائه و سپس پاسخهایی از طرف دو مدل بهصورت تصادفی ارائه میشود و کاربران بدون اینکه از LLM هر مدل اطلاعی داشته باشند، بهترین پاسخ را برمیگزینند. بعد از اینکه کاربران بهترین پاسخ ارائهشده از سوی یکی از دو چتبات را انتخاب کردند، نام چتبات به نمایش در میآید.
ابزار مقایسه چتباتهای هوش مصنوعی
به عنوان نمونه، در آزمایش زیر از دو چتبات درخواست شده تا به نوشتن یک نامه درخواست مرخصی بپردازند. سپس از ارائه پاسخهای متفاوت و انتخاب گزینه مدنظر، متوجه نامهای این دو چتبات تحت عنوان چتباتهای koala-13b و دیگری vicuna-13b میشویم
سپس در بخش تابلوی امتیازات (Leaderboard)، رتبهبندی کلیه LLMها نشان داده میشود که نتایج آزمایش کاربران تأثیر زیادی بر روی آن میگذارد و از سیستم ردهبندی Elo بهرهبرداری خواهد کرد که در حوزه محاسبه سطح مهارتی بازیکنان رشتههای ورزشی استفاده میشود. براساس این صفحه، هماکنون GPT-4 از OpenAI به عنوان پیشرفتهترین LLM شناخته میشود و امتیاز Elo آن 1227 است. در جایگاه دوم نیز Claude-v1 که از طرف Anthropic توسعه یافته، با امتیاز 1227 دیده میشود.
در رتبه هشتم این فهرست هم نام PaLM-Chat-Bison-001 به عنوان یکی از زیرمجموعههای PaLM 2، مدل زبان بزرگ هوش مصنوعی Bard گوگل قرار گرفته است. افزونبراین، وبسایت ChatBot Arena قسمت دیگری نیز دارد که از طریق آن امکان آزمایش یک چتبات مشخص و یا مقایسه دو مدل مشخص با یکدیگر وجود دارد. در صورتی که قصد آزمایش LLM خاصی را دارید، این ویژگی میتواند مفید باشد.
انتهای پیام
ارسال نظر