MLE-bench de la OpenAI concurează cu oamenii de știință

OpenAI a introdus recent MLE-bench, un punct de referință inovator pentru măsurarea performanței agenților AI în ingineria învățării automate (MLE). Acest benchmark reprezintă un pas important în înțelegerea și dezvoltarea competențelor de inginerie ML ale agenților AI.

MLE-bench a fost creat prin curatarea a 75 de competiții legate de ingineria ML de pe platforma Kaggle, oferind o gamă diversă de sarcini provocatoare care testează abilități reale de inginerie ML, cum ar fi antrenarea modelelor, pregătirea seturilor de date și executarea experimentelor. Pentru fiecare competiție, s-au stabilit repere umane folosind clasamentele public disponibile de pe Kaggle.

În cadrul evaluării, s-a descoperit că cel mai bun setup – OpenAI’s o1-preview cu scaffolding AIDE – a atins nivelul unei medalii de bronz Kaggle în 16,9% din competiții. Pe lângă rezultatele principale, cercetarea a investigat diverse forme de scalare a resurselor pentru agenții AI și impactul contaminării din pre-antrenament.

OpenAI a făcut codul benchmark-ului open-source pentru a facilita cercetarea viitoare în înțelegerea capacităților de inginerie ML ale agenților AI. Această inițiativă subliniază angajamentul OpenAI de a avansa în evaluarea și dezvoltarea agenților AI, oferind comunității științifice uneltele necesare pentru a măsura și îmbunătăți performanța sistemelor de AI.

Pentru mai multe informații despre MLE-bench și pentru a accesa codul sursă, puteți vizita pagina oficială OpenAI.

Follow Us

MLE-bench de la OpenAI concurează cu oamenii de știință

AMD lansează noile procesoare Ryzen AI PRO seria 300

Industria televiziunii de streaming practică o supraveghere masivă a spectatorilor

technewsro

About Author

Leave a comment Anulează răspunsul

You may also like

Noaptea Muzeelor la MINA

Salt Bank: O Nouă Eră a Serviciilor Bancare Digitale

Apple lansează noile cipuri M5 Pro și M5 Max

Conectivitate prin satelit în România cu Vodafone

Apple lansează iPad Air cu noul cip M4

iPhone 17e: Specificații, funcții și preț

Qualcomm: Noua platformă Snapdragon Wear Elite

Lenovo la MWC 2026: noi laptopuri, tablete și concepte AI

IZi de la eMAG: Asistent AI pentru shopping online

Xiaomi UltraThin Magnetic Power Bank 5000 15W: Recenzie