OpenAI a introdus recent MLE-bench, un punct de referință inovator pentru măsurarea performanței agenților AI în ingineria învățării automate (MLE). Acest benchmark reprezintă un pas important în înțelegerea și dezvoltarea competențelor de inginerie ML ale agenților AI.
MLE-bench a fost creat prin curatarea a 75 de competiții legate de ingineria ML de pe platforma Kaggle, oferind o gamă diversă de sarcini provocatoare care testează abilități reale de inginerie ML, cum ar fi antrenarea modelelor, pregătirea seturilor de date și executarea experimentelor. Pentru fiecare competiție, s-au stabilit repere umane folosind clasamentele public disponibile de pe Kaggle.
În cadrul evaluării, s-a descoperit că cel mai bun setup – OpenAI’s o1-preview cu scaffolding AIDE – a atins nivelul unei medalii de bronz Kaggle în 16,9% din competiții. Pe lângă rezultatele principale, cercetarea a investigat diverse forme de scalare a resurselor pentru agenții AI și impactul contaminării din pre-antrenament.
OpenAI a făcut codul benchmark-ului open-source pentru a facilita cercetarea viitoare în înțelegerea capacităților de inginerie ML ale agenților AI. Această inițiativă subliniază angajamentul OpenAI de a avansa în evaluarea și dezvoltarea agenților AI, oferind comunității științifice uneltele necesare pentru a măsura și îmbunătăți performanța sistemelor de AI.
Pentru mai multe informații despre MLE-bench și pentru a accesa codul sursă, puteți vizita pagina oficială OpenAI.