Agentic - a sbarman25 Collection

sbarman25 's Collections

Training & Architectures

Safety / Alignment / Policies / SMI

Evals & Monitoring

Vulnerabilities

CV / Text-to-Image / Image-to-Image / Diffusion

Hardware-aware Models

Tool Usage (w/VLMs)

Vision Language Models

Agentic

updated Feb 17

GAIA: a benchmark for General AI Assistants

Paper • 2311.12983 • Published Nov 21, 2023 • 246
gaia-benchmark/GAIA

Viewer • Updated Oct 28, 2025 • 932 • 33.5k • 631
osunlp/Mind2Web

Viewer • Updated Oct 19, 2025 • 253 • 3.89k • 123
AppAgent: Multimodal Agents as Smartphone Users

Paper • 2312.13771 • Published Dec 21, 2023 • 54
GPT-4V(ision) is a Generalist Web Agent, if Grounded

Paper • 2401.01614 • Published Jan 3, 2024 • 22
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Paper • 2401.13919 • Published Jan 25, 2024 • 32
LARP: Language-Agent Role Play for Open-World Games

Paper • 2312.17653 • Published Dec 24, 2023 • 33
osunlp/TravelPlanner

Viewer • Updated Jul 14, 2024 • 1.23k • 3.34k • 81
TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Paper • 2402.01622 • Published Feb 2, 2024 • 38
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

Paper • 2402.00559 • Published Feb 1, 2024 • 3
TradingAgents: Multi-Agents LLM Financial Trading Framework

Paper • 2412.20138 • Published Dec 28, 2024 • 33
RAG-Anything: All-in-One RAG Framework

Paper • 2510.12323 • Published Oct 14, 2025 • 71
PaperBanana: Automating Academic Illustration for AI Scientists

Paper • 2601.23265 • Published Jan 30 • 222