new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 4

Submitted by

melisa

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

·
8 authors

4

Submitted by

zelaix

VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

·
8 authors

1

Submitted by

BestWishYsh

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

·
12 authors

1

Submitted by

xyliu6

SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

·
6 authors

Submitted by

OrlandoHugBot

CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

·
9 authors

2

Submitted by

ganlinyang

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

·
18 authors

4

Submitted by

luojunyu

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

·
13 authors

2

Submitted by

qizekun

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

·
8 authors

1

Submitted by

Cynthia-1628

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

·
9 authors

1

Submitted by

vyokky

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

·
18 authors

1

Submitted by

AnonMegumi

MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

·
9 authors

Submitted by

wchengad

Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

·
8 authors

1

Submitted by

tarsur909

DINGO: Constrained Inference for Diffusion LLMs

·
5 authors

Submitted by

vangard703

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

·
6 authors

Submitted by

Lingaaaaaaa

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

·
5 authors

Submitted by

liyz

AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

·
6 authors

1

Submitted by

Yiyuan

Native-Resolution Image Synthesis

·
5 authors

2

Submitted by

JacobYuan

LumosFlow: Motion-Guided Long Video Generation

·
9 authors

Submitted by

yiren98

RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

·
5 authors

Submitted by

erjui

PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

·
5 authors

Submitted by

Hila

FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

·
4 authors

1

Submitted by

ChenyangSi

DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

·
7 authors

Submitted by

gentaiscool

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

·
20 authors

Submitted by

arkimjh

ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

·
4 authors

1

Submitted by

chs20

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

·
4 authors

1

Submitted by

gzzyyxy

ORV: 4D Occupancy-centric Robot Video Generation

·
11 authors

1

Submitted by

hyungjoochae

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

·
9 authors

1

Submitted by

spermwhale

Self-Challenging Language Model Agents

·
5 authors

Submitted by

danielmisrael

Accelerating Diffusion LLMs via Adaptive Parallel Decoding

·
3 authors

1

Submitted by

gq2138

SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

·
7 authors

1

Submitted by

amazingj

M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

·
6 authors

1

Submitted by

zhaoruiyang

Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

·
8 authors

Submitted by

Omartificial-Intelligence-Space

QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

·
7 authors

Submitted by

lyan62

Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

·
6 authors

Submitted by

jamescai20

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

·
4 authors

1

Submitted by

xyzhang626

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

·
7 authors

Submitted by

izhx

R^2ec: Towards Large Recommender Models with Reasoning

·
7 authors

1

Submitted by

WeiChow

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

·
18 authors

1

Submitted by

GSean

Controllable Human-centric Keyframe Interpolation with Generative Prior

·
5 authors

Submitted by

lx865712528

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

·
15 authors

1

Submitted by

ItamarZ

Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

·
4 authors

Submitted by

dxlong2000

Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines

·
8 authors

Submitted by

anumafzal94

Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

·
4 authors

1