publications

2025

Hardware-Efficient Attention for Fast Decoding

Ted Zadouri, Hubert Strauss, and Tri Dao

In Conference on Language Modeling (COLM 2025), 2025

arXiv Code
What Makes a Reward Model a Good Teacher? An Optimization Perspective

Noam Razin, Zixuan Wang, Hubert Strauss, and 3 more authors

In Advances in Neural Information Processing Systems (NeurIPS 2025), 2025

arXiv Code Poster

2024

FutureFill: Fast Generation from Convolutional Sequence Models

Naman Agarwal, Xinyi Chen, Evan Dogariu, and 6 more authors

In International Conference on Learning Representations (ICLR 2026), 2024

arXiv