CARVIEW

MOTORHOMES

Select Language

HTTP/2 200 server: GitHub.com content-type: text/html; charset=utf-8 last-modified: Tue, 26 Nov 2024 06:03:37 GMT access-control-allow-origin: * strict-transport-security: max-age=31556952 etag: W/"674564b9-630c" expires: Mon, 29 Dec 2025 08:14:28 GMT cache-control: max-age=600 content-encoding: gzip x-proxy-cache: MISS x-github-request-id: FA44:21D6A4:893F36:9A091F:6952360C accept-ranges: bytes age: 0 date: Mon, 29 Dec 2025 08:04:28 GMT via: 1.1 varnish x-served-by: cache-bom-vanm7210031-BOM x-cache: MISS x-cache-hits: 0 x-timer: S1766995469.592537,VS0,VE220 vary: Accept-Encoding x-fastly-request-id: c71a69cd26967817937d433355047c229bce380d content-length: 5193 Yuwei Fang

studyfang AT gmail.com
Redmond, Washington

Yuwei Fang

I am a Principal Research Scientist at Zoom AI. Before joining Zoom, I have been at Snap Research and Microsoft Azure AI. My research interests are in Multimodal Generation and NLP. I am particularly interested in how to build a unified system that can ground and reason on diversified external world knowledge, to realize multilingual human machine communication. My recent work has focused on

Multimodal Generation ( Fang et al., EMNLP 2024; Chen et al., CVPR 2024; Menapace et al., CVPR 2024)
Multi-modal Learning ( Fang et al., EMNLP 2024; Yang et al., NAACL 2023; Tang et al., CVPR 2023; Yang et al., AAAI 2023)
Knowledge-based Language Learning ( Fang et al., ACL 2022; Yu et al., ACL 2022; Wang et al., ACL 2022; Yu et al., ACL 2022)

[Google Scholar] [LinkedIn] [Github] [Twitter]

Publications

VIMI: Grounding Video Generation through Multi-modal Instruction
Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
In Conf. on Empirical Methods in Natural Language Processing , 2024.
[PDF]
Evaluating very long-term conversational memory of llm agents
Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, Yuwei Fang
In Association for Computational Linguistics (ACL) , 2024.
[PDF] [Code]
Snap video: Scaled spatiotemporal transformers for text-to-video synthesis
Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov
In The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) , 2024.
[PDF]
Panda-70m: Captioning 70m videos with multiple cross-modality teachers
Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
In The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) , 2024.
[PDF] [Code]
Unifying Vision, Text, and Layout for Universal Document Processing
Zineng Tang, Ziyi Yang, Guoxin Wang, Yuwei Fang, Yang Liu, Chenguang Zhu, Michael Zeng, Cha Zhang, Mohit Bansal
In The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) , 2023.
[PDF] [Code]
i-Code Studio: A Configurable and Composable Framework for Integrative AI
Yuwei Fang, Mahmoud Khademi, Chenguang Zhu, Ziyi Yang, Reid Pryzant, Yichong Xu, Yao Qian, Takuya Yoshioka, Lu Yuan, Michael Zeng, Xuedong Huang
In System Demonstrations on Empirical Methods in Natural Language Processing , 2024.
[PDF]
i-code v2: An autoregressive generation framework over vision, language, and speech data
Ziyi Yang, Mahmoud Khademi, Yichong Xu, Reid Pryzant, Yuwei Fang, Chenguang Zhu, Dongdong Chen, Yao Qian, Mei Gao, Yi-Ling Chen, Robert Gmyr, Naoyuki Kanda, Noel Codella, Bin Xiao, Yu Shi, Lu Yuan, Takuya Yoshioka, Michael Zeng, Xuedong Huang
In Conf. on North American Chapter of the Association for Computational Linguistics (NAACL) , 2024.
[PDF]
i-Code: An Integrative and Composable Multimodal Learning Framework
Ziyi Yang*, Yuwei Fang*, Chenguang Zhu, Reid Pryzant, Dongdong Chen, Yu Shi, Yichong Xu, Yao Qian, Mei Gao,
Yi-Ling Chen, Liyang Lu, Yujia Xie, Robert Gmyr, Noel Codella, Naoyuki Kanda, Bin Xiao, Yuan Lu, Takuya Yoshioka, Michael Zeng, Xuedong Huang
In Proc. American Association of Artificial Intelligence (AAAI) , 2023.
[PDF]
MACSum: Controllable Summarization with Mixed Attributes
Yusen Zhang, Yang Liu, Ziyi Yang, Yuwei Fang, Yulong Chen, Dragomir Radev, Chenguang Zhu, Michael Zeng, Rui Zhang
In Transactions of the Association for Computational Linguistics (TACL) , 2023.
[PDF] [Code]
Retrieval Augmentation for Commonsense Reasoning: A Unified Approach
Wenhao Yu, Chenguang Zhu, Zhihan Zhang, Shuohang Wang, Zhuosheng Zhang, Yuwei Fang, Meng Jiang
In Conf. on Empirical Methods in Natural Language Processing (EMNLP) , 2022.
[PDF] [Code] [Leaderboard]
Task Compass: Scaling Multi-task Pre-training with Task Prefix
Zhuosheng Zhang, Shuohang Wang, Yichong Xu, Yuwei Fang, Wenhao Yu, Yang Liu, Hai Zhao, Chenguang Zhu, Michael Zeng
In Findings of Conf. on Empirical Methods in Natural Language Processing (EMNLP) , 2022.
[PDF]
Leveraging Knowledge in Multilingual Commonsense Reasoning
Yuwei Fang, Shuohang Wang, Yichong Xu, Ruochen Xu, Siqi Sun, Chenguang Zhu, Michael Zeng
In Findings of Association for Computational Linguistics (Findings of ACL) , 2022.
[PDF] [Leaderboard]
Training data is more valuable than you think: A simple and effective method by retrieving from training data
Shuohang Wang, Yichong Xu, Yuwei Fang, Yang Liu, Siqi Sun, Ruochen Xu, Chenguang Zhu, Michael Zeng
In Association for Computational Linguistics (ACL) , 2022.
[PDF] [Code]
KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain Question Answering
Donghan Yu, Chenguang Zhu, Yuwei Fang, Wenhao Yu, Shuohang Wang, Yichong Xu, Xiang Ren, Yiming Yang, Michael Zeng
In Association for Computational Linguistics (ACL) , 2022.
[PDF]
Dict-BERT: Enhancing Language Model Pre-training with Dictionary
Wenhao Yu, Chenguang Zhu, Yuwei Fang, Donghan Yu, Shuohang Wang, Yichong Xu, Michael Zeng, Meng Jiang
In Findings of Association for Computational Linguistics (Findings of ACL) , 2022.
[PDF] [Code]
RetGen: A Joint framework for Retrieval and Grounded Text Generation Modeling
Yizhe Zhang, Siqi Sun, Xiang Gao, Yuwei Fang, Chris Brockett, Michel Galley, Jianfeng Gao, Bill Dolan
In Proc. American Association of Artificial Intelligence (AAAI) , 2022.
[PDF] [Code]
FILTER: An enhanced fusion method for cross-lingual language understanding
Yuwei Fang*, Shuohang Wang*, Zhe Gan, Siqi Sun, Jingjing Liu
In Proc. American Association of Artificial Intelligence (AAAI) , 2021.
[PDF] [Code] [Leaderboard]
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval
Siqi Sun, Yen-Chun Chen, Linjie Li, Shuohang Wang, Yuwei Fang, Jingjing Liu
In Conf. on North American Chapter of the Association for Computational Linguistics (NAACL) , 2021.
[PDF] [Code]
Cluster-former: Clustering-based sparse transformer for long-range dependency encoding
Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu
In Findings of Association for Computational Linguistics (Findings of ACL) , 2021.
[PDF] [Leaderboard]
Hierarchical graph network for multi-hop question answering
Yuwei Fang, Siqi Sun, Zhe Gan, Rohit Pillai, Shuohang Wang, Jingjing Liu
In Conf. on Empirical Methods in Natural Language Processing (EMNLP) , 2020.
[PDF] [Code] [Leaderboard]
Cross-Thought for Sentence Encoder Pre-training
Shuohang Wang, Yuwei Fang, Siqi Sun, Zhe Gan, Yu Cheng, Jing Jiang, Jingjing Liu
In Conf. on Empirical Methods in Natural Language Processing (EMNLP) , 2020.
[PDF] [Code]
Contrastive Distillation on Intermediate Representations for Language Model Compression
Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, Jingjing Liu
In Conf. on Empirical Methods in Natural Language Processing (EMNLP) , 2020.
[PDF] [Code]

Miscellany

In my free time, I like staying with my family and outside activities.

Original Source | Taken Source