HOME
ABOUT
- RESULTS
- differences
- BENEFITS
- HISTORY
- TEAM
- LOCATION
- FACILITIES
- BANKING
- MEMBERSHIPS
- APPROVALS
- LICENCES
- SUPPLIERS
- SPONSORSHIPS
- MEDIA
- PRIVACY
AUCTIONS
SHIPPING
FEES
- TS REWARDS
TOOLS
guides
FAQ
CONTACT
- CONNECT

VEHICLES
BRAND
- JAPANESE CARS
  - DAIHATSU
  - EUNOS
  - FORD
  - HONDA
  - ISUZU
  - LEXUS
  - MAZDA
  - MITSUBISHI
  - MITSUOKA
  - NISSAN
  - SUBARU
  - SUZUKI
  - TOYOTA
- GERMAN CARS
- AMERICAN CARS
- BRITISH CARS
- ITALIAN CARS
- FRENCH CARS
- SWEDISH CARS
- KOREAN CARS
TYPE
- mobility
- VENDING
- instruction
- TAXIS
- AMBULANCES
- FIRE ENGINES
- HEARSES
- LIMOUSINES
- COMMERCIAL
CLASS
FUEL
TRUCKS
minitrucks
- DAIHATSU
- HONDA
- MAZDA
- MITSUBISHI
- NISSAN
- SUBARU
- SUZUKI
- DUMP
- CRANE
- CAMPER
- REFRIGERATED
- 4WD
- NEW
BUSES
MOTORHOMES
- YAHOO!
- RAKUTEN
- DEALER

PARTS
- FREE REPORT
- PARTS CONTAINERS
- PARTS SYSTEMS
- PARTS PROTECTION
- BODY SHELLS
- DISMANTLING
- ONLINE PARTS
- NEW PARTS
- INTERIOR PARTS
- EXTERIOR PARTS
  - BONNETS
  - BUMPERS
  - GRILLES
  - FENDERS
  - DOORS
  - TRUNKS
  - SPOILERS
  - LIGHTS
  - EMBLEMS
  - CAMERAS
- ENGINES
- TRANSMISSIONS
- WHEELS & TYRES
  - WHEELS
  - TYRES
CUTS
PERFORMANCE PARTS
TRUCK PARTS
MOTORBIKE PARTS
- MOTORBIKE ENGINES
- MOTORBIKE ACCESSORIES

MOTORBIKES
MARINE
FORKLIFTS
MACHINERY
AGRICULTURAL
OTHER
COUNTRY
- AUSTRALIA
- CANADA
- KENYA
- MYANMAR
- NEW ZEALAND
- PAKISTAN
- TANZANIA
- UNITED STATES

CARVIEW

MOTORHOMES

Select Language

HTTP/2 301 server: GitHub.com content-type: text/html location: https://qhlin.me/ x-github-request-id: 19AB:2DDCFF:7D6D1A:8CA2BE:695165B4 accept-ranges: bytes age: 0 date: Sun, 28 Dec 2025 17:15:32 GMT via: 1.1 varnish x-served-by: cache-bom-vanm7210082-BOM x-cache: MISS x-cache-hits: 0 x-timer: S1766942132.452516,VS0,VE195 vary: Accept-Encoding x-fastly-request-id: fd34e27a7896c98fe8a214ab6300be64de3f66a4 content-length: 162 HTTP/1.1 200 OK Connection: keep-alive Content-Length: 8210 Server: GitHub.com Content-Type: text/html; charset=utf-8 Last-Modified: Fri, 19 Dec 2025 08:46:57 GMT Access-Control-Allow-Origin: * ETag: W/"69451101-81ce" expires: Sun, 28 Dec 2025 17:25:32 GMT Cache-Control: max-age=600 Content-Encoding: gzip x-proxy-cache: MISS X-GitHub-Request-Id: 2CAD:2916CC:7E2DA9:8D6602:695165B3 Accept-Ranges: bytes Age: 0 Date: Sun, 28 Dec 2025 17:15:32 GMT Via: 1.1 varnish X-Served-By: cache-bom-vanm7210072-BOM X-Cache: MISS X-Cache-Hits: 0 X-Timer: S1766942133.699735,VS0,VE213 Vary: Accept-Encoding X-Fastly-Request-ID: ddd1da7d63ef43259f3a7c2d7baebe1793313524 Kevin Qinghong Lin @ University of Oxford

Kevin Qinghong Lin

Postdoctoral Researcher

Torr Vision Group
University of Oxford

Email: kevin.qh.lin [at] gmail.com

[Scholar] [Github] [HF] [LinkedIn] [Twitter]

Biography

I am a Postdoctoral Researcher in University of Oxford, working with Prof. Philip Torr.

I obtained my PhD from National University of Singapore in three years, luckily advised by Prof. Mike Shou.

I was fortunate to intern at Tencent / Meta AI / Meta Reality Labs / Microsoft Research.

My research focuses on developing multimodal intelligent agents to assist humans. This spans abilities like:

See multimodally: video understanding (VideoMind,VideoLLM-online) from scalable human data (EgoVLP,UniVTG).
Think like humans: adaptive reasoning via reinforcement learning (Think or Not) and symbolic coding (Code2Video,VCode).
Act in environments: computer-use agents (ShowUI,GroundCUA) for human workflows (Paper2Poster,Paper2Video).

I’m open to collaborate with academic / industry / startups. Feel free to drop me an email.

I am passionate about open-source!

Selected Publications [Google Scholar]

† indicates equal contribution. Denotes student I mentored. ✉ indicates corresponding author.

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin QH. Lin✉

Preprint, 2025
[project] [paper] [code]
#2 Huggingface daily paper.

Computer-Use Agents as Judges for Generative User Interface
Kevin QH. Lin†, Siyuan Hu†, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Z. Shou.

Preprint, 2025
[project] [paper] [code] [demo] [twitter]

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
Kevin QH. Lin†, Yuhao Zheng†, Hangyu Ran†, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex JP. Wang.

Preprint, 2025
[project] [paper] [code] [demo] [twitter]
#1 Huggingface daily paper.

Paper2Video: Automatic Video Generation from Scientific Papers
Zeyu Zhu†, Kevin QH. Lin†, Mike Z. Shou.

Preprint, 2025
[project] [paper] [code] [dataset] [twitter]
#2 Huggingface daily paper.
1.9K github stars. 1M+ twitter views. Highlighted by YC Hacker News

Code2Video: A Code-centric Paradigm for Educational Video Generation
Yanzhe Chen†, Kevin QH. Lin†, Mike Z. Shou.

Preprint, 2025
[project] [paper] [code] [dataset] [twitter]
1.4K github stars.

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
Wei Pang†, Kevin QH. Lin†, Xiangru Jian†, Xi He, Philip Torr.

NeurIPS D&B, 2025
ICML MAS workshop, 2025. Oral
[project] [paper] [code] [datasets] [demo] [poster] [twitter]
3K github stars. 1.2K twitter likes.

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
Jiaqi Wang†, Kevin QH. Lin†, James Cheng, Mike Z. Shou.

NeurIPS, 2025
[paper] [code] [huggingface] [twitter]

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
Ye Liu†, Kevin QH. Lin†, Chang Wen Chen, Mike Z. Shou.

Preprint, 2025
NeurIPS LAW workshop, 2025. Spotlight
[project] [paper] [code] [dataset] [demo] [twitter]

Grounding Computer Use Agents on Human Demonstrations
Aarash Feizi†, Shravan Nayak†, Xiangru Jian, Kevin QH. Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar.

Preprint, 2025
[project] [paper] [code] [huggingface] [twitter]
#2 Huggingface daily paper.
The dataset has been downloaded over 150,000 times

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
Shravan Nayak†, Xiangru Jian†, Kevin QH. Lin, Juan A Rodriguez, Montek Kalsi, Rabiul Awal, Nicolas Chapados, M Tamer Özsu, Aishwarya Agrawal, David Vazquez, Christopher Pal, Perouz Taslakian, Spandana Gella, Sai Rajeswar.

ICML, 2025
[project] [paper] [code] [huggingface] [twitter]

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
Jinheng Xie†, Weijia Mao†, Zechen Bai†, David JH. Zhang†, Weihao Wang, Kevin QH. Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Z. Shou.

ICLR, 2025
[project] [paper] [code] [huggingface] [demo] [twitter]
1.8K github stars.
Most Influential ICLR Papers #4

AssistGPT: Towards Multi-modal Agent for Human-Centric AI Assistant
Difei Gao, Siyuan Hu, Kevin QH. Lin, Mike Z. Shou.

ACMMM HCMA workshop, 2024. Best Demo Paper
[project] [paper] [twitter]

VideoLLM-online: Online Video Large Language Model for Streaming Video
Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin QH. Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Z. Shou.

CVPR, 2024
[project] [paper] [VideoLLM-MoD] [code] [dataset] [twitter]
600+ github stars.

ShowUI: One Vision-Language-Action Model for GUI Visual Agent
Kevin QH. Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan WX. Lei, Lijuan Wang, Mike Z. Shou.

CVPR, 2025
NeurIPS OWA workshop, 2024. Oral
[paper] [code] [huggingface] [dataset] [demo] [twitter]
#1 Huggingface daily paper.
Outstanding Paper Award, NeurIPS Open-World Agents Workshop 2024.
The model has been downloaded for over 240,000 times. 1.6K github stars.

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
Kevin QH. Lin, Mike Z. Shou.

CVPR, 2025
[paper] [code] [twitter]
580+ github stars.

VideoGUI: A Benchmark for GUI Automation from Instructional Videos
Kevin QH. Lin, Linjie Li, Difei Gao, Qinchen Wu, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Z. Shou.

NeurIPS D&B, 2024. Spotlight
[project] [paper] [code] [twitter]

Learning Video Context as Interleaved Multimodal Sequences
Kevin QH. Lin, Pengchuan Zhang, Difei Gao, Xide Xia, Joya Chen, Ziteng Gao, Jinheng Xie, Xuhong Xiao, Mike Z. Shou.

ECCV, 2024
[paper] [code]

UniVTG: Towards Unified Video-Language Temporal Grounding
Kevin QH. Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex JP. Wang, Rui Yan, Mike Z. Shou.

ICCV, 2023
[paper] [code] [demo] [twitter]
370+ github stars.

Egocentric Video-Language Pretraining
Kevin QH. Lin, Alex JP. Wang, M. Soldan, M. Wray, R. Yan, Eric ZC. Xu, D. Gao, R. Tu, W. Zhao, W. Kong, C. Cai, H. Wang, D. Damen, B. Ghanemå, W. Liu, Mike Z. Shou.

NeurIPS, 2022. Spotlight (1.7%)
[project] [paper] [EgoVLPv2] [code] [poster] [twitter] [media]
EgoVis Distinguished Paper Award.
PREMIA Best Student Paper Award, Gold Award.
Double champions in Ego4D & Epic-Kitchens CVPR 2022 challenges.

Honors

Tinker Research Grant, Thinking Machines Lab

2025
DAAD AINeT Fellowship

2025
CVPR Doctoral Consortium

2025
Outstanding Paper Award, NeurIPS Open-World Agents

2024
NeurIPS Top Reviewers

2024
Best Demo Paper Award, ACM Multimedia HCMA

2024
Egocentric Vision (EgoVis) Distinguished Paper Award

2024
CVPR Outstanding Reviewers (Top 2%)

2024
PREMIA Best Student Paper Awards, Gold Award

2023
NeurIPS Scholar Award

2022
Tencent Rhino-Bird Research Scholarship, Second Prize

2022
1st Place on Ego4D - Object State Change Classiﬁcation Challenge, CVPR

2022
1st Place on EPIC-Kitchens - Multi-Instance Retrieval Challenge, CVPR
2022
Show Lab Annual Award

2022, 2024
China National Scholarship

2018, 2021

Service

Area Chair: NeurIPS 2025.
Workshop Organizer: Open Multimodal Gathering @ NUS; Multimodal Video Agent @ CVPR 25.
Conference Reviewer: CVPR (2024 Outstanding Reviewers), ICCV, ECCV, NeurIPS (2024 Top Reviewers), ICML, ICLR, etc.
Journal Reviewer: TPAMI, IJCV, TMLR, TNNLS, TMM, etc.
Teaching Assistant: EE6934, EE6733, EE4212
Co-organizer of The AI Talks.

HOME
ABOUT
AUCTIONS
SHIPPING
FEES
TOOLS
HOW
FAQ
CONTACT

Original Source | Taken Source