CARVIEW

MOTORHOMES

Select Language

HTTP/2 200 server: GitHub.com content-type: text/html; charset=utf-8 last-modified: Sat, 14 Jun 2025 00:37:31 GMT access-control-allow-origin: * etag: W/"684cc44b-c239" expires: Sun, 28 Dec 2025 07:00:00 GMT cache-control: max-age=600 content-encoding: gzip x-proxy-cache: MISS x-github-request-id: 3E1A:234FE9:764678:8464F7:6950D316 accept-ranges: bytes age: 0 date: Sun, 28 Dec 2025 06:50:00 GMT via: 1.1 varnish x-served-by: cache-bom-vanm7210083-BOM x-cache: MISS x-cache-hits: 0 x-timer: S1766904600.997293,VS0,VE202 vary: Accept-Encoding x-fastly-request-id: 3526825b284ff04ca00ab1daae31839619110ef6 content-length: 7241 Zhao Zhang

Zhao Zhang （张钊）

I'm currently working as a Vision-Language Researcher at ByteDance, with a focus on multimodal LLMs and their applications. I completed my Master's degree at Nankai University, where I was under the supervision of Ming-Ming Cheng. Please feel free to contact me at (📮: zzhang🥳mail🔅nankai🔅edu🔅cn)

You can also find me in and

Experiences

Expert Researcher in Vision & Language
2023 - Now

Intelligent Creation

ByteDance

Researcher in Vision & Language
2022 - 2023

Smart City Group (SCG)

SenseTime

Internship in Computer Vision
2020 - 2021

Youtu Lab

CSIG, Tencent

M.S. in Computer Science
2019 - 2022

Media Computing Lab (supervised by Prof Ming-Ming Cheng)

School of Computer Science, Nankai University

B.S. in Computer Science
2015 - 2019

College of Innovation and Entrepreneurship (Elite College)

School of Information Engineerin, Yangzhou University

Publications

logo CreatiPoster: Towards Editable and Controllable
Multi-Layer Graphic Design Generation
Zhao Zhang, Yutao Cheng, Dexiang Hong, Maoke Yang
Gonglei Shi, Lei Ma, Hui Zhang, Jie Shao, Xinglong Wu
arXiv 2025 [Repo] [Paper]

CreatiDesign: A Unified Multi-Conditional Diffusion Transformer
for Creative Graphic Design
Hui Zhang, Dexiang Hong, Maoke Yang, Yutao Cheng, Zhao Zhang
Jie Shao, Xinglong Wu, Zuxuan Wu, and Yu-Gang Jiang
arXiv 2025 [Repo] [Project page] [Paper] [bib]

Decomposition of Graphic Design with Unified Multimodal Model
Hui Nie, Zhao Zhang, Yutao Cheng, Maoke Yang, Gonglei Shi, Qingsong Xie, Jie Shao, Xinglong Wu
ICML 2025 [Repo Coming Soon]

Layton: Latent Consistency Tokenizer
for 1024-pixel Image Reconstruction and Generation by 256 Tokens
Qingsong Xie, Zhao Zhang, Zhe Huang, Yanhao Zhang, Haonan Lu, Zhenyu Yang
arXiv 2025 [PDF] [Project] [bib]

RelationLMM: Large Multimodal Model
as Open and Versatile Visual Relationship Generalist
Chi Xie, Shuang Liang, Jie Li, Zhao Zhang, Feng Zhu, Rui Zhao
TPAMI 2025 [Paper] [bib]

Graphic Design with Large Multimodal Model
Yutao Cheng*, Zhao Zhang*, Maoke Yang*, Hui Nie, Chunyuan Li, Xinglong Wu, Jie Shao
AAAI 2025 [PDF] [Project] [bib]

Link-Context Learning for Multimodal LLMs
Yan Tai, Weichen Fan, Zhao Zhang, Ziwei Liu
CVPR 2024 [PDF] [Code] [bib]

Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
Keqin Chen, Zhao Zhang*, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao
arXiv 2023 [PDF] [Code] [bib]

Described Object Detection: Liberating Object Detection with Flexible Expressions
Chi Xie*, Zhao Zhang*, Yixuan Wu, Feng Zhu, Rui Zhao, Shuang Liang
NeurlPS 2023 [PDF] [Code] [bib]

Advancing Referring Expression Segmentation Beyond Single Image
Yixuan Wu*, Zhao Zhang*, Chi Xie, Feng Zhu, Rui Zhao
ICCV 2023 [PDF] [Code] [bib]

User-Oriented Interactive Style Transfer
Zheng Lin, Zhao Zhang, Kang-Rui Zhang, Bo Ren, Ming-Ming Cheng
CVMJ 2025 [PDF] [Code] [中译版] [bib]

Image Harmonization by Matching Regional References
Ziyue Zhu, Zhao Zhang, Zheng Lin, Ruiqi Wu, Chunle Guo
arXiv [PDF] [Code] [中译版] [bib]

Co-Salient Object Detection with Co-Representation Purification
Ziyue Zhu*, Zhao Zhang*, Zheng Lin, Xing Sun, Ming-Ming Cheng
TPAMI 2023 [PDF] [Code] [中译版] [bib]

PAC-Net: Highlight Your Video via History Preference Modeling
Hang Wang, Penghao Zhou, Chong Zhou, Zhao Zhang, Xing Sun
ECCV 2022 [PDF] [bib]

Multi-Mode Interactive Image Segmentation
Zheng Lin, Zhao Zhang*, Ling-Hao Han, Shao-Ping Lu
ACM MM 2022 [PDF] [Code] [中译版]

KnifeCut: Refining Thin Part Segmentation with Cutting Lines
Zheng Lin, Zheng-Peng Duan, Zhao Zhang, Chunle Guo, Ming-Ming Cheng
ACM MM 2022 (Oral) [PDF] [Code] [中译版]

Sequential Interactive Image Segmentation
Zheng Lin, Zhao Zhang, Zi-Yue Zhu, Deng-Ping Fan, Xia-Lei Liu
CVMJ 2022 [PDF] [Code] [中译版]

FocusCut: Diving into a Focus View in Interactive Segmentation
Zheng Lin, Zheng-Peng Duan, Zhao Zhang, Chun-Le Guo, Ming-Ming Cheng
CVPR 2022 (Oral) [PDF] [Code] [中译版] [bib]

Gradient-Induced Co-Saliency Detection
Zhao Zhang*, Wenda Jin*, Jun Xu, Ming-Ming Cheng
ECCV 2020 [PDF] [Project] [Code] [Short Video] [Long Video] [Slides] [中译版] [bib]

Bilateral Attention Network for RGB-D Salient Object Detection
Zhao Zhang, Zheng Lin, Jun Xu, Wenda Jin, Shao-Ping Lu, and Deng-Ping Fan
TIP 2021 [PDF] [Code] [bib]

Rethinking RGB-D Salient Object Detection: Models, Datasets, and Large-Scale Benchmarks
Deng-Ping Fan, Zheng Lin, Zhao Zhang, Menglong Zhu, Ming-Ming Cheng
TNNLS 2020 [PDF] [Code] [Project] [bib]

Interactive Image Segmentation with First Click Attention
Zheng Lin, Zhao Zhang, Lin-Zhuo Chen, Ming-Ming Cheng, Shao-Ping Lu
CVPR 2020 [PDF] [Code] [Project] [bib]

Low Resolution Face Recognition and Reconstruction
via Deep Canonical Correlation Analysis
Zhao Zhang Yun-Hao Yuan, Xiao-bo Shen, Yun Li
ICASSP 2018 [PDF] [bib]

Face Hallucination and Recognition Using Kernel Canonical Correlation Analysis
Zhao Zhang Yun-Hao Yuan, Yun Li, Bin Li, Ji-Peng Qiang
ICONIP 2017 (Oral)) [PDF] [Slides] [bib]

Supervised Deep Canonical Correlation Analysis for Multiview Feature Learning
Yan Liu, Yun Li, Yun-Hao Yuan, Ji-Peng Qiang, Min Ruan, Zhao Zhang
ICONIP 2017 [PDF] [bib]

Services

Reviewer for T-PAMI, TIP, TMI, TMM, TCSVT, CVPR, ICCV, ECCV, NeurIPS, EMNLP, ACMMM, etc.

Original Source | Taken Source

Zhao Zhang （张 钊）

Recent News

Experiences

Publications

Services

Zhao Zhang （张钊）