Struct2D

Official code release for Struct2D: A Perception-Guided Framework for Spatial Reasoning in MLLMs.

Fangrui Zhu^*, Hanhui Wang^*, Yiming Xie, Jing Gu, Tianye Ding, Jianwei Yang, Huaizu Jiang
^*Equal Contribution

📑 Paper (arXiv) Hugging Face Dataset and Models

Highlights

We propose a perception-guided 2D prompting strategy, Struct2D Prompting, and conduct a detailed zero-shot analysis that reveals MLLMs’ ability to perform 3D spatial reasoning from structured 2D inputs alone.
We introduce Struct2D-Set, a large-scale instructional tuning dataset with automatically generated, fine-grained QA pairs covering eight spatial reasoning categories grounded in 3D scenes.
We fine-tune an open-source MLLM to achieve competitive performance across several spatial reasoning benchmarks, validating the real-world applicability of our framework.

📁 Contents

Installation

conda create -n struct2d python=3.10 -y
conda activate struct2d
git clone git@github.com:neu-vi/struct2d.git
pip install -e ".[torch,metrics]" --no-build-isolation

📖 Citation

If you find Struct2D helpful in your research, please consider citing:

@article{zhu2025struct2d,
  title={Struct2D: A Perception-Guided Framework for Spatial Reasoning in MLLMs},
  author={Zhu, Fangrui and Wang, Hanhui and Xie, Yiming and Gu, Jing and Ding, Tianye and Yang, Jianwei and Jiang, Huaizu},
  journal={arXiv preprint arXiv:2506.04220},
  year={2025}
}

🙏 Acknowledgement

We thank the authors of GPT4Scene, LLaMA-Factory for inspiring discussions and open-sourcing their codebases.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
assets		assets
configs		configs
data-processing		data-processing
evaluation		evaluation
scripts		scripts
src		src
zero-shot-prompting		zero-shot-prompting
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Struct2D

Highlights

📁 Contents

Installation

📖 Citation

🙏 Acknowledgement

About

Uh oh!

Releases

Packages

Contributors 2

Languages

neu-vi/struct2d

Folders and files

Latest commit

History

Repository files navigation

Struct2D

Highlights

📁 Contents

Installation

📖 Citation

🙏 Acknowledgement

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages