Back to list
WebGen-R1: レインフォースメント・ラーニングを用いて、機能的かつ美学的な Web サイトを生成し続ける大規模言語モデルへのインセンティブ化
WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning
Translated: 2026/4/24 20:04:56
Japanese Translation
arXiv:2604.20398v1 Announce Type: cross
アブストラクト:
大規模言語モデル(LLM)は機能的なコードの生成には優れているものの、機能的かつ視覚的に美しいマルチページ Web サイトを生成といったプロジェクトレベルのタスクは依然として非常に困難です。既存の手法は単一ページの静的 Web サイトに限定されることが多く、エージェント・フレームワークは一般的にプロプライエタリなモデルに基づくマルチターン実行に依存しており、トークンコストが高額になり、遅延が発生し、統合も脆くなりがちです。小規模な LLM をエンドツーエンドでレインフォースメント・ラーニング(RL)で訓練することは有望な代替手段ですが、ウェブサイトの生成における信頼性が高く、かつ計算上実現可能な報酬設計に決定的なボトルネックが存在します。単一ファイルのコーディングタスクでは単体テストで検証できるのに対し、ウェブサイトの生成では本来主観的な美学、ページ間での相互作用、および機能的な正しさの評価を伴うためです。この目的を達するため、我々はプロジェクトレベルのウェブサイト生成に特化したエンドツーエンド RL フレームワーク、WebGen-R1 を提案します。まず、我々は大規模なオープンエンドなアクションスペースを制限し、アーキテクチャの整合性を維持しながら、スケファルッド・ドライブ型の構造化生成パラジグムを導入します。次に、構造的保証を実行に根ざした機能的フィードバック、および視覚基盤のアesthetic 監督とシームレスに連動させる、革新的な階層型マルチモーダル報酬を設計します。大規模な実験により、我々の WebGen-R1 は、ほぼ非機能的なウェブサイトを生成する 7B ベースモデルを、デプロイ可能で美学的に整合したマルチページウェブサイトへと大幅に変化させたと示しています。驚くべきことに、我々の WebGen-R1 は、単に大幅に拡張されたオープンソースモデル(最大 72B)を常に凌駕するだけでなく、機能的な成功においては最先进的な DeepSeek-R1 (671B) と匹敵し、有効なレンダリングおよび美学的整合性においてはそれを大幅に凌駕します。これらの結果は、WebGen-R1 を、機能的なコード生成からプロジェクトレベルの Web アプリケーション生成への小規模オープンモデルのスケーリングにおける有望な道筋として位置づけます。
Original Content
arXiv:2604.20398v1 Announce Type: cross
Abstract: While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.