Acknowledge License and Additional Terms of Use to accept the repository

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.

追加利用規約

Qwen-3-VL-Ricoh-8B-20260227（以下「本モデル」という。）は、Apache License, Version 2.0（以下「Apacheライセンス」という。）に基づき提供されます。本モデルを取得し、使用し、複製し、改変し、再配布し、又は本モデルを利用したサービス若しくは製品を提供する者（以下「利用者」という。）は、Apacheライセンスの条件に従うほか、本追加利用規約（以下「本規約」という。）に同意の上、本モデルを利用するものとします。

第1条（適用関係）

本モデルに係る著作権ライセンス条件は、Apacheライセンスに従うものとし、再配布、改変、商用利用その他Apacheライセンスにより認められる行為は、当該ライセンスの条件に従う限り、許容されます。
本規約は、本モデルの利用に伴う出力（本モデルに対する入力又は指示に応じて本モデルが生成し、又は返す文章、数値その他の結果をいう。以下同じ。）の取扱い、第三者ライセンス（第3条において定義。）の遵守その他の追加事項を定めるものとします。

第2条（再配布等）

利用者が本モデル又はこれを改変したものを再配布する場合には、Apacheライセンスに従い、著作権表示、ライセンス表示その他必要な表示を維持し、変更を加えた場合は、その旨を明示するものとします。
利用者が本モデル又はこれを改変したものを利用したサービス又は製品を第三者に提供する場合、当該サービス又は製品に関して利用者が第三者に対して負う保証、サポート、補償その他一切の義務は、利用者が自己の名義と責任において負うものとし、リコーに何らの義務又は責任も生じさせないものとします。

第3条（第三者ライセンス等）
本モデルに、第三者が定める利用条件、許諾条件その他のライセンス条件（以下、総称して「第三者ライセンス」という。）の適用を受けるベースモデル、ソフトウェア、ライブラリ、データその他の構成要素が含まれ、又は関連する場合、利用者は、自己の責任において当該第三者ライセンスの内容を確認し、これを遵守するものとします。

第4条（利用者の責任）

利用者は、本モデルへの入力、追加学習、評価、出力の利用及び第三者提供について、法令に違反せず、契約上の義務に違反せず、かつ第三者の権利を侵害しないことを、自己の責任において確認するものとします。
利用者は、本モデルに投入し、又は本モデルと併用するデータ、素材、文書、画像、音声その他一切の情報について、適法に利用し、又は取り扱うために必要な権利及び権限を自ら確保するものとします。
利用者は、本モデルの出力を対外提供、意思決定、業務利用、研究利用又は製品実装に用いる前に、その正確性、合法性、安全性及び妥当性を自ら確認するものとします。

第5条（禁止事項）

利用者は、本モデル又はその出力を用いて、法令若しくは公序良俗に違反する行為、第三者の権利を侵害する行為、又は第三者に重大な危害を及ぼす行為をしてはならないものとします。
利用者は、生命、身体、重大な財産又は重要インフラに重大な影響を及ぼし得る用途並びに医療、法律、税務、会計、金融、人事、採用、与信、公共サービスその他高度な判断又は説明責任を要する分野において、本モデル又はその出力を唯一又は主要な判断根拠として用いて自動的に判断してはならず、適切な人的確認を経るものとします。

第6条（保証の否認）

本モデル及び出力は、無償かつ現状有姿で提供され、何らの保証も伴いません。
リコーは、本モデル及び出力について、商品性、特定目的適合性、正確性、完全性、有用性、継続性、可用性、安全性、非侵害性その他一切の保証を行いません。
リコーは、本モデルに関するサポート、問い合わせ対応、アップデート、バグ修正又は継続提供の義務を負いません。

第7条（責任の制限）
リコーは、本モデル又は出力に起因し又は関連して生じた一切の損害について、責任を負いません。

第8条（準拠法及び管轄）
本規約は日本法に準拠し、本規約又は本モデルに起因し又は関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。

（以上）

Qwen-3-VL-Ricoh-8B-20260227

株式会社リコー（社長執行役員：大山晃）は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）」第3期において、マルチモーダル大規模言語モデル（以下「LMM」）の開発に取り組んできました。このたび、リコーは図表を含んだ様々なドキュメント群を、多段推論を行うことでより高精度に読み取ることができるリーズニング性能を持つLMM（以下、リーズニングLMM）の基本モデル「Qwen3-VL-Ricoh-32B-20260227」の開発を完了しました。今回、本モデル開発に適用した技術を用いて開発した軽量モデル「Qwen-3-VL-Ricoh-8B-20260227」を公開いたします。

GENIAC（ジーニアック/Generative AI Accelerator Challenge）：主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等を実施するプロジェクト。
リーズニング性能： LLMが単に情報を検索したりテキストを生成したりするだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す性能。

Qwen-3-VL-Ricoh-8B-20260227は日本語に最適化されたVision Language Model(VLM)です。
このモデルはQwen3-VL-8B-ThinkingおよびQwen3-VL-8B-Instructをもとに開発されました。
Qwen3を寛大なオープンライセンスのもとで公開してくださったQwenチームに深く感謝いたします。

主な機能強化

図表読解の深化: 強化学習による推論プロセスの導入で、複雑なドキュメントの読み間違いを低減。
マルチモーダル推論: データの抽出に留まらず、読み取った数値に基づく計算や比較分析の精度が向上。
高信頼な回答生成: <think></think>タグ内を含めて日本語化することで、解答に至るまでの根拠を明確化。

Quickstart

このモデルは vLLM 0.11.0 を用いて動作確認を実施しております。
以下にvLLMを用いて推論を行うための環境構築の例を示します。

conda create -n vllm python=3.10 -y
conda activate vllm
pip install vllm==0.11.0
pip install qwen-vl-utils==0.0.14
pip install transformers==4.57.0

Using Qwen-3-VL-Ricoh-8B-20260227 with vLLM

以下にvLLMを用いて推論を行うための例を示します。

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from transformers import AutoProcessor
from vllm import LLM, SamplingParams
from qwen_vl_utils import process_vision_info
from PIL import Image

MODEL_PATH = "ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227"
IMG_PATH = "./calendar_20251210124428.png"

image = Image.open(IMG_PATH)
llm = LLM(model=MODEL_PATH)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "この画像によると、制度改正セミナーはいつでしょうか？"},
            {
                "type": "image",
                "image": image,
                "min_pixels": 200704,
                "max_pixels": 5242880,
            },
        ],
    },
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
prompt = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True)

mm_data = {}
if image_inputs is not None:
    mm_data["image"] = image_inputs
if video_inputs is not None:
    mm_data["video"] = video_inputs

llm_inputs = {
    "prompt": prompt,
    "multi_modal_data": mm_data,
    "mm_processor_kwargs": video_kwargs,
}

sampling_params = SamplingParams(
    temperature=1.0,
    top_p=0.95,
    max_tokens=1024,
    seed=42,
)

outputs = llm.generate([llm_inputs], sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

Model Performance

GPU利用期間である2/17までに公開済みかつvllm==0.11.0で動作確認が出来たモデルを対象に公開ベンチマークであるJDocQAと独自ベンチマークであるJDocQA-Reasoningを用いて評価を行いました。
ただし、Ministral-3のみvllm==0.12.0にて評価を行っております。
推論はvllm==0.11.0およびvllm==0.12.0(Ministral-3のみ)を用いて行い、評価はAzure OpenAI Serviceを用いてGPT-4.1(JDocQA-Reasoning)およびGPT-4o(JDocQA)によるLLM-as-a-Judgeによって行いました。
JDocQAは画像の解像度が低いことが原因でモデルが回答できない問題を排除するため、PDFから画像を作成する際に、画像に含まれる文字が読み取り可能なサイズまで拡大して画像化しております。
JDocQA-Reasoningは当初GPT-4oにて評価を行っておりましたが、同じ推論結果を入力して複数回評価させた際にGPT-4.1の方が分散が小さかったためGPT-4.1に変更しています。
GPT-5.2及びGemini以外に関しては10回の推論及び評価を行い推論モデル及び評価モデルのゆらぎを低減できるよう努めました。
GPU利用期間内に動作確認ができなかったその他の最新のモデルに関しても、今後評価を進めてまいります。

Model	JDocQA-Reasoning	JDocQA
gemma-3-12b-it	0.257	2.742
gemma-3-27b-it	0.289	2.854
Ministral-3-8B-Reasoning-2512	0.501	2.567
Ministral-3-14B-Reasoning-2512	0.601	3.066
Qwen3-VL-8B-Thinking	0.699	3.890
Qwen-3-VL-Ricoh-8B-20260227	0.718	3.998
GPT-5.2	0.731	3.928
Gemini 2.5 Pro	0.838	4.077
Gemini 3 Pro Preview	0.880	4.241
(参考)Qwen3-VL-Ricoh-32B-20260227	0.826	4.076

推論時に個別に設定したパラメータは以下の通りです。
推論時のTemperatureは各モデルの推奨値とし、Temperatureを0.0以外にすることによる推論のゆらぎは複数回の推論と評価で低減するよう努めました。
ただし、Gemini 2.5 Pro及びGemini 3 Pro Preview及びQwen3-VL-Ricoh-32B-20260227のみ開発時の評価データを用いているためTemperature=0.0としています。

Parameter	Temperature	Top_p	URL
gemma-3-12b-it	1.0	0.95	URL
gemma-3-27b-it	1.0	0.95	URL
Ministral-3-8B-Reasoning-2512	0.7	0.95	URL
Ministral-3-14B-Reasoning-2512	0.7	0.95	URL
Qwen3-VL-8B-Thinking	1.0	0.95	URL
Qwen-3-VL-Ricoh-8B-20260227	1.0	0.95
GPT-5.2	-	-
Gemini 2.5 Pro	0.0	1.0
Gemini 3 Pro Preview	0.0	1.0
(参考)Qwen3-VL-Ricoh-32B-20260227	0.0	1.0

JDocQA: Japanese Document Question Answering Dataset for Generative Language Models (Onami et al., 2024)
Paper: https://aclanthology.org/2024.lrec-main.830
Repository: https://github.com/mizuumi/JDocQA
JDocQA-Reasoning
JDocQA-Reasoningは、JDocQAに用いられているテスト画像のサブセットに対して新規に一問一答のQAを付け直すことによって作成した、1000問以上からなる独自のベンチマークです。画像には図表が含まれることを条件とし、更にQAは図表に含まれる内容についての質問としています。QAとて付与したタスクは、図表やフローに直接示されている情報を把握し、そのまま取り出すことを目的とする抽出タスクを中心に、抽出した値を基に、四則演算や比率、統計的な集約などの数値処理を行う計算タスク、複数の値や要素を対比し、その関係性を明らかにする比較タスク、欠落しているデータや情報を既存の要素から推定・再構成することを目的とする補完タスクなどを含め、図表の読み取り能力及びモデルの推論能力をより評価し易い構成としています。JDocQA-Reasoningは今後難易度を調整したうえで公開する予定です。

企業での活用に向けて

セキュリティやプライバシー、ガバナンスなどの観点から、オンプレミスや自社データセンターなどの社内専用環境でAIを利用したいと考える企業も多く、省リソースでのAI活用のニーズが高まっています。リコーが開発した本モデルは、オンプレミス環境でも導入でき、さらに企業の業種・業務に応じたファインチューニングも可能です。
また、企業内での活用を加速するためには、開発コスト・運用コストの低減も課題となっています。リコーは、モデルマージの技術により、効率的な開発プロセスを確立し、プライベートモデル提供に活用していきます。さらに、独自の画像トークンの圧縮技術により、高性能化に伴って増大する運用コスト低減にも取り組みます。詳細は技術ページをご覧くだださい。

Usage and License Notices:

Qwen-3-VL-Ricoh-8B-20260227の利用規約（Terms of Use）は、LICENSEファイルに記載しております。

Downloads last month: 960

Safetensors

Model size

9B params

Tensor type

BF16

Model tree for ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227

Base model

Qwen/Qwen3-VL-8B-Thinking

Finetuned

(48)

this model

Finetunes

1 model

Quantizations

3 models