init: ai dummy state

2025-12-24 13:43:34 +08:00 · 2025-12-24 13:43:34 +08:00 · 4886fc8861
commit 4886fc8861
53 changed files with 6533 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@ -0,0 +1,2 @@
 # SCM syntax highlighting & preventing 3-way merges
 pixi.lock merge=binary linguist-language=YAML linguist-generated=true -diff
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,14 @@
 *.jpg
 *.png
 # pixi environments
 .pixi/*
 !.pixi/config.toml
 results
 results/*
 backups
 notebooks
 crack500
 __pycache__
 *.pyc
--- a/.pixi/config.toml
+++ b/.pixi/config.toml
@ -0,0 +1,32 @@
 [mirrors]
 # redirect all requests for conda-forge to the prefix.dev mirror
 "https://conda.anaconda.org/conda-forge" = [
    "https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge",
 ]
 "https://repo.anaconda.com/bioconda" = [
    "https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda",
 ]
 "https://repo.anaconda.com/pkgs/main" = [
    "https://mirrors.ustc.edu.cn/anaconda/pkgs/main",
 ]
 "https://pypi.org/simple" = ["https://mirror.nju.edu.cn/pypi/web/simple"]
 [proxy-config]
 http = "http://172.22.0.1:7890"
 https = "http://172.22.0.1:7890"
 non-proxy-hosts = [".cn", "localhost", "[::1]"]
 [pypi-config]
 # Main index url
 index-url = "https://mirror.nju.edu.cn/pypi/web/simple"
 # list of additional urls
 extra-index-urls = ["https://mirror.nju.edu.cn/pytorch/whl/cu126"]
 # can be "subprocess" or "disabled"
 keyring-provider = "subprocess"
 # allow insecure connections to host
 allow-insecure-host = ["localhost:8080"]
--- a/AGENTS.md
+++ b/AGENTS.md
@ -0,0 +1,25 @@
 # Repository Guidelines
 ## Project Structure & Module Organization
 Source lives in `src/` with packages: `src/dataset/` (dataset abstractions + Crack500 loader), `src/model/` (HF adapters, Trainer wrappers, predictor + CLI), `src/model_configuration/` (dataclass configs + registry), `src/evaluation/` (metrics, pipeline evaluator, CLI), `src/visualization/` (overlay/galleries + pipeline-driven CLI), and `src/tasks/` (task configs + pipeline runner for train→eval→viz). Datasets stay in `crack500/`, and experiment artifacts should land in `results/<prompt_type>/...`.
 ## Build, Test, and Development Commands
 Install dependencies with `pip install -r requirements.txt` inside the `sam2` env. The CLI wrappers now call the TaskRunner: `python run_bbox_evaluation.py --data_root ./crack500 --test_file ./crack500/test.txt --expand_ratio 0.05` executes bbox evaluate + visualize, while `python run_point_evaluation.py --point_configs 1 3 5` sweeps multi-point setups. Reusable pipelines can be launched via the TOML templates (`tasks/bbox_eval.toml`, `tasks/point_eval.toml`) using `python -m src.tasks.run_task --task_file <file>`. HF-native commands remain available for fine-tuning (`python -m src.model.train_hf ...`), metrics (`python -m src.evaluation.run_pipeline ...`), and overlays (`python -m src.visualization.run_pipeline_vis ...`).
 ## Coding Style & Naming Conventions
 Follow PEP 8 with 4-space indents, <=100-character lines, snake_case functions, PascalCase classes, and explicit type hints. Keep logic within its package (dataset readers under `src/dataset/`, Trainer utilities inside `src/model/`) and prefer pathlib, f-strings, and concise docstrings that clarify SAM2-specific heuristics.
 ## Refactor & HF Integration Roadmap
 1. **Dataset module**: generalize loaders so Crack500 and future benchmarks share a dataset interface emitting HF dicts (`pixel_values`, `prompt_boxes`).  
 2. **Model + configuration**: wrap SAM2 checkpoints with `transformers` classes, ship reusable configs, and add HF fine-tuning utilities (LoRA/PEFT optional).  
 3. **Evaluation & visualization**: move metric code into `src/evaluation/` and visual helpers into `src/visualization/`, both driven by a shared HF `pipeline` API.  
 4. **Benchmarks**: add scripts that compare pre-trained vs fine-tuned models and persist summaries to `results/<dataset>/<model_tag>/evaluation_summary.json`.
 ## Testing Guidelines
 Treat `python run_bbox_evaluation.py --skip_visualization` as regression test, then spot-check overlays via `--num_vis 5`. Run `python -m src.evaluation.run_pipeline --config_name sam2_bbox_prompt --max_samples 16` so dataset→pipeline→evaluation is exercised end-to-end, logging IoU/Dice deltas against committed summaries.
 ## Commit & Pull Request Guidelines
 Adopt short, imperative commit titles (`dataset: add hf reader`). Describe scope and runnable commands in PR descriptions, attach metric/visual screenshots from `results/.../visualizations/`, and note any new configs or checkpoints referenced. Highlight where changes sit in the planned module boundaries so reviewers can track the refactor’s progress.
 ## Data & Configuration Tips
 Never commit Crack500 imagery or SAM2 weights—verify `.gitignore` coverage before pushing. Add datasets via config entries instead of absolute paths, and keep `results/<prompt_type>/<experiment_tag>/` naming so HF sweeps can traverse directories predictably.
--- a/README.md
+++ b/README.md
@ -0,0 +1,302 @@
 # SAM2 Crack500 评估项目
 使用 SAM2（Segment Anything Model 2）在 Crack500 数据集上进行裂缝分割评估。
 ## 📋 项目概述
 本项目实现了 **方式 1：基于边界框提示（Bounding Box Prompting）** 来评估 SAM2 在混凝土裂缝分割任务上的性能。
 ### 核心思路
 1. 从 Ground Truth 掩码中提取裂缝区域的边界框（连通域分析）
 2. 将边界框作为提示输入 SAM2 模型
 3. 评估 SAM2 的分割结果与 GT 的差异
 4. 计算多种评估指标（IoU, Dice, F1-Score 等）
 ## 🏗️ 项目结构
 ```
 sam_crack/
 ├── crack500/                    # Crack500 数据集
 │   ├── test.txt                 # 测试集文件列表
 │   ├── testcrop/                # 测试图像
 │   └── testdata/                # 测试掩码
 ├── sam2/                        # SAM2 模型库
 │   └── checkpoints/             # 模型权重
 ├── src/                         # 源代码
 │   ├── bbox_prompt.py           # 边界框提示推理
 │   ├── evaluation.py            # 评估指标计算
 │   └── visualization.py         # 可视化工具
 ├── results/                     # 结果输出
 │   └── bbox_prompt/
 │       ├── predictions/         # 预测掩码
 │       ├── visualizations/      # 可视化图像
 │       ├── evaluation_results.csv
 │       └── evaluation_summary.json
 ├── run_bbox_evaluation.py       # 主运行脚本
 └── README.md                    # 本文件
 ```
 ## 🚀 快速开始
 ### 1. 环境准备
 确保已安装 SAM2 和相关依赖：
 ```bash
 # 激活 conda 环境
 conda activate sam2
 # 安装额外依赖
 pip install opencv-python scikit-image pandas matplotlib seaborn tqdm
 ```
 ### 2. 下载模型权重
 ```bash
 cd sam2/checkpoints
 ./download_ckpts.sh
 cd ../..
 ```
 或手动下载：
 - [sam2.1_hiera_small.pt](https://dl.fbaipublicfiles.com/segment_anything_2/092824/sam2.1_hiera_small.pt)
 ### 3. 运行完整评估
 ```bash
 # 运行完整流程（推理 + 评估 + 可视化）
 python run_bbox_evaluation.py
 # 或使用自定义参数
 python run_bbox_evaluation.py \
    --checkpoint ./sam2/checkpoints/sam2.1_hiera_small.pt \
    --expand_ratio 0.05 \
    --num_vis 20
 ```
 ### 4. 查看结果
 ```bash
 # 评估结果
 cat results/bbox_prompt/evaluation_summary.json
 # 可视化图像
 ls results/bbox_prompt/visualizations/
 ```
 ## 🧩 TaskRunner 工作流
 项目已经迁移到任务编排模式，`run_bbox_evaluation.py` / `run_point_evaluation.py` 会在内部构建 `TaskRunner`：
 - **边界框评估**（推理 + 评估 + 可视化）  
  ```bash
  python run_bbox_evaluation.py --data_root ./crack500 --test_file ./crack500/test.txt \
      --expand_ratio 0.05 --output_dir ./results/bbox_prompt
  ```
 - **点提示多实验**（默认对 1/3/5 点进行评估，可通过 `--point_configs` / `--per_component` 调整）  
  ```bash
  python run_point_evaluation.py --data_root ./crack500 --test_file ./crack500/test.txt \
      --point_configs 1 3 5 --per_component
  ```
 - **直接运行 TOML 任务**：在 `tasks/` 目录提供了 `bbox_eval.toml`、`point_eval.toml` 模板，可按需修改数据路径或 `extra_params` 然后执行  
  ```bash
  python -m src.tasks.run_task --task_file tasks/bbox_eval.toml
  ```
 所有任务都会依赖 `ConfigRegistry` 中的配置（默认 `sam2_bbox_prompt`），如需自定义数据集位置或提示模式，可在 CLI 中通过参数覆盖，或在 TOML 的 `[task.dataset_overrides]` / `[task.dataset_overrides.extra_params]` 区域修改。
 ## 📊 评估指标
 本项目计算以下评估指标：
 | 指标             | 说明                                     |
 | ---------------- | ---------------------------------------- |
 | **IoU**          | Intersection over Union，交并比          |
 | **Dice**         | Dice 系数，医学图像常用指标              |
 | **Precision**    | 精确率，预测为正的样本中真正为正的比例   |
 | **Recall**       | 召回率，真实为正的样本中被正确预测的比例 |
 | **F1-Score**     | Precision 和 Recall 的调和平均           |
 | **Skeleton IoU** | 骨架 IoU，针对细长裂缝的特殊指标         |
 ## 🎯 命令行参数
 ```bash
 python run_bbox_evaluation.py --help
 ```
 ### 主要参数
 | 参数             | 默认值                                     | 说明                 |
 | ---------------- | ------------------------------------------ | -------------------- |
 | `--data_root`    | `./crack500`                               | 数据集根目录         |
 | `--test_file`    | `./crack500/test.txt`                      | 测试集文件           |
 | `--checkpoint`   | `./sam2/checkpoints/sam2.1_hiera_small.pt` | 模型权重路径         |
 | `--model_cfg`    | `sam2.1_hiera_s.yaml`                      | 模型配置文件         |
 | `--output_dir`   | `./results/bbox_prompt`                    | 输出目录             |
 | `--expand_ratio` | `0.05`                                     | 边界框扩展比例（5%） |
 | `--num_vis`      | `20`                                       | 可视化样本数量       |
 | `--vis_all`      | `False`                                    | 是否可视化所有样本   |
 ### 流程控制参数
 | 参数                   | 说明                         |
 | ---------------------- | ---------------------------- |
 | `--skip_inference`     | 跳过推理步骤（使用已有预测） |
 | `--skip_evaluation`    | 跳过评估步骤                 |
 | `--skip_visualization` | 跳过可视化步骤               |
 ### 使用示例
 ```bash
 # 只运行推理
 python run_bbox_evaluation.py --skip_evaluation --skip_visualization
 # 只运行评估（假设已有预测结果）
 python run_bbox_evaluation.py --skip_inference --skip_visualization
 # 使用不同的边界框扩展比例
 python run_bbox_evaluation.py --expand_ratio 0.1
 # 可视化所有样本
 python run_bbox_evaluation.py --skip_inference --skip_evaluation --vis_all
 ```
 ## 📈 结果示例
 ### 评估结果统计
 ```
 ============================================================
 评估结果统计:
 ============================================================
 IoU            : 0.7234 ± 0.1456
 Dice           : 0.8123 ± 0.1234
 Precision      : 0.8456 ± 0.1123
 Recall         : 0.7890 ± 0.1345
 F1-Score       : 0.8156 ± 0.1234
 Skeleton IoU   : 0.6789 ± 0.1567
 ============================================================
 ```
 ### 可视化说明
 生成的可视化图像包含 4 个子图：
 1. **Original Image**: 原始图像
 2. **Ground Truth**: 真实掩码
 3. **Prediction**: SAM2 预测掩码
 4. **Overlay Visualization**: 叠加可视化
   - 🟡 黄色：True Positive（正确预测）
   - 🟢 绿色：False Negative（漏检）
   - 🔴 红色：False Positive（误检）
 ## 🔧 模块说明
 ### 1. bbox_prompt.py
 边界框提示推理模块，核心功能：
 - `extract_bboxes_from_mask()`: 从 GT 掩码提取边界框
 - `predict_with_bbox_prompt()`: 使用边界框提示进行 SAM2 预测
 - `process_test_set()`: 批量处理测试集
 ### 2. evaluation.py
 评估指标计算模块，核心功能：
 - `compute_iou()`: 计算 IoU
 - `compute_dice()`: 计算 Dice 系数
 - `compute_precision_recall()`: 计算 Precision 和 Recall
 - `compute_skeleton_iou()`: 计算骨架 IoU
 - `evaluate_test_set()`: 批量评估测试集
 ### 3. visualization.py
 可视化模块，核心功能：
 - `create_overlay_visualization()`: 创建叠加可视化
 - `create_comparison_figure()`: 创建对比图
 - `visualize_test_set()`: 批量可视化测试集
 - `create_metrics_distribution_plot()`: 创建指标分布图
 ## 🔬 技术细节
 ### 边界框生成策略
 1. 使用 `cv2.connectedComponentsWithStats()` 进行连通域分析
 2. 为每个连通域计算最小外接矩形
 3. 可选：扩展边界框 N% 模拟不精确标注
 4. 过滤面积小于阈值的噪声区域
 ### SAM2 推理流程
 ```python
 # 1. 设置图像
 predictor.set_image(image)
 # 2. 使用边界框提示预测
 masks, scores, logits = predictor.predict(
    box=bbox,
    multimask_output=False
 )
 # 3. 合并多个边界框的预测结果
 combined_mask = np.logical_or(mask1, mask2, ...)
 ```
 ## 📝 注意事项
 1. **GPU 内存**: 推荐使用至少 8GB 显存的 GPU
 2. **模型选择**:
   - `sam2.1_hiera_tiny`: 最快，精度较低
   - `sam2.1_hiera_small`: 平衡速度和精度（推荐）
   - `sam2.1_hiera_large`: 最高精度，速度较慢
 3. **边界框扩展**:
   - 0%: 严格边界框
   - 5%: 轻微扩展（推荐）
   - 10%: 较大扩展，模拟粗略标注
 ## 🐛 常见问题
 ### Q1: 模型加载失败
 ```bash
 # 检查模型文件是否存在
 ls -lh sam2/checkpoints/
 # 重新下载模型
 cd sam2/checkpoints && ./download_ckpts.sh
 ```
 ### Q2: CUDA 内存不足
 ```python
 # 使用更小的模型
 --checkpoint ./sam2/checkpoints/sam2.1_hiera_tiny.pt
 --model_cfg sam2.1_hiera_t.yaml
 ```
 ### Q3: 导入错误
 ```bash
 # 确保 SAM2 已正确安装
 cd sam2
 pip install -e .
 ```
 ## 📚 参考资料
 - [SAM2 官方仓库](https://github.com/facebookresearch/sam2)
 - [SAM2 论文](https://arxiv.org/abs/2408.00714)
 - [Crack500 数据集](https://github.com/fyangneil/pavement-crack-detection)
 ## 📄 许可证
 本项目遵循 MIT 许可证。SAM2 模型遵循 Apache 2.0 许可证。
 ## 🙏 致谢
 - Meta AI 的 SAM2 团队
 - Crack500 数据集作者
--- a/configs/preprocesser.json
+++ b/configs/preprocesser.json
@ -0,0 +1,35 @@
 {
  "crop_size": null,
  "data_format": "channels_first",
  "default_to_square": true,
  "device": null,
  "disable_grouping": null,
  "do_center_crop": null,
  "do_convert_rgb": true,
  "do_normalize": false,
  "do_rescale": false,
  "do_resize": false,
  "image_mean": [
    0.485,
    0.456,
    0.406
  ],
  "image_processor_type": "Sam2ImageProcessorFast",
  "image_std": [
    0.229,
    0.224,
    0.225
  ],
  "input_data_format": null,
  "mask_size": {
    "height": 256,
    "width": 256
  },
  "processor_class": "Sam2VideoProcessor",
  "resample": 2,
  "rescale_factor": 0.00392156862745098,
  "return_tensors": null,
  "size": {
    "longest_edge": 1024
  }
 }
--- a/note.md
+++ b/note.md
@ -0,0 +1,34 @@
 ## Mean
 ```csv
 Methods Architecture Parameters (M) GFLOPs Precision (%) Recall (%) F1 (%) IOU (%)
 UNet [31] CNN 31.0 54.8 63.9 68.4 66.1 49.3
 DeepCrack Y. [13] CNN 14.7 20.1 86.73 57.58 69.2 52.9 DeepCrack Q. [28] CNN 30 137 70.35 70.92 70.6 54.6 TransUNet [34] Transformer 101 48.3 64 67 70.2 56.0 CT CrackSeg [29] Transformer 22.9 41.6 69.1 78 73.3 57.8 VM-UNet* [16],  [30] Mamba 27 4.11 70.7 74.1 72.3 56.7  CrackSegMamba Mamba 0.23 0.70 70.8 75.2 72.9 57.4
 ```
 ```text
 ```
 | Methods               | Presision (%) | Recall (%) | F1 (%) | IOU (%) |
 | --------------------- | ------------- | ---------- | ------ | ------- |
 | UNet [31]             | 63.9          | 68.4       | 66.1   | 49.3    |
 | DeepCrack Y. [13]     | 86.73         | 57.58      | 69.2   | 52.9    |
 | DeepCrack Q. [28]     | 70.35         | 70.92      | 70.6   | 54.6    |
 | TransUNet [34]        | 64            | 67         | 70.2   | 56.0    |
 | CT CrackSeg [29]      | 69.1          | 78         | 73.3   | 57.8    |
 | VM-UNet\* [16], [30]  | 70.7          | 74.1       | 72.3   | 56.7    |
 | CrackSegMamba         | 70.8          | 75.2       | 72.9   | 57.4    |
 | SAM2 (bbox prompt)    | 54.14         | 62.72      | 53.58  | 39.60   |
 | SAM2 (1 point prompt) | 53.85         | 15.25      | 12.70  | 8.43    |
 | SAM2 (3 point prompt) | 55.26         | 63.26      | 45.94  | 33.35   |
 | SAM2 (5 point prompt) | 56.38         | 69.95      | 51.89  | 38.50   |
 ```text
 model, meaniou, stdiou, meanf1, stdf1
 bbox, 39.59, 20.43, 53.57, 21.78
 1pts, 8.42, 15.3, 12.69, 20.27
 3pts, 33.34, 21.83, 45.94, 25.16
 5pts, 38.50, 21.47, 51.89, 24.18
 ```
--- a/pixi.lock
+++ b/pixi.lock
--- a/pixi.toml
+++ b/pixi.toml
@ -0,0 +1,28 @@
 [workspace]
 authors = ["Dustella <fdnoaivj@outlook.com>"]
 channels = ["conda-forge"]
 name = "sam_crack"
 platforms = ["linux-64"]
 version = "0.1.0"
 [tasks]
 [dependencies]
 python = "3.12.12.*"
 [pypi-dependencies]
 torch = ">=2.5.1"
 torchvision = ">=0.15.0"
 torchaudio = "==2.9.0"
 opencv-python = ">=4.8.0"
 pillow = ">=10.0.0"
 scikit-image = ">=0.21.0"
 numpy = ">=1.24.0"
 scipy = ">=1.11.0"
 matplotlib = ">=3.7.0"
 seaborn = ">=0.12.0"
 tqdm = ">=4.65.0"
 pandas = ">=2.0.0"
 transformers = ">=4.57.3, <5"
 ipykernel = ">=7.1.0, <8"
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,12 @@
 torch>=2.5.1
 torchvision>=0.15.0
 transformers>=4.37.0
 opencv-python>=4.8.0
 pillow>=10.0.0
 scikit-image>=0.21.0
 numpy>=1.24.0
 scipy>=1.11.0
 matplotlib>=3.7.0
 seaborn>=0.12.0
 tqdm>=4.65.0
 pandas>=2.0.0
--- a/run_bbox_evaluation.py
+++ b/run_bbox_evaluation.py
@ -0,0 +1,137 @@
 #!/usr/bin/env python3
 """
 SAM2 边界框提示方式完整评估流程 (TaskRunner 驱动版本)
 """
 import argparse
 import logging
 from dataclasses import dataclass
 from typing import List, Optional
 from src.tasks.config import TaskConfig, TaskStepConfig
 from src.tasks.io import load_task_from_toml
 from src.tasks.pipeline import TaskRunner
@dataclass
 class BBoxCLIArgs:
    data_root: str
    test_file: str
    model_id: str
    output_dir: str
    expand_ratio: float
    num_vis: int
    vis_all: bool
    skip_inference: bool
    skip_evaluation: bool
    skip_visualization: bool
    config_name: str
    task_file: Optional[str]
 def parse_args() -> BBoxCLIArgs:
    parser = argparse.ArgumentParser(
        description="SAM2 边界框提示方式 - TaskRunner 驱动完整评估"
    )
    parser.add_argument("--data_root", type=str, default="./crack500", help="数据集根目录")
    parser.add_argument("--test_file", type=str, default="./crack500/test.txt", help="测试集文件路径")
    parser.add_argument("--model_id", type=str, default="facebook/sam2-hiera-small", help="HuggingFace SAM2 模型 ID")
    parser.add_argument("--output_dir", type=str, default="./results/bbox_prompt", help="输出目录")
    parser.add_argument("--expand_ratio", type=float, default=0.05, help="边界框扩展比例 (0.0-1.0)")
    parser.add_argument("--num_vis", type=int, default=20, help="可视化样本数量")
    parser.add_argument("--vis_all", action="store_true", help="可视化所有样本")
    parser.add_argument("--skip_inference", action="store_true", help="跳过推理步骤")
    parser.add_argument("--skip_evaluation", action="store_true", help="跳过评估步骤")
    parser.add_argument("--skip_visualization", action="store_true", help="跳过可视化步骤")
    parser.add_argument(
        "--config_name",
        type=str,
        default="sam2_bbox_prompt",
        help="ProjectConfig 名称（来自 ConfigRegistry）",
    )
    parser.add_argument(
        "--task_file",
        type=str,
        default=None,
        help="可选：指向 TOML 任务配置（若提供则忽略其余 CLI 参数）",
    )
    args = parser.parse_args()
    return BBoxCLIArgs(
        data_root=args.data_root,
        test_file=args.test_file,
        model_id=args.model_id,
        output_dir=args.output_dir,
        expand_ratio=args.expand_ratio,
        num_vis=args.num_vis,
        vis_all=args.vis_all,
        skip_inference=args.skip_inference,
        skip_evaluation=args.skip_evaluation,
        skip_visualization=args.skip_visualization,
        config_name=args.config_name,
        task_file=args.task_file,
    )
 def build_cli_task(args: BBoxCLIArgs) -> TaskConfig:
    steps: List[TaskStepConfig] = []
    common = {
        "data_root": args.data_root,
        "test_file": args.test_file,
        "model_id": args.model_id,
        "output_dir": args.output_dir,
    }
    if not args.skip_inference:
        steps.append(
            TaskStepConfig(
                kind="bbox_inference",
                params={**common, "expand_ratio": args.expand_ratio},
            )
        )
    if not args.skip_evaluation:
        steps.append(
            TaskStepConfig(
                kind="legacy_evaluation",
                params={
                    **common,
                    "pred_dir": f"{args.output_dir}/predictions",
                    "compute_skeleton": True,
                },
            )
        )
    if not args.skip_visualization:
        steps.append(
            TaskStepConfig(
                kind="legacy_visualization",
                params={
                    **common,
                    "pred_dir": f"{args.output_dir}/predictions",
                    "results_csv": f"{args.output_dir}/evaluation_results.csv",
                    "num_samples": args.num_vis,
                    "save_all": args.vis_all,
                    "create_metrics_plot": True,
                },
            )
        )
    return TaskConfig(
        name="bbox_cli_run",
        description="Legacy bbox prompt pipeline executed via TaskRunner",
        project_config_name=args.config_name,
        steps=steps,
    )
 def main() -> None:
    logging.basicConfig(level=logging.INFO)
    args = parse_args()
    if args.task_file:
        task = load_task_from_toml(args.task_file)
    else:
        task = build_cli_task(args)
    if not task.steps:
        raise ValueError("No steps configured for bbox evaluation. Please enable at least one stage.")
    runner = TaskRunner(task)
    runner.run()
 if __name__ == "__main__":
    main()
--- a/run_point_evaluation.py
+++ b/run_point_evaluation.py
@ -0,0 +1,223 @@
 #!/usr/bin/env python3
 """
 SAM2 点提示方式完整评估流程 (TaskRunner 驱动版本)
 """
 import argparse
 import logging
 import os
 from dataclasses import dataclass
 from pathlib import Path
 from typing import Dict, List, Optional
 import pandas as pd
 from src.tasks.config import TaskConfig, TaskStepConfig
 from src.tasks.io import load_task_from_toml
 from src.tasks.pipeline import TaskRunner
@dataclass
 class PointCLIArgs:
    data_root: str
    test_file: str
    model_id: str
    point_configs: List[int]
    per_component: bool
    num_vis: int
    skip_inference: bool
    skip_evaluation: bool
    skip_visualization: bool
    skip_comparison: bool
    comparison_dir: str
    config_name: str
    task_file: Optional[str]
 def parse_args() -> PointCLIArgs:
    parser = argparse.ArgumentParser(description="SAM2 点提示方式 - TaskRunner 驱动多点数对比实验")
    parser.add_argument("--data_root", type=str, default="./crack500", help="数据集根目录")
    parser.add_argument("--test_file", type=str, default="./crack500/test.txt", help="测试集文件路径")
    parser.add_argument("--model_id", type=str, default="facebook/sam2-hiera-small", help="HuggingFace SAM2 模型 ID")
    parser.add_argument("--point_configs", type=int, nargs="+", default=[1, 3, 5], help="要测试的点数配置")
    parser.add_argument("--per_component", action="store_true", help="为每个连通域独立采样点")
    parser.add_argument("--num_vis", type=int, default=10, help="可视化样本数量")
    parser.add_argument("--skip_inference", action="store_true", help="跳过推理步骤")
    parser.add_argument("--skip_evaluation", action="store_true", help="跳过评估步骤")
    parser.add_argument("--skip_visualization", action="store_true", help="跳过可视化步骤")
    parser.add_argument("--skip_comparison", action="store_true", help="跳过实验结果对比")
    parser.add_argument("--comparison_dir", type=str, default="./results", help="对比结果输出目录")
    parser.add_argument(
        "--config_name",
        type=str,
        default="sam2_bbox_prompt",
        help="ProjectConfig 名称（来自 ConfigRegistry）",
    )
    parser.add_argument(
        "--task_file",
        type=str,
        default=None,
        help="可选：指向 TOML 任务配置（若提供则跳过 CLI 组装步骤）",
    )
    args = parser.parse_args()
    return PointCLIArgs(
        data_root=args.data_root,
        test_file=args.test_file,
        model_id=args.model_id,
        point_configs=args.point_configs,
        per_component=args.per_component,
        num_vis=args.num_vis,
        skip_inference=args.skip_inference,
        skip_evaluation=args.skip_evaluation,
        skip_visualization=args.skip_visualization,
        skip_comparison=args.skip_comparison,
        comparison_dir=args.comparison_dir,
        config_name=args.config_name,
        task_file=args.task_file,
    )
 def default_output_dir(num_points: int, per_component: bool) -> str:
    if per_component:
        return f"./results/point_prompt_{num_points}pts_per_comp_hf"
    return f"./results/point_prompt_{num_points}pts_hf"
 def build_task_for_points(args: PointCLIArgs, num_points: int, output_dir: str) -> TaskConfig:
    steps: List[TaskStepConfig] = []
    common = {
        "data_root": args.data_root,
        "test_file": args.test_file,
        "model_id": args.model_id,
        "output_dir": output_dir,
    }
    if not args.skip_inference:
        steps.append(
            TaskStepConfig(
                kind="point_inference",
                params={
                    **common,
                    "num_points": num_points,
                    "per_component": args.per_component,
                },
            )
        )
    if not args.skip_evaluation:
        steps.append(
            TaskStepConfig(
                kind="legacy_evaluation",
                params={
                    **common,
                    "pred_dir": f"{output_dir}/predictions",
                    "compute_skeleton": True,
                },
            )
        )
    if not args.skip_visualization:
        steps.append(
            TaskStepConfig(
                kind="legacy_visualization",
                params={
                    **common,
                    "pred_dir": f"{output_dir}/predictions",
                    "results_csv": f"{output_dir}/evaluation_results.csv",
                    "num_samples": args.num_vis,
                    "save_all": False,
                    "create_metrics_plot": True,
                },
            )
        )
    return TaskConfig(
        name=f"point_cli_{num_points}",
        description=f"Legacy point prompt pipeline ({num_points} pts)",
        project_config_name=args.config_name,
        steps=steps,
    )
 def load_results_csv(output_dir: str) -> Optional[pd.DataFrame]:
    csv_path = Path(output_dir) / "evaluation_results.csv"
    if not csv_path.exists():
        return None
    return pd.read_csv(csv_path)
 def compare_results(results: Dict[int, pd.DataFrame], output_dir: str) -> None:
    if not results:
        return
    os.makedirs(output_dir, exist_ok=True)
    summary_rows = []
    for num_points, df in results.items():
        summary_rows.append(
            {
                "num_points": num_points,
                "iou_mean": df["iou"].mean(),
                "iou_std": df["iou"].std(),
                "dice_mean": df["dice"].mean(),
                "dice_std": df["dice"].std(),
                "f1_mean": df["f1_score"].mean(),
                "f1_std": df["f1_score"].std(),
                "precision_mean": df["precision"].mean(),
                "recall_mean": df["recall"].mean(),
            }
        )
    df_summary = pd.DataFrame(summary_rows).sort_values("num_points")
    summary_path = Path(output_dir) / "point_comparison" / "comparison_summary.csv"
    summary_path.parent.mkdir(parents=True, exist_ok=True)
    df_summary.to_csv(summary_path, index=False)
    import matplotlib.pyplot as plt
    metrics_to_plot = [
        ("iou_mean", "iou_std", "IoU"),
        ("dice_mean", "dice_std", "Dice"),
        ("f1_mean", "f1_std", "F1-Score"),
    ]
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))
    xs = df_summary["num_points"].tolist()
    for ax, (mean_col, std_col, title) in zip(axes, metrics_to_plot):
        ax.errorbar(
            xs,
            df_summary[mean_col],
            yerr=df_summary[std_col],
            marker="o",
            capsize=5,
            linewidth=2,
            markersize=8,
        )
        ax.set_xlabel("Number of Points", fontsize=12)
        ax.set_ylabel(title, fontsize=12)
        ax.set_title(f"{title} vs Number of Points", fontsize=14)
        ax.grid(True, alpha=0.3)
        ax.set_xticks(xs)
    plt.tight_layout()
    plot_path = summary_path.with_name("performance_comparison.png")
    fig.savefig(plot_path, dpi=150, bbox_inches="tight")
    plt.close(fig)
 def main() -> None:
    logging.basicConfig(level=logging.INFO)
    args = parse_args()
    if args.task_file:
        task = load_task_from_toml(args.task_file)
        TaskRunner(task).run()
        return
    comparison_data: Dict[int, pd.DataFrame] = {}
    for num_points in args.point_configs:
        output_dir = default_output_dir(num_points, args.per_component)
        task = build_task_for_points(args, num_points, output_dir)
        if not task.steps:
            continue
        TaskRunner(task).run()
        if not args.skip_comparison and not args.skip_evaluation:
            df = load_results_csv(output_dir)
            if df is not None:
                comparison_data[num_points] = df
    if not args.skip_comparison and comparison_data:
        compare_results(comparison_data, args.comparison_dir)
 if __name__ == "__main__":
    main()
--- a/src/bbox_prompt.py
+++ b/src/bbox_prompt.py
@ -0,0 +1,166 @@
 """
 边界框提示方式的 SAM2 裂缝分割实现（使用 HuggingFace Transformers）
 从 GT 掩码中提取边界框，使用 SAM2 进行分割
 """
 import os
 import numpy as np
 import torch
 from pathlib import Path
 from typing import Dict, List
 from tqdm import tqdm
 import json
 import cv2
 from .dataset.utils import extract_bboxes_from_mask, load_image_and_mask
 from .hf_sam2_predictor import HFSam2Predictor
 from .model.inference import predict_with_bbox_prompt
 def process_test_set(
    data_root: str,
    test_file: str,
    predictor: HFSam2Predictor,
    output_dir: str,
    expand_ratio: float = 0.0
 ) -> List[Dict]:
    """
    处理整个测试集
    Args:
        data_root: 数据集根目录
        test_file: 测试集文件路径 (test.txt)
        predictor: HFSam2Predictor 实例
        output_dir: 输出目录
        expand_ratio: 边界框扩展比例
    Returns:
        results: 包含每个样本信息的列表
    """
    # 创建输出目录
    os.makedirs(output_dir, exist_ok=True)
    pred_dir = os.path.join(output_dir, "predictions")
    os.makedirs(pred_dir, exist_ok=True)
    # 读取测试集文件
    with open(test_file, 'r') as f:
        lines = f.readlines()
    results = []
    print(f"开始处理 {len(lines)} 张测试图像...")
    for line in tqdm(lines, desc="处理测试集"):
        parts = line.strip().split()
        if len(parts) != 2:
            continue
        img_rel_path, mask_rel_path = parts
        # 构建完整路径
        img_path = os.path.join(data_root, img_rel_path)
        mask_path = os.path.join(data_root, mask_rel_path)
        # 检查文件是否存在
        if not os.path.exists(img_path):
            print(f"警告: 图像不存在 {img_path}")
            continue
        if not os.path.exists(mask_path):
            print(f"警告: 掩码不存在 {mask_path}")
            continue
        try:
            # 加载图像和掩码
            image, mask_gt = load_image_and_mask(img_path, mask_path)
            # 从 GT 掩码提取边界框
            bboxes = extract_bboxes_from_mask(mask_gt, expand_ratio=expand_ratio)
            # 使用 SAM2 预测
            with torch.inference_mode():
                mask_pred = predict_with_bbox_prompt(predictor, image, bboxes)
            # 保存预测掩码
            img_name = Path(img_rel_path).stem
            pred_path = os.path.join(pred_dir, f"{img_name}_pred.png")
            cv2.imwrite(pred_path, mask_pred)
            # 记录结果
            results.append({
                "image_path": img_rel_path,
                "mask_gt_path": mask_rel_path,
                "mask_pred_path": pred_path,
                "num_bboxes": len(bboxes),
                "image_shape": image.shape[:2],
            })
        except Exception as e:
            print(f"处理失败 {img_path}: {str(e)}")
            # print stack trace
            import traceback
            traceback.print_exc()
            continue
    # 保存结果信息
    results_file = os.path.join(output_dir, "results_info.json")
    with open(results_file, 'w') as f:
        json.dump(results, f, indent=2)
    print(f"\n处理完成！共处理 {len(results)} 张图像")
    print(f"预测掩码保存在: {pred_dir}")
    print(f"结果信息保存在: {results_file}")
    return results
 def main():
    """主函数"""
    # 配置参数
    DATA_ROOT = "./crack500"
    TEST_FILE = "./crack500/test.txt"
    OUTPUT_DIR = "./results/bbox_prompt_hf"
    # HuggingFace SAM2 模型
    MODEL_ID = "facebook/sam2-hiera-small"
    # 边界框扩展比例
    EXPAND_RATIO = 0.05  # 5% 扩展
    print("=" * 60)
    print("SAM2 边界框提示方式 (HuggingFace) - Crack500 数据集评估")
    print("=" * 60)
    print(f"数据集根目录: {DATA_ROOT}")
    print(f"测试集文件: {TEST_FILE}")
    print(f"模型: {MODEL_ID}")
    print(f"边界框扩展比例: {EXPAND_RATIO * 100}%")
    print(f"输出目录: {OUTPUT_DIR}")
    print("=" * 60)
    # 检查 CUDA 是否可用
    if not torch.cuda.is_available():
        print("警告: CUDA 不可用，将使用 CPU（速度会很慢）")
    else:
        print(f"使用 GPU: {torch.cuda.get_device_name(0)}")
    # 构建 SAM2 predictor
    print("\n加载 SAM2 模型...")
    from .hf_sam2_predictor import build_hf_sam2_predictor
    predictor = build_hf_sam2_predictor(model_id=MODEL_ID)
    print("模型加载完成！")
    # 处理测试集
    results = process_test_set(
        data_root=DATA_ROOT,
        test_file=TEST_FILE,
        predictor=predictor,
        output_dir=OUTPUT_DIR,
        expand_ratio=EXPAND_RATIO
    )
    print("\n" + "=" * 60)
    print("处理完成！接下来请运行评估脚本计算指标。")
    print("=" * 60)
 if __name__ == "__main__":
    main()
--- a/src/dataset/init.py
+++ b/src/dataset/init.py
@ -0,0 +1,16 @@
 from .base import BaseDataset, DatasetRecord, ModelReadySample, collate_samples
 from .registry import DatasetRegistry
 from .utils import extract_bboxes_from_mask, load_image_and_mask
 # ensure built-in datasets register themselves
 from . import crack500  # noqa: F401
 __all__ = [
    "BaseDataset",
    "DatasetRecord",
    "ModelReadySample",
    "collate_samples",
    "DatasetRegistry",
    "extract_bboxes_from_mask",
    "load_image_and_mask",
 ]
--- a/src/dataset/base.py
+++ b/src/dataset/base.py
@ -0,0 +1,167 @@
 from __future__ import annotations
 import abc
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Any, Callable, Dict, Iterable, List, Optional
 import numpy as np
 from PIL import Image
 import torch
 from torch.utils.data import Dataset
 from ..model_configuration.config import DatasetConfig
@dataclass
 class DatasetRecord:
    """
    Lightweight description of a single sample on disk.
    """
    image_path: Path
    mask_path: Optional[Path] = None
    prompt_path: Optional[Path] = None
    metadata: Dict[str, Any] = field(default_factory=dict)
@dataclass
 class ModelReadySample:
    """
    Standard container that mirrors what Hugging Face pipelines expect.
    """
    pixel_values: torch.Tensor | np.ndarray
    prompts: Dict[str, Any] = field(default_factory=dict)
    labels: Dict[str, Any] = field(default_factory=dict)
    metadata: Dict[str, Any] = field(default_factory=dict)
    def to_hf_dict(self) -> Dict[str, Any]:
        payload = {
            "pixel_values": self.pixel_values,
            "metadata": self.metadata,
        }
        if self.prompts:
            payload["prompts"] = self.prompts
        if self.labels:
            payload["labels"] = self.labels
        return payload
 class BaseDataset(Dataset):
    """
    Common dataset base class that handles record bookkeeping, IO, and
    formatting tensors for Hugging Face pipelines.
    """
    dataset_name: str = "base"
    def __init__(
        self,
        config: DatasetConfig,
        transforms: Optional[Callable[[ModelReadySample], ModelReadySample]] = None,
        return_hf_dict: bool = True,
    ) -> None:
        self.config = config
        self.transforms = transforms
        self.return_hf_dict = return_hf_dict
        self.records: List[DatasetRecord] = self.load_records()
    def __len__(self) -> int:
        return len(self.records)
    def __getitem__(self, index: int) -> Dict[str, Any] | ModelReadySample:
        record = self.records[index]
        sample = self.prepare_sample(record)
        if self.transforms:
            sample = self.transforms(sample)
        return sample.to_hf_dict() if self.return_hf_dict else sample
    @abc.abstractmethod
    def load_records(self) -> List[DatasetRecord]:
        """
        Scan the dataset directory / annotation files and return
        structured references to each item on disk.
        """
    def prepare_sample(self, record: DatasetRecord) -> ModelReadySample:
        """
        Load image/mask/prompt data from disk and wrap it inside ModelReadySample.
        Subclasses can override this to implement custom augmentations or prompt generation.
        """
        image = self._load_image(record.image_path)
        mask = (
            self._load_mask(record.mask_path)
            if record.mask_path is not None
            else None
        )
        prompts = self.build_prompts(record, mask)
        labels = {"mask": mask} if mask is not None else {}
        sample = ModelReadySample(
            pixel_values=image,
            prompts=prompts,
            labels=labels,
            metadata=record.metadata,
        )
        return sample
    def build_prompts(
        self, record: DatasetRecord, mask: Optional[np.ndarray]
    ) -> Dict[str, Any]:
        """
        Derive prompts from metadata or masks.
        Default implementation extracts bounding boxes from masks.
        """
        if mask is None:
            return {}
        boxes = self._mask_to_bboxes(mask)
        return {"boxes": boxes}
    def _load_image(self, path: Path) -> np.ndarray:
        image = Image.open(path).convert("RGB")
        return np.array(image)
    def _load_mask(self, path: Optional[Path]) -> Optional[np.ndarray]:
        if path is None:
            return None
        mask = Image.open(path).convert("L")
        return np.array(mask)
    def _mask_to_bboxes(self, mask: np.ndarray) -> List[List[int]]:
        """
        Helper that mirrors the legacy bbox extraction pipeline.
        """
        if mask.ndim != 2:
            raise ValueError("Mask must be 2-dimensional.")
        ys, xs = np.where(mask > 0)
        if ys.size == 0:
            return []
        x_min, x_max = xs.min(), xs.max()
        y_min, y_max = ys.min(), ys.max()
        return [[int(x_min), int(y_min), int(x_max), int(y_max)]]
 def collate_samples(batch: Iterable[Dict[str, Any] | ModelReadySample]) -> Dict[str, Any]:
    """
    Default collate_fn that merges ModelReadySample/HF dict outputs.
    """
    pixel_values = []
    prompts: List[Dict[str, Any]] = []
    labels: List[Dict[str, Any]] = []
    metadata: List[Dict[str, Any]] = []
    for item in batch:
        if isinstance(item, ModelReadySample):
            payload = item.to_hf_dict()
        else:
            payload = item
        pixel_values.append(payload["pixel_values"])
        prompts.append(payload.get("prompts", {}))
        labels.append(payload.get("labels", {}))
        metadata.append(payload.get("metadata", {}))
    stacked = {
        "pixel_values": torch.as_tensor(np.stack(pixel_values)),
        "prompts": prompts,
        "labels": labels,
        "metadata": metadata,
    }
    return stacked
--- a/src/dataset/crack500.py
+++ b/src/dataset/crack500.py
@ -0,0 +1,99 @@
 from __future__ import annotations
 from pathlib import Path
 from typing import Dict, List, Optional, Tuple
 import numpy as np
 from .base import BaseDataset, DatasetRecord
 from .registry import DatasetRegistry
 from .utils import (
    extract_bboxes_from_mask,
    sample_points_on_skeleton,
    sample_points_per_component,
 )
 from ..model_configuration.config import DatasetConfig
@DatasetRegistry.register("crack500")
 class Crack500Dataset(BaseDataset):
    """
    Reference implementation that loads Crack500 samples from an image list.
    """
    def __init__(
        self,
        config: DatasetConfig,
        expand_ratio: float = 0.05,
        min_area: int = 10,
        **kwargs,
    ) -> None:
        extra = dict(config.extra_params or {})
        expand_ratio = float(extra.get("expand_ratio", expand_ratio))
        self.prompt_mode = extra.get("prompt_mode", "bbox")
        self.num_points = int(extra.get("num_points", 5))
        self.per_component = bool(extra.get("per_component", False))
        self.expand_ratio = expand_ratio
        self.min_area = min_area
        super().__init__(config, **kwargs)
    def load_records(self) -> List[DatasetRecord]:
        base_dir = Path(self.config.data_root)
        list_file = (
            Path(self.config.annotation_file)
            if self.config.annotation_file
            else base_dir / (self.config.split_file or "test.txt")
        )
        if not list_file.exists():
            raise FileNotFoundError(f"Missing Crack500 split file: {list_file}")
        image_dir = base_dir / (self.config.image_folder or "testcrop")
        mask_dir = base_dir / (self.config.mask_folder or "testdata")
        records: List[DatasetRecord] = []
        with list_file.open("r", encoding="utf-8") as handle:
            for line in handle:
                image_name = line.strip()
                if not image_name:
                    continue
                image_path = image_dir / image_name
                mask_name = image_name.replace(".jpg", ".png")
                mask_path = mask_dir / mask_name
                metadata = {"split": self.config.split, "image_name": image_name}
                records.append(
                    DatasetRecord(
                        image_path=image_path,
                        mask_path=mask_path if mask_path.exists() else None,
                        metadata=metadata,
                    )
                )
        if not records:
            raise RuntimeError(
                f"No records found in {image_dir} for split {self.config.split}"
            )
        return records
    def build_prompts(
        self,
        record: DatasetRecord,
        mask: Optional[np.ndarray],
    ) -> Dict[str, List[List[int]]]:
        if mask is None:
            return {}
        if self.prompt_mode == "point":
            points, point_labels = self._build_point_prompts(mask)
            if points.size == 0:
                return {}
            prompts: Dict[str, List[List[int]]] = {"points": points.tolist()}
            if point_labels.size > 0:
                prompts["point_labels"] = point_labels.tolist()
            return prompts
        boxes = extract_bboxes_from_mask(
            mask, expand_ratio=self.expand_ratio, min_area=self.min_area
        )
        return {"boxes": boxes}
    def _build_point_prompts(self, mask: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
        if self.per_component:
            return sample_points_per_component(mask, self.num_points)
        points = sample_points_on_skeleton(mask, self.num_points)
        labels = np.ones(points.shape[0], dtype=np.int32)
        return points, labels
--- a/src/dataset/registry.py
+++ b/src/dataset/registry.py
@ -0,0 +1,33 @@
 from __future__ import annotations
 from typing import Dict, Type
 from .base import BaseDataset
 class DatasetRegistry:
    """
    Simple registry so configs can refer to datasets by string key.
    """
    _registry: Dict[str, Type[BaseDataset]] = {}
    @classmethod
    def register(cls, name: str):
        def decorator(dataset_cls: Type[BaseDataset]) -> Type[BaseDataset]:
            cls._registry[name] = dataset_cls
            dataset_cls.dataset_name = name
            return dataset_cls
        return decorator
    @classmethod
    def create(cls, name: str, *args, **kwargs) -> BaseDataset:
        if name not in cls._registry:
            raise KeyError(f"Dataset '{name}' is not registered.")
        dataset_cls = cls._registry[name]
        return dataset_cls(*args, **kwargs)
    @classmethod
    def available(cls) -> Dict[str, Type[BaseDataset]]:
        return dict(cls._registry)
--- a/src/dataset/utils.py
+++ b/src/dataset/utils.py
@ -0,0 +1,91 @@
 from __future__ import annotations
 from pathlib import Path
 from typing import List, Tuple
 import cv2
 import numpy as np
 from skimage.morphology import skeletonize
 def load_image_and_mask(image_path: str | Path, mask_path: str | Path) -> Tuple[np.ndarray, np.ndarray]:
    """
    Reads an RGB image and its mask counterpart.
    """
    image_path = str(image_path)
    mask_path = str(mask_path)
    image = cv2.imread(image_path)
    if image is None:
        raise ValueError(f"无法加载图像: {image_path}")
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    mask = cv2.imread(mask_path, cv2.IMREAD_GRAYSCALE)
    if mask is None:
        raise ValueError(f"无法加载掩码: {mask_path}")
    return image, mask
 def extract_bboxes_from_mask(
    mask: np.ndarray,
    expand_ratio: float = 0.0,
    min_area: int = 10,
 ) -> List[List[int]]:
    """
    Extract bounding boxes from a binary mask using connected components.
    """
    binary_mask = (mask > 0).astype(np.uint8)
    num_labels, _, stats, _ = cv2.connectedComponentsWithStats(binary_mask, connectivity=8)
    bboxes: List[List[int]] = []
    for i in range(1, num_labels):
        x, y, w, h, area = stats[i]
        if area < min_area:
            continue
        x1, y1 = x, y
        x2, y2 = x + w, y + h
        if expand_ratio > 0:
            cx, cy = (x1 + x2) / 2, (y1 + y2) / 2
            w_new = w * (1 + expand_ratio)
            h_new = h * (1 + expand_ratio)
            x1 = max(0, int(cx - w_new / 2))
            y1 = max(0, int(cy - h_new / 2))
            x2 = min(mask.shape[1], int(cx + w_new / 2))
            y2 = min(mask.shape[0], int(cy + h_new / 2))
        bboxes.append([x1, y1, x2, y2])
    return bboxes
 def sample_points_on_skeleton(mask: np.ndarray, num_points: int) -> np.ndarray:
    """
    Sample points uniformly along the mask skeleton in (x, y) order.
    """
    binary_mask = (mask > 0).astype(bool)
    try:
        skeleton = skeletonize(binary_mask)
    except Exception:
        skeleton = binary_mask
    coords = np.argwhere(skeleton)
    if coords.size == 0:
        return np.zeros((0, 2), dtype=np.int32)
    if coords.shape[0] <= num_points:
        points = coords[:, [1, 0]]
        return points.astype(np.int32)
    indices = np.linspace(0, coords.shape[0] - 1, num_points, dtype=int)
    sampled = coords[indices][:, [1, 0]]
    return sampled.astype(np.int32)
 def sample_points_per_component(mask: np.ndarray, num_points_per_component: int) -> Tuple[np.ndarray, np.ndarray]:
    """
    Sample points per connected component along each component's skeleton.
    """
    num_labels, labels_map = cv2.connectedComponents((mask > 0).astype(np.uint8))
    all_points = []
    for region_id in range(1, num_labels):
        region_mask = (labels_map == region_id).astype(np.uint8) * 255
        points = sample_points_on_skeleton(region_mask, num_points_per_component)
        if len(points):
            all_points.append(points)
    if not all_points:
        return np.zeros((0, 2), dtype=np.int32), np.zeros(0, dtype=np.int32)
    stacked = np.vstack(all_points)
    labels = np.ones(stacked.shape[0], dtype=np.int32)
    return stacked, labels
--- a/src/evaluation/init.py
+++ b/src/evaluation/init.py
@ -0,0 +1,14 @@
 from .metrics import METRIC_REGISTRY, compute_dice, compute_iou, compute_precision, compute_recall
 from .pipeline_eval import PipelineEvaluator
 from .reporting import write_csv, write_json
 __all__ = [
    "METRIC_REGISTRY",
    "PipelineEvaluator",
    "compute_dice",
    "compute_iou",
    "compute_precision",
    "compute_recall",
    "write_csv",
    "write_json",
 ]
--- a/src/evaluation/metrics.py
+++ b/src/evaluation/metrics.py
@ -0,0 +1,57 @@
 from __future__ import annotations
 from typing import Callable, Dict, Iterable, Tuple
 import numpy as np
 def compute_iou(pred: np.ndarray, target: np.ndarray, threshold: float = 0.5) -> float:
    pred_bin = (pred >= threshold).astype(np.uint8)
    target_bin = (target > 0).astype(np.uint8)
    intersection = (pred_bin & target_bin).sum()
    union = (pred_bin | target_bin).sum()
    return float(intersection / union) if union else 0.0
 def compute_dice(pred: np.ndarray, target: np.ndarray, threshold: float = 0.5) -> float:
    pred_bin = (pred >= threshold).astype(np.uint8)
    target_bin = (target > 0).astype(np.uint8)
    intersection = (pred_bin & target_bin).sum()
    total = pred_bin.sum() + target_bin.sum()
    return float((2 * intersection) / total) if total else 0.0
 def compute_precision(pred: np.ndarray, target: np.ndarray, threshold: float = 0.5) -> float:
    pred_bin = (pred >= threshold).astype(np.uint8)
    target_bin = (target > 0).astype(np.uint8)
    tp = (pred_bin & target_bin).sum()
    fp = (pred_bin & (1 - target_bin)).sum()
    return float(tp / (tp + fp)) if (tp + fp) else 0.0
 def compute_recall(pred: np.ndarray, target: np.ndarray, threshold: float = 0.5) -> float:
    pred_bin = (pred >= threshold).astype(np.uint8)
    target_bin = (target > 0).astype(np.uint8)
    tp = (pred_bin & target_bin).sum()
    fn = ((1 - pred_bin) & target_bin).sum()
    return float(tp / (tp + fn)) if (tp + fn) else 0.0
 MetricFn = Callable[[np.ndarray, np.ndarray, float], float]
 METRIC_REGISTRY: Dict[str, MetricFn] = {
    "iou": compute_iou,
    "dice": compute_dice,
    "precision": compute_precision,
    "recall": compute_recall,
 }
 def resolve_metrics(metric_names: Iterable[str]) -> Dict[str, MetricFn]:
    resolved: Dict[str, MetricFn] = {}
    for name in metric_names:
        if name not in METRIC_REGISTRY:
            raise KeyError(f"Metric '{name}' is not registered.")
        resolved[name] = METRIC_REGISTRY[name]
    return resolved
--- a/src/evaluation/pipeline_eval.py
+++ b/src/evaluation/pipeline_eval.py
@ -0,0 +1,95 @@
 from __future__ import annotations
 import json
 from pathlib import Path
 from typing import Any, Dict, List, Optional
 import numpy as np
 from tqdm import tqdm
 from ..dataset import BaseDataset
 from ..model import BaseModelAdapter
 from ..model_configuration import EvaluationConfig
 from .metrics import resolve_metrics
 from .utils import extract_mask_from_pipeline_output
 class PipelineEvaluator:
    """
    Runs a Hugging Face pipeline across a dataset and aggregates metrics.
    """
    def __init__(
        self,
        dataset: BaseDataset,
        adapter: BaseModelAdapter,
        config: EvaluationConfig,
    ) -> None:
        self.dataset = dataset
        self.adapter = adapter
        self.config = config
        self.metrics = resolve_metrics(config.metrics)
    def run(self) -> Dict[str, Any]:
        pipe = self.adapter.build_pipeline()
        aggregated: Dict[str, List[float]] = {name: [] for name in self.metrics}
        output_dir = Path(self.config.output_dir)
        output_dir.mkdir(parents=True, exist_ok=True)
        requested = self.config.max_samples or len(self.dataset)
        total = min(requested, len(self.dataset))
        prog_bar = tqdm(range(total), total=total)
        for idx in prog_bar:
            sample = self.dataset[idx]
            inputs = self._build_pipeline_inputs(sample)
            preds = pipe(**inputs)
            labels = sample.get("labels", {})
            mask = labels.get("mask")
            if mask is None:
                continue
            prediction_mask = self._extract_mask(preds)
            for metric_name, metric_fn in self.metrics.items():
                for threshold in self.config.thresholds:
                    value = metric_fn(prediction_mask, mask, threshold)
                    aggregated.setdefault(f"{metric_name}@{threshold}", []).append(value)
            if self.config.save_predictions:
                self._write_prediction(output_dir, idx, prediction_mask, sample["metadata"])
        summary = {
            "metrics": {k: float(np.mean(v)) if v else 0.0 for k, v in aggregated.items()},
            "config": self.config.__dict__,
            "num_samples": total,
        }
        with (output_dir / "evaluation_summary.json").open("w", encoding="utf-8") as handle:
            json.dump(summary, handle, indent=2)
        return summary
    def _build_pipeline_inputs(self, sample: Dict[str, Any]) -> Dict[str, Any]:
        inputs: Dict[str, Any] = {"images": sample["pixel_values"]}
        prompts = sample.get("prompts", {})
        if "boxes" in prompts and prompts["boxes"]:
            inputs["boxes"] = prompts["boxes"]
        if "points" in prompts and prompts["points"]:
            inputs["points"] = prompts["points"]
        if "point_labels" in prompts and prompts["point_labels"]:
            inputs["point_labels"] = prompts["point_labels"]
        return inputs
    def _extract_mask(self, pipeline_output: Any) -> np.ndarray:
        """
        Normalize pipeline outputs into numpy masks.
        """
        return extract_mask_from_pipeline_output(pipeline_output)
    def _write_prediction(
        self,
        output_dir: Path,
        index: int,
        mask: np.ndarray,
        metadata: Optional[Dict[str, Any]],
    ) -> None:
        if metadata and "image_name" in metadata:
            filename = metadata["image_name"].replace(".jpg", "_pred.npy")
        else:
            filename = f"sample_{index:04d}_pred.npy"
        target_path = output_dir / "predictions"
        target_path.mkdir(parents=True, exist_ok=True)
        np.save(target_path / filename, mask)
--- a/src/evaluation/reporting.py
+++ b/src/evaluation/reporting.py
@ -0,0 +1,25 @@
 from __future__ import annotations
 import csv
 import json
 from pathlib import Path
 from typing import Dict, Iterable
 def write_json(summary: Dict, output_path: Path) -> None:
    output_path.parent.mkdir(parents=True, exist_ok=True)
    with output_path.open("w", encoding="utf-8") as handle:
        json.dump(summary, handle, indent=2)
 def write_csv(rows: Iterable[Dict], output_path: Path) -> None:
    rows = list(rows)
    if not rows:
        return
    output_path.parent.mkdir(parents=True, exist_ok=True)
    fieldnames = sorted(rows[0].keys())
    with output_path.open("w", encoding="utf-8", newline="") as handle:
        writer = csv.DictWriter(handle, fieldnames=fieldnames)
        writer.writeheader()
        for row in rows:
            writer.writerow(row)
--- a/src/evaluation/run_pipeline.py
+++ b/src/evaluation/run_pipeline.py
@ -0,0 +1,55 @@
 from __future__ import annotations
 import logging
 from dataclasses import dataclass, replace
 from typing import Optional
 from transformers import HfArgumentParser
 from ..dataset import DatasetRegistry
 from ..model import ModelRegistry
 from ..model_configuration import ConfigRegistry, EvaluationConfig
 from .pipeline_eval import PipelineEvaluator
 LOGGER = logging.getLogger(__name__)
@dataclass
 class PipelineCLIArguments:
    config_name: str = "sam2_bbox_prompt"
    model_key: str = "sam2"
    split: str = "test"
    split_file: Optional[str] = None
    device: Optional[str] = None
    max_samples: Optional[int] = None
 def main() -> None:
    parser = HfArgumentParser(PipelineCLIArguments)
    (cli_args,) = parser.parse_args_into_dataclasses()
    project_config = ConfigRegistry.get(cli_args.config_name)
    dataset_cfg = replace(project_config.dataset, split=cli_args.split, split_file=cli_args.split_file)
    dataset = DatasetRegistry.create(
        dataset_cfg.name,
        config=dataset_cfg,
        return_hf_dict=True,
    )
    adapter = ModelRegistry.create(cli_args.model_key, project_config.model)
    evaluation_config = replace(
        project_config.evaluation,
        max_samples=cli_args.max_samples,
    )
    if cli_args.device:
        adapter.build_pipeline(device=cli_args.device)
    evaluator = PipelineEvaluator(
        dataset=dataset,
        adapter=adapter,
        config=evaluation_config,
    )
    summary = evaluator.run()
    LOGGER.info("Evaluation summary: %s", summary)
 if __name__ == "__main__":
    logging.basicConfig(level=logging.INFO)
    main()
--- a/src/evaluation/utils.py
+++ b/src/evaluation/utils.py
@ -0,0 +1,16 @@
 from __future__ import annotations
 from typing import Any
 import numpy as np
 def extract_mask_from_pipeline_output(pipeline_output: Any) -> np.ndarray:
    if isinstance(pipeline_output, list):
        pipeline_output = pipeline_output[0]
    mask = pipeline_output.get("mask")
    if mask is None:
        raise ValueError("Pipeline output missing 'mask'.")
    if isinstance(mask, np.ndarray):
        return mask
    return np.array(mask)
--- a/src/hf_sam2_predictor.py
+++ b/src/hf_sam2_predictor.py
@ -0,0 +1,7 @@
 """
 Backward-compatible wrapper that re-exports the predictor relocated to src.model.
 """
 from .model.predictor import HFSam2Predictor, build_hf_sam2_predictor
 __all__ = ["HFSam2Predictor", "build_hf_sam2_predictor"]
--- a/src/legacy_evaluation.py
+++ b/src/legacy_evaluation.py
@ -0,0 +1,330 @@
 """
 评估指标计算模块
 计算 IoU, Dice, Precision, Recall, F1-Score 等指标
 """
 import os
 import cv2
 import numpy as np
 import pandas as pd
 from pathlib import Path
 from typing import Dict, List, Tuple
 from tqdm import tqdm
 import json
 def compute_iou(pred: np.ndarray, gt: np.ndarray) -> float:
    """
    计算 IoU (Intersection over Union)
    Args:
        pred: 预测掩码 (H, W)，值为 0 或 255
        gt: 真实掩码 (H, W)，值为 0 或 255
    Returns:
        iou: IoU 值
    """
    pred_binary = (pred > 0).astype(np.uint8)
    gt_binary = (gt > 0).astype(np.uint8)
    intersection = np.logical_and(pred_binary, gt_binary).sum()
    union = np.logical_or(pred_binary, gt_binary).sum()
    if union == 0:
        return 1.0 if intersection == 0 else 0.0
    return intersection / union
 def compute_dice(pred: np.ndarray, gt: np.ndarray) -> float:
    """
    计算 Dice 系数
    Args:
        pred: 预测掩码 (H, W)
        gt: 真实掩码 (H, W)
    Returns:
        dice: Dice 系数
    """
    pred_binary = (pred > 0).astype(np.uint8)
    gt_binary = (gt > 0).astype(np.uint8)
    intersection = np.logical_and(pred_binary, gt_binary).sum()
    pred_sum = pred_binary.sum()
    gt_sum = gt_binary.sum()
    if pred_sum + gt_sum == 0:
        return 1.0 if intersection == 0 else 0.0
    return 2 * intersection / (pred_sum + gt_sum)
 def compute_precision_recall(pred: np.ndarray, gt: np.ndarray) -> Tuple[float, float]:
    """
    计算 Precision 和 Recall
    Args:
        pred: 预测掩码 (H, W)
        gt: 真实掩码 (H, W)
    Returns:
        precision: 精确率
        recall: 召回率
    """
    pred_binary = (pred > 0).astype(np.uint8)
    gt_binary = (gt > 0).astype(np.uint8)
    tp = np.logical_and(pred_binary, gt_binary).sum()
    fp = np.logical_and(pred_binary, np.logical_not(gt_binary)).sum()
    fn = np.logical_and(np.logical_not(pred_binary), gt_binary).sum()
    precision = tp / (tp + fp) if (tp + fp) > 0 else 0.0
    recall = tp / (tp + fn) if (tp + fn) > 0 else 0.0
    return precision, recall
 def compute_f1_score(precision: float, recall: float) -> float:
    """
    计算 F1-Score
    Args:
        precision: 精确率
        recall: 召回率
    Returns:
        f1: F1-Score
    """
    if precision + recall == 0:
        return 0.0
    return 2 * precision * recall / (precision + recall)
 def compute_skeleton_iou(pred: np.ndarray, gt: np.ndarray) -> float:
    """
    计算骨架 IoU（针对细长裂缝的特殊指标）
    Args:
        pred: 预测掩码 (H, W)
        gt: 真实掩码 (H, W)
    Returns:
        skeleton_iou: 骨架 IoU
    """
    from skimage.morphology import skeletonize
    pred_binary = (pred > 0).astype(bool)
    gt_binary = (gt > 0).astype(bool)
    # 骨架化
    try:
        pred_skel = skeletonize(pred_binary)
        gt_skel = skeletonize(gt_binary)
        intersection = np.logical_and(pred_skel, gt_skel).sum()
        union = np.logical_or(pred_skel, gt_skel).sum()
        if union == 0:
            return 1.0 if intersection == 0 else 0.0
        return intersection / union
    except:
        # 如果骨架化失败，返回 NaN
        return np.nan
 def evaluate_single_image(
    pred_path: str,
    gt_path: str,
    compute_skeleton: bool = True
 ) -> Dict[str, float]:
    """
    评估单张图像
    Args:
        pred_path: 预测掩码路径
        gt_path: 真实掩码路径
        compute_skeleton: 是否计算骨架 IoU
    Returns:
        metrics: 包含各项指标的字典
    """
    # 加载掩码
    pred = cv2.imread(pred_path, cv2.IMREAD_GRAYSCALE)
    gt = cv2.imread(gt_path, cv2.IMREAD_GRAYSCALE)
    if pred is None or gt is None:
        raise ValueError(f"无法加载掩码: {pred_path} 或 {gt_path}")
    # 计算指标
    iou = compute_iou(pred, gt)
    dice = compute_dice(pred, gt)
    precision, recall = compute_precision_recall(pred, gt)
    f1 = compute_f1_score(precision, recall)
    metrics = {
        "iou": iou,
        "dice": dice,
        "precision": precision,
        "recall": recall,
        "f1_score": f1,
    }
    # 计算骨架 IoU（可选）
    if compute_skeleton:
        skeleton_iou = compute_skeleton_iou(pred, gt)
        metrics["skeleton_iou"] = skeleton_iou
    return metrics
 def evaluate_test_set(
    data_root: str,
    test_file: str,
    pred_dir: str,
    output_dir: str,
    compute_skeleton: bool = True
 ) -> pd.DataFrame:
    """
    评估整个测试集
    Args:
        data_root: 数据集根目录
        test_file: 测试集文件路径
        pred_dir: 预测掩码目录
        output_dir: 输出目录
        compute_skeleton: 是否计算骨架 IoU
    Returns:
        df_results: 包含所有结果的 DataFrame
    """
    # 读取测试集文件
    with open(test_file, 'r') as f:
        lines = f.readlines()
    results = []
    print(f"开始评估 {len(lines)} 张测试图像...")
    for line in tqdm(lines, desc="评估测试集"):
        parts = line.strip().split()
        if len(parts) != 2:
            continue
        img_rel_path, mask_rel_path = parts
        # 构建路径
        gt_path = os.path.join(data_root, mask_rel_path)
        img_name = Path(img_rel_path).stem
        pred_path = os.path.join(pred_dir, f"{img_name}_pred.png")
        # 检查文件是否存在
        if not os.path.exists(pred_path):
            print(f"警告: 预测掩码不存在 {pred_path}")
            continue
        if not os.path.exists(gt_path):
            print(f"警告: GT 掩码不存在 {gt_path}")
            continue
        try:
            # 评估单张图像
            metrics = evaluate_single_image(pred_path, gt_path, compute_skeleton)
            # 添加图像信息
            metrics["image_name"] = img_name
            metrics["image_path"] = img_rel_path
            results.append(metrics)
        except Exception as e:
            print(f"评估失败 {img_name}: {str(e)}")
            continue
    # 转换为 DataFrame
    df_results = pd.DataFrame(results)
    # 计算平均指标
    print("\n" + "=" * 60)
    print("评估结果统计:")
    print("=" * 60)
    metrics_to_avg = ["iou", "dice", "precision", "recall", "f1_score"]
    if compute_skeleton and "skeleton_iou" in df_results.columns:
        metrics_to_avg.append("skeleton_iou")
    for metric in metrics_to_avg:
        if metric in df_results.columns:
            mean_val = df_results[metric].mean()
            std_val = df_results[metric].std()
            print(f"{metric.upper():15s}: {mean_val:.4f} ± {std_val:.4f}")
    print("=" * 60)
    # 保存详细结果
    csv_path = os.path.join(output_dir, "evaluation_results.csv")
    df_results.to_csv(csv_path, index=False)
    print(f"\n详细结果已保存到: {csv_path}")
    # 保存统计摘要
    summary = {
        "num_images": len(df_results),
        "metrics": {}
    }
    for metric in metrics_to_avg:
        if metric in df_results.columns:
            summary["metrics"][metric] = {
                "mean": float(df_results[metric].mean()),
                "std": float(df_results[metric].std()),
                "min": float(df_results[metric].min()),
                "max": float(df_results[metric].max()),
            }
    summary_path = os.path.join(output_dir, "evaluation_summary.json")
    with open(summary_path, 'w') as f:
        json.dump(summary, f, indent=2)
    print(f"统计摘要已保存到: {summary_path}")
    return df_results
 def main():
    """主函数"""
    # 配置参数
    DATA_ROOT = "./crack500"
    TEST_FILE = "./crack500/test.txt"
    PRED_DIR = "./results/bbox_prompt/predictions"
    OUTPUT_DIR = "./results/bbox_prompt"
    print("=" * 60)
    print("SAM2 评估 - Crack500 数据集")
    print("=" * 60)
    print(f"数据集根目录: {DATA_ROOT}")
    print(f"测试集文件: {TEST_FILE}")
    print(f"预测掩码目录: {PRED_DIR}")
    print(f"输出目录: {OUTPUT_DIR}")
    print("=" * 60)
    # 检查预测目录是否存在
    if not os.path.exists(PRED_DIR):
        print(f"\n错误: 预测目录不存在 {PRED_DIR}")
        print("请先运行 bbox_prompt.py 生成预测结果！")
        return
    # 评估测试集
    df_results = evaluate_test_set(
        data_root=DATA_ROOT,
        test_file=TEST_FILE,
        pred_dir=PRED_DIR,
        output_dir=OUTPUT_DIR,
        compute_skeleton=True
    )
    print("\n" + "=" * 60)
    print("评估完成！")
    print("=" * 60)
 if __name__ == "__main__":
    main()
--- a/src/legacy_visualization.py
+++ b/src/legacy_visualization.py
@ -0,0 +1,314 @@
 """
 可视化模块
 生成预测结果的可视化图像
 """
 import os
 import cv2
 import numpy as np
 import matplotlib.pyplot as plt
 from pathlib import Path
 from typing import List, Tuple
 from tqdm import tqdm
 import pandas as pd
 def create_overlay_visualization(
    image: np.ndarray,
    mask_gt: np.ndarray,
    mask_pred: np.ndarray,
    alpha: float = 0.5
 ) -> np.ndarray:
    """
    创建叠加可视化图像
    Args:
        image: 原始图像 (H, W, 3) RGB
        mask_gt: GT 掩码 (H, W)
        mask_pred: 预测掩码 (H, W)
        alpha: 透明度
    Returns:
        vis_image: 可视化图像 (H, W, 3)
    """
    # 确保图像是 RGB
    if len(image.shape) == 2:
        image = cv2.cvtColor(image, cv2.COLOR_GRAY2RGB)
    # 创建彩色掩码
    # GT: 绿色, Pred: 红色, 重叠: 黄色
    vis_image = image.copy().astype(np.float32)
    gt_binary = (mask_gt > 0)
    pred_binary = (mask_pred > 0)
    # 真阳性（重叠部分）- 黄色
    tp_mask = np.logical_and(gt_binary, pred_binary)
    vis_image[tp_mask] = vis_image[tp_mask] * (1 - alpha) + np.array([255, 255, 0]) * alpha
    # 假阴性（GT 有但预测没有）- 绿色
    fn_mask = np.logical_and(gt_binary, np.logical_not(pred_binary))
    vis_image[fn_mask] = vis_image[fn_mask] * (1 - alpha) + np.array([0, 255, 0]) * alpha
    # 假阳性（预测有但 GT 没有）- 红色
    fp_mask = np.logical_and(pred_binary, np.logical_not(gt_binary))
    vis_image[fp_mask] = vis_image[fp_mask] * (1 - alpha) + np.array([255, 0, 0]) * alpha
    return vis_image.astype(np.uint8)
 def create_comparison_figure(
    image: np.ndarray,
    mask_gt: np.ndarray,
    mask_pred: np.ndarray,
    metrics: dict,
    title: str = ""
 ) -> plt.Figure:
    """
    创建对比图
    Args:
        image: 原始图像 (H, W, 3) RGB
        mask_gt: GT 掩码 (H, W)
        mask_pred: 预测掩码 (H, W)
        metrics: 评估指标字典
        title: 图像标题
    Returns:
        fig: matplotlib Figure 对象
    """
    fig, axes = plt.subplots(2, 2, figsize=(12, 10))
    # 原始图像
    axes[0, 0].imshow(image)
    axes[0, 0].set_title("Original Image", fontsize=16)
    axes[0, 0].axis('off')
    # GT 掩码
    axes[0, 1].imshow(mask_gt, cmap='gray')
    axes[0, 1].set_title("Ground Truth", fontsize=16)
    axes[0, 1].axis('off')
    # 预测掩码
    axes[1, 0].imshow(mask_pred, cmap='gray')
    axes[1, 0].set_title("Prediction", fontsize=16)
    axes[1, 0].axis('off')
    # 叠加可视化
    overlay = create_overlay_visualization(image, mask_gt, mask_pred)
    axes[1, 1].imshow(overlay)
    # 添加图例和指标
    legend_text = (
        "Yellow: True Positive\n"
        "Green: False Negative\n"
        "Red: False Positive\n\n"
        f"IoU: {metrics.get('iou', 0):.4f}\n"
        f"Dice: {metrics.get('dice', 0):.4f}\n"
        f"F1: {metrics.get('f1_score', 0):.4f}"
    )
    axes[1, 1].text(
        0.02, 0.98, legend_text,
        transform=axes[1, 1].transAxes,
        fontsize=16,
        verticalalignment='top',
        bbox=dict(boxstyle='round', facecolor='white', alpha=0.8)
    )
    axes[1, 1].set_title("Overlay Visualization", fontsize=16)
    axes[1, 1].axis('off')
    # # 设置总标题
    # if title:
    #     fig.suptitle(title, fontsize=16, fontweight='bold')
    plt.tight_layout()
    return fig
 def visualize_test_set(
    data_root: str,
    test_file: str,
    pred_dir: str,
    output_dir: str,
    results_csv: str = None,
    num_samples: int = 20,
    save_all: bool = False
 ) -> None:
    """
    可视化测试集结果
    Args:
        data_root: 数据集根目录
        test_file: 测试集文件路径
        pred_dir: 预测掩码目录
        output_dir: 输出目录
        results_csv: 评估结果 CSV 文件路径
        num_samples: 要可视化的样本数量
        save_all: 是否保存所有样本
    """
    # 创建输出目录
    vis_dir = os.path.join(output_dir, "visualizations")
    os.makedirs(vis_dir, exist_ok=True)
    # 读取测试集文件
    with open(test_file, 'r') as f:
        lines = f.readlines()
    # 如果有评估结果，读取指标
    metrics_dict = {}
    if results_csv and os.path.exists(results_csv):
        df = pd.read_csv(results_csv)
        for _, row in df.iterrows():
            metrics_dict[row['image_name']] = {
                'iou': row['iou'],
                'dice': row['dice'],
                'f1_score': row['f1_score'],
                'precision': row['precision'],
                'recall': row['recall'],
            }
    # 选择要可视化的样本
    if save_all:
        selected_lines = lines
    else:
        # 均匀采样
        step = max(1, len(lines) // num_samples)
        selected_lines = lines[::step][:num_samples]
    print(f"开始可视化 {len(selected_lines)} 张图像...")
    for line in tqdm(selected_lines, desc="生成可视化"):
        parts = line.strip().split()
        if len(parts) != 2:
            continue
        img_rel_path, mask_rel_path = parts
        # 构建路径
        img_path = os.path.join(data_root, img_rel_path)
        gt_path = os.path.join(data_root, mask_rel_path)
        img_name = Path(img_rel_path).stem
        pred_path = os.path.join(pred_dir, f"{img_name}_pred.png")
        # 检查文件是否存在
        if not all(os.path.exists(p) for p in [img_path, gt_path, pred_path]):
            continue
        try:
            # 加载图像和掩码
            image = cv2.imread(img_path)
            image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
            mask_gt = cv2.imread(gt_path, cv2.IMREAD_GRAYSCALE)
            mask_pred = cv2.imread(pred_path, cv2.IMREAD_GRAYSCALE)
            # 获取指标
            metrics = metrics_dict.get(img_name, {})
            # 创建对比图
            fig = create_comparison_figure(
                image, mask_gt, mask_pred, metrics,
                title=f"Sample: {img_name}"
            )
            # 保存图像
            save_path = os.path.join(vis_dir, f"{img_name}_vis.png")
            fig.savefig(save_path, dpi=150, bbox_inches='tight')
            plt.close(fig)
        except Exception as e:
            print(f"可视化失败 {img_name}: {str(e)}")
            continue
    print(f"\n可视化完成！结果保存在: {vis_dir}")
 def create_metrics_distribution_plot(
    results_csv: str,
    output_dir: str
 ) -> None:
    """
    创建指标分布图
    Args:
        results_csv: 评估结果 CSV 文件路径
        output_dir: 输出目录
    """
    # 读取结果
    df = pd.read_csv(results_csv)
    # 创建图表
    metrics = ['iou', 'dice', 'precision', 'recall', 'f1_score']
    fig, axes = plt.subplots(2, 3, figsize=(15, 10))
    axes = axes.flatten()
    for idx, metric in enumerate(metrics):
        if metric in df.columns:
            axes[idx].hist(df[metric], bins=30, edgecolor='black', alpha=0.7)
            axes[idx].axvline(df[metric].mean(), color='red', linestyle='--', 
                            linewidth=2, label=f'Mean: {df[metric].mean():.4f}')
            axes[idx].set_xlabel(metric.upper(), fontsize=12)
            axes[idx].set_ylabel('Frequency', fontsize=12)
            axes[idx].set_title(f'{metric.upper()} Distribution', fontsize=12)
            axes[idx].legend()
            axes[idx].grid(True, alpha=0.3)
    # 隐藏多余的子图
    for idx in range(len(metrics), len(axes)):
        axes[idx].axis('off')
    plt.tight_layout()
    # 保存图表
    save_path = os.path.join(output_dir, "metrics_distribution.png")
    fig.savefig(save_path, dpi=150, bbox_inches='tight')
    plt.close(fig)
    print(f"指标分布图已保存到: {save_path}")
 def main():
    """主函数"""
    # 配置参数
    DATA_ROOT = "./crack500"
    TEST_FILE = "./crack500/test.txt"
    PRED_DIR = "./results/bbox_prompt/predictions"
    OUTPUT_DIR = "./results/bbox_prompt"
    RESULTS_CSV = "./results/bbox_prompt/evaluation_results.csv"
    print("=" * 60)
    print("SAM2 可视化 - Crack500 数据集")
    print("=" * 60)
    print(f"数据集根目录: {DATA_ROOT}")
    print(f"预测掩码目录: {PRED_DIR}")
    print(f"输出目录: {OUTPUT_DIR}")
    print("=" * 60)
    # 检查预测目录是否存在
    if not os.path.exists(PRED_DIR):
        print(f"\n错误: 预测目录不存在 {PRED_DIR}")
        print("请先运行 bbox_prompt.py 生成预测结果！")
        return
    # 可视化测试集
    visualize_test_set(
        data_root=DATA_ROOT,
        test_file=TEST_FILE,
        pred_dir=PRED_DIR,
        output_dir=OUTPUT_DIR,
        results_csv=RESULTS_CSV,
        num_samples=20,
        save_all=False
    )
    # 创建指标分布图
    if os.path.exists(RESULTS_CSV):
        create_metrics_distribution_plot(RESULTS_CSV, OUTPUT_DIR)
    print("\n" + "=" * 60)
    print("可视化完成！")
    print("=" * 60)
 if __name__ == "__main__":
    main()
--- a/src/model/init.py
+++ b/src/model/init.py
@ -0,0 +1,17 @@
 from .base import BaseModelAdapter
 from .inference import predict_with_bbox_prompt
 from .predictor import HFSam2Predictor, build_hf_sam2_predictor
 from .registry import ModelRegistry
 from .sam2_adapter import Sam2ModelAdapter
 from .trainer import FineTuningTrainer, TrainerArtifacts
 __all__ = [
    "BaseModelAdapter",
    "FineTuningTrainer",
    "HFSam2Predictor",
    "ModelRegistry",
    "Sam2ModelAdapter",
    "TrainerArtifacts",
    "build_hf_sam2_predictor",
    "predict_with_bbox_prompt",
 ]
--- a/src/model/base.py
+++ b/src/model/base.py
@ -0,0 +1,66 @@
 from __future__ import annotations
 import abc
 from typing import Any, Dict, Optional
 from transformers import pipeline
 from ..model_configuration import ModelConfig
 class BaseModelAdapter(abc.ABC):
    """
    Thin wrapper that standardizes how we instantiate models/processors/pipelines.
    """
    task: str = "image-segmentation"
    def __init__(self, config: ModelConfig) -> None:
        self.config = config
        self._model = None
        self._processor = None
        self._pipeline = None
    def load_pretrained(self):
        if self._model is None or self._processor is None:
            self._model, self._processor = self._load_pretrained()
        return self._model, self._processor
    def build_pipeline(
        self,
        device: Optional[str] = None,
        **kwargs,
    ):
        if self._pipeline is None:
            model, processor = self.load_pretrained()
            pipe_kwargs = {
                "task": self.task,
                "model": model,
                "image_processor": processor,
                **self.config.pipeline_kwargs,
                **kwargs,
            }
            if device is not None:
                pipe_kwargs["device"] = device
            self._pipeline = self._create_pipeline(pipe_kwargs)
        return self._pipeline
    async def build_pipeline_async(self, **kwargs):
        """
        Async helper for future multi-device orchestration.
        """
        return self.build_pipeline(**kwargs)
    def save_pretrained(self, output_dir: str) -> None:
        model, processor = self.load_pretrained()
        model.save_pretrained(output_dir)
        processor.save_pretrained(output_dir)
    @abc.abstractmethod
    def _load_pretrained(self):
        """
        Return (model, processor) tuple.
        """
    def _create_pipeline(self, pipe_kwargs: Dict[str, Any]):
        return pipeline(**pipe_kwargs)
--- a/src/model/inference.py
+++ b/src/model/inference.py
@ -0,0 +1,32 @@
 from __future__ import annotations
 from typing import List
 import numpy as np
 from .predictor import HFSam2Predictor
 def predict_with_bbox_prompt(
    predictor: HFSam2Predictor,
    image: np.ndarray,
    bboxes: List[np.ndarray],
 ) -> np.ndarray:
    """
    Run SAM2 predictions for each bounding box and merge the masks.
    """
    predictor.set_image(image)
    if not bboxes:
        return np.zeros((image.shape[0], image.shape[1]), dtype=np.uint8)
    combined_mask = np.zeros((image.shape[0], image.shape[1]), dtype=np.uint8)
    for bbox in bboxes:
        masks, _, _ = predictor.predict(
            point_coords=None,
            point_labels=None,
            box=bbox,
            multimask_output=False,
        )
        mask = masks[0]
        combined_mask = np.logical_or(combined_mask, mask).astype(np.uint8)
    combined_mask = combined_mask * 255
    return combined_mask
--- a/src/model/predictor.py
+++ b/src/model/predictor.py
@ -0,0 +1,158 @@
 from __future__ import annotations
 import json
 from pathlib import Path
 from typing import Optional, Tuple
 import numpy as np
 import torch
 from PIL import Image
 from transformers import SamModel, SamProcessor
 class HFSam2Predictor:
    """
    Predictor wrapper around Hugging Face SAM2 models.
    """
    def __init__(
        self,
        model_id: str = "facebook/sam2-hiera-small",
        device: Optional[str] = None,
        dtype: torch.dtype = torch.bfloat16,
    ) -> None:
        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
        self.dtype = dtype
        self.model = SamModel.from_pretrained(model_id).to(self.device)
        self.processor = SamProcessor.from_pretrained("./configs/preprocesser.json")
        self._override_processor_config()
        if dtype == torch.bfloat16:
            self.model = self.model.to(dtype=dtype)
        self.model.eval()
        self.current_image = None
        self.current_image_embeddings = None
    def set_image(self, image: np.ndarray) -> None:
        if isinstance(image, np.ndarray):
            pil_image = Image.fromarray(image.astype(np.uint8))
        else:
            pil_image = image
        self.current_image = pil_image
        with torch.inference_mode():
            inputs = self.processor(images=pil_image, return_tensors="pt").to(self.device)
            if self.dtype == torch.bfloat16:
                inputs = {
                    k: v.to(dtype=self.dtype) if v.dtype == torch.float32 else v
                    for k, v in inputs.items()
                }
            self.current_image_embeddings = self.model.get_image_embeddings(inputs["pixel_values"])
    def predict(
        self,
        point_coords: Optional[np.ndarray] = None,
        point_labels: Optional[np.ndarray] = None,
        box: Optional[np.ndarray] = None,
        multimask_output: bool = False,
    ) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
        if self.current_image is None:
            raise ValueError("No image set. Call set_image() first.")
        input_points = self._prepare_points(point_coords)
        input_labels = self._prepare_labels(point_labels)
        input_boxes = self._prepare_boxes(box)
        with torch.inference_mode():
            inputs = self.processor(
                images=self.current_image,
                input_points=input_points,
                input_labels=input_labels,
                input_boxes=input_boxes,
                return_tensors="pt",
            ).to(self.device)
            if self.dtype == torch.bfloat16:
                inputs = {
                    k: v.to(dtype=self.dtype) if v.dtype == torch.float32 else v
                    for k, v in inputs.items()
                }
            inputs.pop("pixel_values", None)
            inputs["image_embeddings"] = self.current_image_embeddings
            outputs = self.model(**inputs, multimask_output=multimask_output)
            masks = self.processor.image_processor.post_process_masks(
                outputs.pred_masks.float().cpu(),
                inputs["original_sizes"].cpu(),
                inputs["reshaped_input_sizes"].cpu(),
            )[0]
            scores = outputs.iou_scores.float().cpu().numpy()[0]
            masks_np = (masks.squeeze(1).numpy() > 0).astype(np.uint8)
            logits = outputs.pred_masks.float().cpu().numpy()[0]
        return masks_np, scores, logits
    def _prepare_points(self, coords: Optional[np.ndarray]):
        """
        Points must be shaped (num_points, 2); wrap in outer batch dimension.
        """
        if coords is None:
            return None
        coords_arr = np.asarray(coords)
        if coords_arr.ndim == 1:
            coords_arr = coords_arr[None, :]
        if coords_arr.ndim != 2:
            raise ValueError(f"Point coords must be 2-D, got {coords_arr.shape}.")
        return [coords_arr.tolist()]
    def _prepare_labels(self, labels: Optional[np.ndarray]):
        """
        Labels mirror the point dimension and are shaped (num_points,).
        """
        if labels is None:
            return None
        labels_arr = np.asarray(labels)
        if labels_arr.ndim == 0:
            labels_arr = labels_arr[None]
        if labels_arr.ndim != 1:
            raise ValueError(f"Point labels must be 1-D, got {labels_arr.shape}.")
        return [labels_arr.tolist()]
    def _prepare_boxes(self, boxes: Optional[np.ndarray]):
        """
        HF expects boxes in shape (batch, num_boxes, 4); accept (4,), (N,4), or (B,N,4).
        """
        if boxes is None:
            return None
        boxes_arr = np.asarray(boxes)
        if boxes_arr.ndim == 1:
            return [[boxes_arr.tolist()]]
        if boxes_arr.ndim == 2:
            return [boxes_arr.tolist()]
        if boxes_arr.ndim == 3:
            return boxes_arr.tolist()
        raise ValueError(f"Boxes should be 1/2/3-D, got {boxes_arr.shape}.")
    def _override_processor_config(self) -> None:
        """
        Override processor config with local settings to avoid upstream regressions.
        """
        config_path = Path(__file__).resolve().parents[2] / "configs" / "preprocesser.json"
        if not config_path.exists():
            return
        try:
            config_dict = json.loads(config_path.read_text())
        except Exception:
            return
        image_processor = getattr(self.processor, "image_processor", None)
        if image_processor is None or not hasattr(image_processor, "config"):
            return
        # config behaves like a dict; update in-place.
        try:
            image_processor.config.update(config_dict)
        except Exception:
            for key, value in config_dict.items():
                try:
                    setattr(image_processor.config, key, value)
                except Exception:
                    continue
 def build_hf_sam2_predictor(
    model_id: str = "facebook/sam2-hiera-small",
    device: Optional[str] = None,
 ) -> HFSam2Predictor:
    return HFSam2Predictor(model_id=model_id, device=device)
--- a/src/model/registry.py
+++ b/src/model/registry.py
@ -0,0 +1,33 @@
 from __future__ import annotations
 from typing import Dict, Type
 from ..model_configuration import ModelConfig
 from .base import BaseModelAdapter
 class ModelRegistry:
    """
    Maps model keys to adapter classes so configs can reference them declaratively.
    """
    _registry: Dict[str, Type[BaseModelAdapter]] = {}
    @classmethod
    def register(cls, name: str):
        def decorator(adapter_cls: Type[BaseModelAdapter]) -> Type[BaseModelAdapter]:
            cls._registry[name] = adapter_cls
            return adapter_cls
        return decorator
    @classmethod
    def create(cls, name: str, config: ModelConfig) -> BaseModelAdapter:
        if name not in cls._registry:
            raise KeyError(f"ModelAdapter '{name}' is not registered.")
        adapter_cls = cls._registry[name]
        return adapter_cls(config)
    @classmethod
    def available(cls) -> Dict[str, Type[BaseModelAdapter]]:
        return dict(cls._registry)
--- a/src/model/sam2_adapter.py
+++ b/src/model/sam2_adapter.py
@ -0,0 +1,35 @@
 from __future__ import annotations
 from typing import Any, Tuple
 from transformers import AutoModelForImageSegmentation, AutoProcessor
 from ..model_configuration import ModelConfig
 from .base import BaseModelAdapter
 from .registry import ModelRegistry
@ModelRegistry.register("sam2")
 class Sam2ModelAdapter(BaseModelAdapter):
    """
    Adapter that exposes SAM2 checkpoints through the HF pipeline interface.
    """
    def __init__(self, config: ModelConfig) -> None:
        super().__init__(config)
        self.task = "image-segmentation"
    def _load_pretrained(self) -> Tuple[Any, Any]:
        model = AutoModelForImageSegmentation.from_pretrained(
            self.config.name_or_path,
            revision=self.config.revision,
            cache_dir=self.config.cache_dir,
            trust_remote_code=True,
        )
        processor = AutoProcessor.from_pretrained(
            self.config.name_or_path,
            revision=self.config.revision,
            cache_dir=self.config.cache_dir,
            trust_remote_code=True,
        )
        return model, processor
--- a/src/model/train_hf.py
+++ b/src/model/train_hf.py
@ -0,0 +1,88 @@
 from __future__ import annotations
 import logging
 from dataclasses import dataclass, replace
 from typing import Optional
 from transformers import HfArgumentParser
 from ..dataset import DatasetRegistry
 from ..model_configuration import ConfigRegistry, DatasetConfig
 from .registry import ModelRegistry
 from .trainer import FineTuningTrainer
 LOGGER = logging.getLogger(__name__)
@dataclass
 class TrainCLIArguments:
    config_name: str = "sam2_bbox_prompt"
    model_key: str = "sam2"
    train_split: str = "train"
    eval_split: str = "val"
    train_split_file: Optional[str] = None
    eval_split_file: Optional[str] = None
    skip_eval: bool = False
    device: Optional[str] = None
 def build_dataset(config: DatasetConfig, split: str, split_file: Optional[str]) -> DatasetConfig:
    overrides = {}
    if split:
        overrides["split"] = split
    if split_file:
        overrides["split_file"] = split_file
    return replace(config, **overrides)
 def main() -> None:
    parser = HfArgumentParser(TrainCLIArguments)
    (cli_args,) = parser.parse_args_into_dataclasses()
    project_config = ConfigRegistry.get(cli_args.config_name)
    train_dataset_cfg = build_dataset(
        project_config.dataset, cli_args.train_split, cli_args.train_split_file
    )
    eval_dataset_cfg = (
        build_dataset(project_config.dataset, cli_args.eval_split, cli_args.eval_split_file)
        if not cli_args.skip_eval
        else None
    )
    train_dataset = DatasetRegistry.create(
        train_dataset_cfg.name,
        config=train_dataset_cfg,
        return_hf_dict=True,
    )
    eval_dataset = (
        DatasetRegistry.create(
            eval_dataset_cfg.name,
            config=eval_dataset_cfg,
            return_hf_dict=True,
        )
        if eval_dataset_cfg
        else None
    )
    adapter = ModelRegistry.create(cli_args.model_key, project_config.model)
    if cli_args.device:
        adapter.build_pipeline(device=cli_args.device)
    trainer_builder = FineTuningTrainer(
        adapter=adapter,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        training_config=project_config.training,
    )
    artifacts = trainer_builder.build()
    LOGGER.info("Starting training with args: %s", artifacts.training_args)
    train_result = artifacts.trainer.train()
    LOGGER.info("Training finished: %s", train_result)
    artifacts.trainer.save_model(project_config.training.output_dir)
    if eval_dataset and not cli_args.skip_eval:
        metrics = artifacts.trainer.evaluate()
        LOGGER.info("Evaluation metrics: %s", metrics)
 if __name__ == "__main__":
    logging.basicConfig(level=logging.INFO)
    main()
--- a/src/model/trainer.py
+++ b/src/model/trainer.py
@ -0,0 +1,64 @@
 from __future__ import annotations
 from dataclasses import dataclass
 from typing import Any, Dict, Optional
 from transformers import Trainer, TrainingArguments
 from ..dataset import BaseDataset, collate_samples
 from ..model_configuration import TrainingConfig
 from .base import BaseModelAdapter
@dataclass
 class TrainerArtifacts:
    trainer: Trainer
    training_args: TrainingArguments
 class FineTuningTrainer:
    """
    Helper that bridges TrainingConfig + datasets + adapters into HF Trainer.
    """
    def __init__(
        self,
        adapter: BaseModelAdapter,
        train_dataset: Optional[BaseDataset],
        eval_dataset: Optional[BaseDataset],
        training_config: TrainingConfig,
        trainer_kwargs: Optional[Dict[str, Any]] = None,
    ) -> None:
        self.adapter = adapter
        self.train_dataset = train_dataset
        self.eval_dataset = eval_dataset
        self.training_config = training_config
        self.trainer_kwargs = trainer_kwargs or {}
    def build(self) -> TrainerArtifacts:
        model, processor = self.adapter.load_pretrained()
        training_args = TrainingArguments(
            output_dir=self.training_config.output_dir,
            num_train_epochs=self.training_config.num_train_epochs,
            per_device_train_batch_size=self.training_config.per_device_train_batch_size,
            per_device_eval_batch_size=self.training_config.per_device_eval_batch_size,
            learning_rate=self.training_config.learning_rate,
            gradient_accumulation_steps=self.training_config.gradient_accumulation_steps,
            lr_scheduler_type=self.training_config.lr_scheduler_type,
            warmup_ratio=self.training_config.warmup_ratio,
            weight_decay=self.training_config.weight_decay,
            seed=self.training_config.seed,
            fp16=self.training_config.fp16,
            bf16=self.training_config.bf16,
            report_to=self.training_config.report_to,
        )
        hf_trainer = Trainer(
            model=model,
            args=training_args,
            train_dataset=self.train_dataset,
            eval_dataset=self.eval_dataset,
            data_collator=collate_samples,
            tokenizer=processor,
            **self.trainer_kwargs,
        )
        return TrainerArtifacts(trainer=hf_trainer, training_args=training_args)
--- a/src/model_configuration/init.py
+++ b/src/model_configuration/init.py
@ -0,0 +1,22 @@
 from .config import (
    DatasetConfig,
    EvaluationConfig,
    ModelConfig,
    ProjectConfig,
    TrainingConfig,
    VisualizationConfig,
 )
 from .registry import ConfigRegistry
 # ensure example configs register themselves
 from . import sam2_bbox  # noqa: F401
 __all__ = [
    "DatasetConfig",
    "EvaluationConfig",
    "ModelConfig",
    "ProjectConfig",
    "TrainingConfig",
    "VisualizationConfig",
    "ConfigRegistry",
 ]
--- a/src/model_configuration/config.py
+++ b/src/model_configuration/config.py
@ -0,0 +1,89 @@
 from __future__ import annotations
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Any, Dict, List, Optional
 def _default_dict() -> Dict[str, Any]:
    return {}
@dataclass
 class DatasetConfig:
    name: str
    data_root: str
    split: str = "test"
    split_file: Optional[str] = None
    annotation_file: Optional[str] = None
    image_folder: Optional[str] = None
    mask_folder: Optional[str] = None
    extra_params: Dict[str, Any] = field(default_factory=_default_dict)
    def resolve_path(self, relative: Optional[str]) -> Optional[Path]:
        if relative is None:
            return None
        return Path(self.data_root) / relative
@dataclass
 class ModelConfig:
    name_or_path: str
    revision: Optional[str] = None
    config_name: Optional[str] = None
    cache_dir: Optional[str] = None
    prompt_type: str = "bbox"
    image_size: Optional[int] = None
    pipeline_kwargs: Dict[str, Any] = field(default_factory=_default_dict)
    adapter_kwargs: Dict[str, Any] = field(default_factory=_default_dict)
@dataclass
 class TrainingConfig:
    output_dir: str = "./outputs"
    num_train_epochs: float = 3.0
    per_device_train_batch_size: int = 1
    per_device_eval_batch_size: int = 1
    learning_rate: float = 1e-4
    weight_decay: float = 0.0
    gradient_accumulation_steps: int = 1
    lr_scheduler_type: str = "linear"
    warmup_ratio: float = 0.0
    seed: int = 42
    fp16: bool = False
    bf16: bool = False
    report_to: List[str] = field(default_factory=lambda: ["tensorboard"])
@dataclass
 class EvaluationConfig:
    output_dir: str = "./results"
    metrics: List[str] = field(default_factory=lambda: ["iou", "dice", "precision", "recall"])
    thresholds: List[float] = field(default_factory=lambda: [0.5])
    max_samples: Optional[int] = None
    save_predictions: bool = True
@dataclass
 class VisualizationConfig:
    num_samples: int = 20
    overlay_alpha: float = 0.6
    save_dir: str = "./results/visualizations"
@dataclass
 class ProjectConfig:
    dataset: DatasetConfig
    model: ModelConfig
    training: TrainingConfig = field(default_factory=TrainingConfig)
    evaluation: EvaluationConfig = field(default_factory=EvaluationConfig)
    visualization: VisualizationConfig = field(default_factory=VisualizationConfig)
    def to_dict(self) -> Dict[str, Any]:
        return {
            "dataset": self.dataset,
            "model": self.model,
            "training": self.training,
            "evaluation": self.evaluation,
            "visualization": self.visualization,
        }
--- a/src/model_configuration/registry.py
+++ b/src/model_configuration/registry.py
@ -0,0 +1,28 @@
 from __future__ import annotations
 from typing import Dict
 from .config import ProjectConfig
 class ConfigRegistry:
    """
    Stores reusable project configurations (dataset + model + training bundle).
    """
    _registry: Dict[str, ProjectConfig] = {}
    @classmethod
    def register(cls, name: str, config: ProjectConfig) -> ProjectConfig:
        cls._registry[name] = config
        return config
    @classmethod
    def get(cls, name: str) -> ProjectConfig:
        if name not in cls._registry:
            raise KeyError(f"ProjectConfig '{name}' is not registered.")
        return cls._registry[name]
    @classmethod
    def available(cls) -> Dict[str, ProjectConfig]:
        return dict(cls._registry)
--- a/src/model_configuration/sam2_bbox.py
+++ b/src/model_configuration/sam2_bbox.py
@ -0,0 +1,47 @@
 from __future__ import annotations
 from .config import (
    DatasetConfig,
    EvaluationConfig,
    ModelConfig,
    ProjectConfig,
    TrainingConfig,
    VisualizationConfig,
 )
 from .registry import ConfigRegistry
 SAM2_BBOX_CONFIG = ProjectConfig(
    dataset=DatasetConfig(
        name="crack500",
        data_root="./crack500",
        split="test",
        split_file="test.txt",
        image_folder="testcrop",
        mask_folder="testdata",
    ),
    model=ModelConfig(
        name_or_path="facebook/sam2.1-hiera-small",
        prompt_type="bbox",
        pipeline_kwargs={"batch_size": 1},
    ),
    training=TrainingConfig(
        output_dir="./outputs/sam2_bbox",
        num_train_epochs=5,
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
        learning_rate=1e-4,
        gradient_accumulation_steps=4,
        lr_scheduler_type="cosine",
    ),
    evaluation=EvaluationConfig(
        output_dir="./results/bbox_prompt",
        thresholds=[0.3, 0.5, 0.75],
    ),
    visualization=VisualizationConfig(
        save_dir="./results/bbox_prompt/visualizations",
        num_samples=20,
    ),
 )
 ConfigRegistry.register("sam2_bbox_prompt", SAM2_BBOX_CONFIG)
--- a/src/point_prompt.py
+++ b/src/point_prompt.py
@ -0,0 +1,332 @@
 """
 点提示方式的 SAM2 裂缝分割实现（使用 HuggingFace Transformers）
 使用骨架采样策略，支持 1, 3, 5 个点
 """
 import os
 import cv2
 import numpy as np
 import torch
 from pathlib import Path
 from typing import List, Tuple, Dict
 from tqdm import tqdm
 import json
 from skimage.morphology import skeletonize
 from .hf_sam2_predictor import HFSam2Predictor
 def sample_points_on_skeleton(mask: np.ndarray, num_points: int = 5) -> np.ndarray:
    """
    在骨架上均匀采样点
    Args:
        mask: 二值掩码 (H, W)，值为 0 或 255
        num_points: 采样点数量
    Returns:
        points: 采样点坐标 (N, 2)，格式为 [x, y]
    """
    # 确保掩码是二值的
    binary_mask = (mask > 0).astype(bool)
    # 骨架化
    try:
        skeleton = skeletonize(binary_mask)
    except:
        # 如果骨架化失败，直接使用掩码
        skeleton = binary_mask
    # 获取骨架点坐标 (y, x)
    skeleton_coords = np.argwhere(skeleton)
    if len(skeleton_coords) == 0:
        # 如果没有骨架点，返回空数组
        return np.array([]).reshape(0, 2)
    if len(skeleton_coords) <= num_points:
        # 如果骨架点数少于需要的点数，返回所有点
        # 转换为 (x, y) 格式
        return skeleton_coords[:, [1, 0]]
    # 均匀间隔采样
    indices = np.linspace(0, len(skeleton_coords) - 1, num_points, dtype=int)
    sampled_coords = skeleton_coords[indices]
    # 转换为 (x, y) 格式
    points = sampled_coords[:, [1, 0]]
    return points
 def sample_points_per_component(
    mask: np.ndarray,
    num_points_per_component: int = 3
 ) -> Tuple[np.ndarray, np.ndarray]:
    """
    为每个连通域独立采样点
    Args:
        mask: 二值掩码 (H, W)
        num_points_per_component: 每个连通域的点数
    Returns:
        points: 所有采样点 (N, 2)
        labels: 点标签，全为 1（正样本）
    """
    # 连通域分析
    num_labels, labels_map = cv2.connectedComponents((mask > 0).astype(np.uint8))
    all_points = []
    # 跳过背景 (label 0)
    for region_id in range(1, num_labels):
        region_mask = (labels_map == region_id).astype(np.uint8) * 255
        # 对每个连通域采样
        points = sample_points_on_skeleton(region_mask, num_points_per_component)
        if len(points) > 0:
            all_points.append(points)
    if len(all_points) == 0:
        return np.array([]).reshape(0, 2), np.array([])
    # 合并所有点
    all_points = np.vstack(all_points)
    # 所有点都是正样本
    point_labels = np.ones(len(all_points), dtype=np.int32)
    return all_points, point_labels
 def load_image_and_mask(image_path: str, mask_path: str) -> Tuple[np.ndarray, np.ndarray]:
    """
    加载图像和掩码
    Args:
        image_path: 图像路径
        mask_path: 掩码路径
    Returns:
        image: RGB 图像 (H, W, 3)
        mask: 二值掩码 (H, W)
    """
    # 加载图像
    image = cv2.imread(image_path)
    if image is None:
        raise ValueError(f"无法加载图像: {image_path}")
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    # 加载掩码
    mask = cv2.imread(mask_path, cv2.IMREAD_GRAYSCALE)
    if mask is None:
        raise ValueError(f"无法加载掩码: {mask_path}")
    return image, mask
 def predict_with_point_prompt(
    predictor: HFSam2Predictor,
    image: np.ndarray,
    points: np.ndarray,
    point_labels: np.ndarray = None
 ) -> np.ndarray:
    """
    使用点提示进行 SAM2 预测
    Args:
        predictor: HFSam2Predictor 实例
        image: RGB 图像 (H, W, 3)
        points: 点坐标 (N, 2)，格式为 [x, y]
        point_labels: 点标签 (N,)，1 表示正样本，0 表示负样本
    Returns:
        mask_pred: 预测掩码 (H, W)
    """
    # 设置图像
    predictor.set_image(image)
    # 如果没有点，返回空掩码
    if len(points) == 0:
        return np.zeros((image.shape[0], image.shape[1]), dtype=np.uint8)
    # 默认所有点都是正样本
    if point_labels is None:
        point_labels = np.ones(len(points), dtype=np.int32)
    # 使用点提示预测
    masks, scores, logits = predictor.predict(
        point_coords=points,
        point_labels=point_labels,
        multimask_output=False,
    )
    # 取第一个掩码（因为 multimask_output=False）
    mask_pred = masks[0]  # shape: (H, W)
    # 转换为 0-255
    mask_pred = (mask_pred * 255).astype(np.uint8)
    return mask_pred
 def process_test_set(
    data_root: str,
    test_file: str,
    predictor: HFSam2Predictor,
    output_dir: str,
    num_points: int = 5,
    per_component: bool = False
 ) -> List[Dict]:
    """
    处理整个测试集
    Args:
        data_root: 数据集根目录
        test_file: 测试集文件路径 (test.txt)
        predictor: HFSam2Predictor 实例
        output_dir: 输出目录
        num_points: 采样点数量
        per_component: 是否为每个连通域独立采样
    Returns:
        results: 包含每个样本信息的列表
    """
    # 创建输出目录
    os.makedirs(output_dir, exist_ok=True)
    pred_dir = os.path.join(output_dir, "predictions")
    os.makedirs(pred_dir, exist_ok=True)
    # 读取测试集文件
    with open(test_file, 'r') as f:
        lines = f.readlines()
    results = []
    print(f"开始处理 {len(lines)} 张测试图像...")
    print(f"采样策略: {'每连通域' if per_component else '全局'} {num_points} 个点")
    for line in tqdm(lines, desc="处理测试集"):
        parts = line.strip().split()
        if len(parts) != 2:
            continue
        img_rel_path, mask_rel_path = parts
        # 构建完整路径
        img_path = os.path.join(data_root, img_rel_path)
        mask_path = os.path.join(data_root, mask_rel_path)
        # 检查文件是否存在
        if not os.path.exists(img_path):
            print(f"警告: 图像不存在 {img_path}")
            continue
        if not os.path.exists(mask_path):
            print(f"警告: 掩码不存在 {mask_path}")
            continue
        try:
            # 加载图像和掩码
            image, mask_gt = load_image_and_mask(img_path, mask_path)
            # 从 GT 掩码采样点
            if per_component:
                points, point_labels = sample_points_per_component(
                    mask_gt, num_points_per_component=num_points
                )
            else:
                points = sample_points_on_skeleton(mask_gt, num_points=num_points)
                point_labels = np.ones(len(points), dtype=np.int32)
            # 使用 SAM2 预测
            with torch.inference_mode():
                mask_pred = predict_with_point_prompt(
                    predictor, image, points, point_labels
                )
            # 保存预测掩码
            img_name = Path(img_rel_path).stem
            pred_path = os.path.join(pred_dir, f"{img_name}_pred.png")
            cv2.imwrite(pred_path, mask_pred)
            # 记录结果
            results.append({
                "image_path": img_rel_path,
                "mask_gt_path": mask_rel_path,
                "mask_pred_path": pred_path,
                "num_points": len(points),
                "image_shape": image.shape[:2],
            })
        except Exception as e:
            print(f"处理失败 {img_path}: {str(e)}")
            continue
    # 保存结果信息
    results_file = os.path.join(output_dir, "results_info.json")
    with open(results_file, 'w') as f:
        json.dump(results, f, indent=2)
    print(f"\n处理完成！共处理 {len(results)} 张图像")
    print(f"预测掩码保存在: {pred_dir}")
    print(f"结果信息保存在: {results_file}")
    return results
 def main():
    """主函数"""
    import argparse
    parser = argparse.ArgumentParser(description="SAM2 点提示方式 (HuggingFace) - Crack500 数据集评估")
    parser.add_argument("--data_root", type=str, default="./crack500", help="数据集根目录")
    parser.add_argument("--test_file", type=str, default="./crack500/test.txt", help="测试集文件")
    parser.add_argument("--model_id", type=str, default="facebook/sam2-hiera-small", help="HuggingFace 模型 ID")
    parser.add_argument("--output_dir", type=str, default="./results/point_prompt_hf", help="输出目录")
    parser.add_argument("--num_points", type=int, default=5, choices=[1, 3, 5], help="采样点数量")
    parser.add_argument("--per_component", action="store_true", help="为每个连通域独立采样")
    args = parser.parse_args()
    print("=" * 60)
    print("SAM2 点提示方式 (HuggingFace) - Crack500 数据集评估")
    print("=" * 60)
    print(f"数据集根目录: {args.data_root}")
    print(f"测试集文件: {args.test_file}")
    print(f"模型: {args.model_id}")
    print(f"采样点数量: {args.num_points}")
    print(f"采样策略: {'每连通域' if args.per_component else '全局骨架'}")
    print(f"输出目录: {args.output_dir}")
    print("=" * 60)
    # 检查 CUDA 是否可用
    if not torch.cuda.is_available():
        print("警告: CUDA 不可用，将使用 CPU（速度会很慢）")
    else:
        print(f"使用 GPU: {torch.cuda.get_device_name(0)}")
    # 构建 SAM2 predictor
    print("\n加载 SAM2 模型...")
    from .hf_sam2_predictor import build_hf_sam2_predictor
    predictor = build_hf_sam2_predictor(model_id=args.model_id)
    print("模型加载完成！")
    # 处理测试集
    results = process_test_set(
        data_root=args.data_root,
        test_file=args.test_file,
        predictor=predictor,
        output_dir=args.output_dir,
        num_points=args.num_points,
        per_component=args.per_component
    )
    print("\n" + "=" * 60)
    print("处理完成！接下来请运行评估脚本计算指标。")
    print("=" * 60)
 if __name__ == "__main__":
    main()
--- a/src/tasks/init.py
+++ b/src/tasks/init.py
@ -0,0 +1,8 @@
 from .config import TaskConfig, TaskStepConfig
 from .pipeline import TaskRunner
 from .registry import TaskRegistry
 # ensure built-in tasks are registered
 from . import examples  # noqa: F401
 __all__ = ["TaskConfig", "TaskRunner", "TaskRegistry", "TaskStepConfig"]
--- a/src/tasks/config.py
+++ b/src/tasks/config.py
@ -0,0 +1,40 @@
 from __future__ import annotations
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Literal, Optional
 TaskStepKind = Literal[
    "train",
    "evaluate",
    "visualize",
    "bbox_inference",
    "point_inference",
    "legacy_evaluation",
    "legacy_visualization",
 ]
@dataclass
 class TaskStepConfig:
    kind: TaskStepKind
    dataset_split: Optional[str] = None
    dataset_split_file: Optional[str] = None
    limit: Optional[int] = None
    eval_split: Optional[str] = None
    eval_split_file: Optional[str] = None
    params: Dict[str, Any] = field(default_factory=dict)
@dataclass
 class TaskConfig:
    name: str
    description: str
    project_config_name: str
    model_key: str = "sam2"
    steps: List[TaskStepConfig] = field(default_factory=list)
    dataset_overrides: Dict[str, Any] = field(default_factory=dict)
    model_overrides: Dict[str, Any] = field(default_factory=dict)
    training_overrides: Dict[str, Any] = field(default_factory=dict)
    evaluation_overrides: Dict[str, Any] = field(default_factory=dict)
    visualization_overrides: Dict[str, Any] = field(default_factory=dict)
--- a/src/tasks/examples.py
+++ b/src/tasks/examples.py
@ -0,0 +1,34 @@
 from __future__ import annotations
 from .config import TaskConfig, TaskStepConfig
 from .registry import TaskRegistry
 TaskRegistry.register(
    TaskConfig(
        name="sam2_crack500_eval",
        description="Evaluate SAM2 bbox prompt checkpoints on Crack500 and render overlays.",
        project_config_name="sam2_bbox_prompt",
        steps=[
            TaskStepConfig(kind="evaluate", dataset_split="test"),
            TaskStepConfig(kind="visualize", dataset_split="test", limit=20),
        ],
    )
 )
 TaskRegistry.register(
    TaskConfig(
        name="sam2_crack500_train_eval",
        description="Fine-tune SAM2 on Crack500 train split, evaluate on val, then visualize results.",
        project_config_name="sam2_bbox_prompt",
        steps=[
            TaskStepConfig(
                kind="train",
                dataset_split="train",
                eval_split="val",
                params={"num_train_epochs": 2},
            ),
            TaskStepConfig(kind="evaluate", dataset_split="val", limit=32),
            TaskStepConfig(kind="visualize", dataset_split="val", limit=16),
        ],
    )
 )
--- a/src/tasks/io.py
+++ b/src/tasks/io.py
@ -0,0 +1,40 @@
 from __future__ import annotations
 import tomllib
 from pathlib import Path
 from typing import Any, Dict, List
 from .config import TaskConfig, TaskStepConfig
 def load_task_from_toml(path: str | Path) -> TaskConfig:
    """
    Load a TaskConfig from a TOML file.
    """
    data = tomllib.loads(Path(path).read_text(encoding="utf-8"))
    task_data = data.get("task", {})
    steps_data: List[Dict[str, Any]] = data.get("steps", [])
    steps = [
        TaskStepConfig(
            kind=step["kind"],
            dataset_split=step.get("dataset_split"),
            dataset_split_file=step.get("dataset_split_file"),
            limit=step.get("limit"),
            eval_split=step.get("eval_split"),
            eval_split_file=step.get("eval_split_file"),
            params=step.get("params", {}),
        )
        for step in steps_data
    ]
    return TaskConfig(
        name=task_data["name"],
        description=task_data.get("description", ""),
        project_config_name=task_data["project_config_name"],
        model_key=task_data.get("model_key", "sam2"),
        steps=steps,
        dataset_overrides=task_data.get("dataset_overrides", {}),
        model_overrides=task_data.get("model_overrides", {}),
        training_overrides=task_data.get("training_overrides", {}),
        evaluation_overrides=task_data.get("evaluation_overrides", {}),
        visualization_overrides=task_data.get("visualization_overrides", {}),
    )
--- a/src/tasks/pipeline.py
+++ b/src/tasks/pipeline.py
@ -0,0 +1,264 @@
 from __future__ import annotations
 import logging
 from dataclasses import fields, replace
 from pathlib import Path
 from typing import Any, Dict, Optional
 from ..bbox_prompt import process_test_set as bbox_process_test_set
 from ..dataset import DatasetRegistry
 from ..evaluation import PipelineEvaluator
 from ..evaluation.utils import extract_mask_from_pipeline_output
 from ..hf_sam2_predictor import build_hf_sam2_predictor
 from ..legacy_evaluation import evaluate_test_set as legacy_evaluate_test_set
 from ..legacy_visualization import (
    create_metrics_distribution_plot,
    visualize_test_set as legacy_visualize_test_set,
 )
 from ..model import FineTuningTrainer, ModelRegistry
 from ..model_configuration import ConfigRegistry, DatasetConfig, ProjectConfig
 from ..point_prompt import process_test_set as point_process_test_set
 from ..visualization import OverlayGenerator
 from .config import TaskConfig, TaskStepConfig
 LOGGER = logging.getLogger(__name__)
 def _replace_dataclass(instance, updates: Dict[str, Any]):
    if not updates:
        return instance
    valid_fields = {f.name for f in fields(type(instance))}
    filtered = {k: v for k, v in updates.items() if k in valid_fields}
    if not filtered:
        return instance
    return replace(instance, **filtered)
 def _override_dataset(config: DatasetConfig, split: str, split_file: Optional[str]) -> DatasetConfig:
    updates: Dict[str, Any] = {"split": split}
    if split_file:
        updates["split_file"] = split_file
    return replace(config, **updates)
 class TaskRunner:
    """
    Sequentially executes a series of task steps (train/eval/visualize).
    """
    def __init__(self, task_config: TaskConfig, project_config: Optional[ProjectConfig] = None) -> None:
        self.task_config = task_config
        base_project = project_config or ConfigRegistry.get(task_config.project_config_name)
        if project_config is None:
            base_project = self._apply_project_overrides(base_project)
        self.project_config = base_project
        self.adapter = ModelRegistry.create(task_config.model_key, self.project_config.model)
    def run(self) -> None:
        LOGGER.info("Starting task '%s'", self.task_config.name)
        for idx, step in enumerate(self.task_config.steps, start=1):
            LOGGER.info("Running step %d/%d: %s", idx, len(self.task_config.steps), step.kind)
            if step.kind == "train":
                self._run_train(step)
            elif step.kind == "evaluate":
                self._run_evaluate(step)
            elif step.kind == "visualize":
                self._run_visualize(step)
            elif step.kind == "bbox_inference":
                self._run_bbox_inference(step)
            elif step.kind == "point_inference":
                self._run_point_inference(step)
            elif step.kind == "legacy_evaluation":
                self._run_legacy_evaluation(step)
            elif step.kind == "legacy_visualization":
                self._run_legacy_visualization(step)
            else:
                raise ValueError(f"Unknown task step: {step.kind}")
    def _build_dataset(self, split: str, split_file: Optional[str]):
        dataset_cfg = _override_dataset(self.project_config.dataset, split, split_file)
        return DatasetRegistry.create(
            dataset_cfg.name,
            config=dataset_cfg,
            return_hf_dict=True,
        )
    def _apply_project_overrides(self, config: ProjectConfig) -> ProjectConfig:
        dataset_cfg = config.dataset
        if self.task_config.dataset_overrides:
            dataset_cfg = self._apply_dataset_overrides(dataset_cfg, self.task_config.dataset_overrides)
        evaluation_cfg = config.evaluation
        if self.task_config.evaluation_overrides:
            evaluation_cfg = self._apply_simple_overrides(evaluation_cfg, self.task_config.evaluation_overrides)
        visualization_cfg = config.visualization
        if self.task_config.visualization_overrides:
            visualization_cfg = self._apply_simple_overrides(
                visualization_cfg, self.task_config.visualization_overrides
            )
        model_cfg = config.model
        if self.task_config.model_overrides:
            model_cfg = self._apply_simple_overrides(model_cfg, self.task_config.model_overrides)
        training_cfg = config.training
        if self.task_config.training_overrides:
            training_cfg = self._apply_simple_overrides(training_cfg, self.task_config.training_overrides)
        return replace(
            config,
            dataset=dataset_cfg,
            model=model_cfg,
            training=training_cfg,
            evaluation=evaluation_cfg,
            visualization=visualization_cfg,
        )
    def _apply_dataset_overrides(self, dataset_cfg: DatasetConfig, overrides: Dict[str, Any]) -> DatasetConfig:
        overrides = dict(overrides)
        extra_updates = overrides.pop("extra_params", {})
        merged_extra = dict(dataset_cfg.extra_params or {})
        merged_extra.update(extra_updates)
        return replace(dataset_cfg, **overrides, extra_params=merged_extra)
    def _apply_simple_overrides(self, cfg, overrides: Dict[str, Any]):
        overrides = dict(overrides)
        return replace(cfg, **overrides)
    def _default_data_root(self) -> str:
        return self.project_config.dataset.data_root
    def _default_test_file(self) -> str:
        dataset_cfg = self.project_config.dataset
        candidate = dataset_cfg.split_file or "test.txt"
        candidate_path = Path(candidate)
        if candidate_path.is_absolute():
            return str(candidate_path)
        return str(Path(dataset_cfg.data_root) / candidate)
    def _default_output_dir(self) -> str:
        return self.project_config.evaluation.output_dir
    def _run_train(self, step: TaskStepConfig) -> None:
        train_dataset = self._build_dataset(step.dataset_split, step.dataset_split_file)
        eval_dataset = None
        if step.eval_split:
            eval_dataset = self._build_dataset(step.eval_split, step.eval_split_file)
        trainer_builder = FineTuningTrainer(
            adapter=self.adapter,
            train_dataset=train_dataset,
            eval_dataset=eval_dataset,
            training_config=_replace_dataclass(
                self.project_config.training,
                dict(step.params),
            ),
        )
        artifacts = trainer_builder.build()
        train_result = artifacts.trainer.train()
        LOGGER.info("Training result: %s", train_result)
        artifacts.trainer.save_model(self.project_config.training.output_dir)
        if eval_dataset:
            metrics = artifacts.trainer.evaluate()
            LOGGER.info("Evaluation metrics: %s", metrics)
    def _run_evaluate(self, step: TaskStepConfig) -> None:
        dataset = self._build_dataset(step.dataset_split, step.dataset_split_file)
        evaluation_cfg = _replace_dataclass(
            self.project_config.evaluation,
            {**dict(step.params), "max_samples": step.limit},
        )
        evaluator = PipelineEvaluator(
            dataset=dataset,
            adapter=self.adapter,
            config=evaluation_cfg,
        )
        summary = evaluator.run()
        LOGGER.info("Evaluation summary: %s", summary)
    def _run_visualize(self, step: TaskStepConfig) -> None:
        dataset = self._build_dataset(step.dataset_split, step.dataset_split_file)
        vis_config = _replace_dataclass(
            self.project_config.visualization,
            {**dict(step.params), "num_samples": step.limit or self.project_config.visualization.num_samples},
        )
        overlay = OverlayGenerator(vis_config)
        pipe = self.adapter.build_pipeline()
        limit = min(vis_config.num_samples, len(dataset))
        for idx in range(limit):
            sample = dataset[idx]
            preds = pipe(pixel_values=sample["pixel_values"], prompts=sample.get("prompts"))
            pred_mask = extract_mask_from_pipeline_output(preds)
            mask = sample.get("labels", {}).get("mask")
            overlay.visualize_sample(
                image=sample["pixel_values"],
                prediction=pred_mask,
                mask=mask,
                metadata=sample.get("metadata"),
            )
        LOGGER.info("Saved overlays to %s", vis_config.save_dir)
    def _run_bbox_inference(self, step: TaskStepConfig) -> None:
        params = dict(step.params)
        data_root = params.get("data_root", self._default_data_root())
        test_file = params.get("test_file", self._default_test_file())
        expand_ratio = params.get("expand_ratio", params.get("bbox_expand_ratio", 0.05))
        output_dir = params.get("output_dir", self._default_output_dir())
        model_id = params.get("model_id", self.project_config.model.name_or_path)
        predictor = build_hf_sam2_predictor(model_id=model_id, device=params.get("device"))
        bbox_process_test_set(
            data_root=data_root,
            test_file=test_file,
            predictor=predictor,
            output_dir=output_dir,
            expand_ratio=expand_ratio,
        )
    def _run_point_inference(self, step: TaskStepConfig) -> None:
        params = dict(step.params)
        data_root = params.get("data_root", self._default_data_root())
        test_file = params.get("test_file", self._default_test_file())
        num_points = params.get("num_points", 5)
        per_component = params.get("per_component", False)
        output_dir = params.get("output_dir") or f"./results/point_prompt_{num_points}pts_hf"
        model_id = params.get("model_id", self.project_config.model.name_or_path)
        predictor = build_hf_sam2_predictor(model_id=model_id, device=params.get("device"))
        point_process_test_set(
            data_root=data_root,
            test_file=test_file,
            predictor=predictor,
            output_dir=output_dir,
            num_points=num_points,
            per_component=per_component,
        )
    def _run_legacy_evaluation(self, step: TaskStepConfig) -> None:
        params = dict(step.params)
        data_root = params.get("data_root", self._default_data_root())
        test_file = params.get("test_file", self._default_test_file())
        output_dir = params.get("output_dir", self._default_output_dir())
        pred_dir = params.get("pred_dir", str(Path(output_dir) / "predictions"))
        compute_skeleton = params.get("compute_skeleton", True)
        legacy_evaluate_test_set(
            data_root=data_root,
            test_file=test_file,
            pred_dir=pred_dir,
            output_dir=output_dir,
            compute_skeleton=compute_skeleton,
        )
    def _run_legacy_visualization(self, step: TaskStepConfig) -> None:
        params = dict(step.params)
        data_root = params.get("data_root", self._default_data_root())
        test_file = params.get("test_file", self._default_test_file())
        output_dir = params.get("output_dir", self._default_output_dir())
        pred_dir = params.get("pred_dir", str(Path(output_dir) / "predictions"))
        num_samples = params.get("num_samples", 20)
        save_all = params.get("save_all", False)
        results_csv = params.get("results_csv", str(Path(output_dir) / "evaluation_results.csv"))
        legacy_visualize_test_set(
            data_root=data_root,
            test_file=test_file,
            pred_dir=pred_dir,
            output_dir=output_dir,
            results_csv=results_csv if Path(results_csv).exists() else None,
            num_samples=num_samples,
            save_all=save_all,
        )
        if params.get("create_metrics_plot", True):
            create_metrics_distribution_plot(results_csv, output_dir)
--- a/src/tasks/registry.py
+++ b/src/tasks/registry.py
@ -0,0 +1,28 @@
 from __future__ import annotations
 from typing import Dict
 from .config import TaskConfig
 class TaskRegistry:
    """
    Holds named task configs for reuse.
    """
    _registry: Dict[str, TaskConfig] = {}
    @classmethod
    def register(cls, task: TaskConfig) -> TaskConfig:
        cls._registry[task.name] = task
        return task
    @classmethod
    def get(cls, name: str) -> TaskConfig:
        if name not in cls._registry:
            raise KeyError(f"Task '{name}' is not registered.")
        return cls._registry[name]
    @classmethod
    def available(cls) -> Dict[str, TaskConfig]:
        return dict(cls._registry)
--- a/src/tasks/run_task.py
+++ b/src/tasks/run_task.py
@ -0,0 +1,44 @@
 from __future__ import annotations
 import logging
 from dataclasses import dataclass
 from typing import Optional
 from transformers import HfArgumentParser
 from .config import TaskConfig
 from .io import load_task_from_toml
 from .pipeline import TaskRunner
 from .registry import TaskRegistry
 # ensure built-in tasks are registered when CLI runs
 from . import examples  # noqa: F401
 LOGGER = logging.getLogger(__name__)
@dataclass
 class TaskCLIArguments:
    task_name: Optional[str] = None
    task_file: Optional[str] = None
 def resolve_task(cli_args: TaskCLIArguments) -> TaskConfig:
    if not cli_args.task_name and not cli_args.task_file:
        raise ValueError("Provide either --task_name or --task_file.")
    if cli_args.task_file:
        return load_task_from_toml(cli_args.task_file)
    return TaskRegistry.get(cli_args.task_name)
 def main() -> None:
    parser = HfArgumentParser(TaskCLIArguments)
    (cli_args,) = parser.parse_args_into_dataclasses()
    task = resolve_task(cli_args)
    runner = TaskRunner(task)
    runner.run()
 if __name__ == "__main__":
    logging.basicConfig(level=logging.INFO)
    main()
--- a/src/visualization/init.py
+++ b/src/visualization/init.py
@ -0,0 +1,4 @@
 from .gallery import build_gallery
 from .overlay import OverlayGenerator
 __all__ = ["OverlayGenerator", "build_gallery"]
--- a/src/visualization/gallery.py
+++ b/src/visualization/gallery.py
@ -0,0 +1,28 @@
 from __future__ import annotations
 from pathlib import Path
 from typing import Iterable
 from PIL import Image
 def build_gallery(image_paths: Iterable[Path], output_path: Path, columns: int = 4) -> Path:
    """
    Simple grid composer that stitches overlay PNGs into a gallery.
    """
    image_paths = list(image_paths)
    if not image_paths:
        raise ValueError("No images provided for gallery.")
    output_path.parent.mkdir(parents=True, exist_ok=True)
    images = [Image.open(path).convert("RGB") for path in image_paths]
    widths, heights = zip(*(img.size for img in images))
    cell_w = max(widths)
    cell_h = max(heights)
    rows = (len(images) + columns - 1) // columns
    canvas = Image.new("RGB", (cell_w * columns, cell_h * rows), color=(0, 0, 0))
    for idx, img in enumerate(images):
        row = idx // columns
        col = idx % columns
        canvas.paste(img, (col * cell_w, row * cell_h))
    canvas.save(output_path)
    return output_path
--- a/src/visualization/overlay.py
+++ b/src/visualization/overlay.py
@ -0,0 +1,62 @@
 from __future__ import annotations
 from pathlib import Path
 from typing import Any, Dict, Optional
 import numpy as np
 from PIL import Image
 from ..model_configuration import VisualizationConfig
 class OverlayGenerator:
    """
    Turns model predictions into side-by-side overlays for quick inspection.
    """
    def __init__(self, config: VisualizationConfig) -> None:
        self.config = config
        Path(self.config.save_dir).mkdir(parents=True, exist_ok=True)
    def visualize_sample(
        self,
        image: np.ndarray,
        prediction: np.ndarray,
        mask: Optional[np.ndarray],
        metadata: Optional[Dict[str, Any]] = None,
    ) -> Path:
        overlay = self._compose_overlay(image, prediction, mask)
        filename = (
            metadata.get("image_name", "sample")
            if metadata
            else "sample"
        )
        target = Path(self.config.save_dir) / f"{filename}_overlay.png"
        Image.fromarray(overlay).save(target)
        return target
    def _compose_overlay(
        self,
        image: np.ndarray,
        prediction: np.ndarray,
        mask: Optional[np.ndarray],
    ) -> np.ndarray:
        vis = image.copy()
        pred_mask = self._normalize(prediction)
        color = np.zeros_like(vis)
        color[..., 0] = pred_mask
        vis = (0.5 * vis + 0.5 * color).astype(np.uint8)
        if mask is not None:
            gt = self._normalize(mask)
            color = np.zeros_like(vis)
            color[..., 1] = gt
            vis = (0.5 * vis + 0.5 * color).astype(np.uint8)
        return vis
    def _normalize(self, array: np.ndarray) -> np.ndarray:
        normalized = array.astype(np.float32)
        normalized -= normalized.min()
        denom = normalized.max() or 1.0
        normalized = normalized / denom
        normalized = (normalized * 255).astype(np.uint8)
        return normalized
--- a/src/visualization/run_pipeline_vis.py
+++ b/src/visualization/run_pipeline_vis.py
@ -0,0 +1,58 @@
 from __future__ import annotations
 import logging
 from dataclasses import dataclass, replace
 from typing import Optional
 from transformers import HfArgumentParser
 from ..dataset import DatasetRegistry
 from ..evaluation.utils import extract_mask_from_pipeline_output
 from ..model import ModelRegistry
 from ..model_configuration import ConfigRegistry
 from .overlay import OverlayGenerator
 LOGGER = logging.getLogger(__name__)
@dataclass
 class VisualizationCLIArguments:
    config_name: str = "sam2_bbox_prompt"
    model_key: str = "sam2"
    split: str = "test"
    split_file: Optional[str] = None
    num_samples: int = 20
    device: Optional[str] = None
 def main() -> None:
    parser = HfArgumentParser(VisualizationCLIArguments)
    (cli_args,) = parser.parse_args_into_dataclasses()
    project_config = ConfigRegistry.get(cli_args.config_name)
    dataset_cfg = replace(project_config.dataset, split=cli_args.split, split_file=cli_args.split_file)
    dataset = DatasetRegistry.create(
        dataset_cfg.name,
        config=dataset_cfg,
        return_hf_dict=True,
    )
    adapter = ModelRegistry.create(cli_args.model_key, project_config.model)
    overlay = OverlayGenerator(project_config.visualization)
    pipe = adapter.build_pipeline(device=cli_args.device)
    limit = min(cli_args.num_samples, len(dataset))
    for idx in range(limit):
        sample = dataset[idx]
        preds = pipe(pixel_values=sample["pixel_values"], prompts=sample.get("prompts"))
        pred_mask = extract_mask_from_pipeline_output(preds)
        mask = sample.get("labels", {}).get("mask")
        overlay.visualize_sample(
            image=sample["pixel_values"],
            prediction=pred_mask,
            mask=mask,
            metadata=sample.get("metadata"),
        )
    LOGGER.info("Saved overlays to %s", project_config.visualization.save_dir)
 if __name__ == "__main__":
    logging.basicConfig(level=logging.INFO)
    main()
--- a/tasks/bbox_eval.toml
+++ b/tasks/bbox_eval.toml
@ -0,0 +1,34 @@
 [task]
 name = "bbox_cli_template"
 description = "Run legacy bbox-prompt inference + evaluation + visualization"
 project_config_name = "sam2_bbox_prompt"
 [[steps]]
 kind = "bbox_inference"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 model_id = "facebook/sam2-hiera-small"
 output_dir = "./results/bbox_prompt"
 expand_ratio = 0.05
 [[steps]]
 kind = "legacy_evaluation"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/bbox_prompt"
 pred_dir = "./results/bbox_prompt/predictions"
 compute_skeleton = true
 [[steps]]
 kind = "legacy_visualization"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/bbox_prompt"
 pred_dir = "./results/bbox_prompt/predictions"
 results_csv = "./results/bbox_prompt/evaluation_results.csv"
 num_samples = 20
 save_all = false
 create_metrics_plot = true
--- a/tasks/point_eval.toml
+++ b/tasks/point_eval.toml
@ -0,0 +1,100 @@
 [task]
 name = "point_cli_template"
 description = "Run legacy point-prompt inference/eval/visualization for multiple configs"
 project_config_name = "sam2_bbox_prompt"
 # 1 point config
 [[steps]]
 kind = "point_inference"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 model_id = "facebook/sam2-hiera-small"
 num_points = 1
 per_component = false
 output_dir = "./results/point_prompt_1pts_hf"
 [[steps]]
 kind = "legacy_evaluation"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/point_prompt_1pts_hf"
 pred_dir = "./results/point_prompt_1pts_hf/predictions"
 compute_skeleton = true
 [[steps]]
 kind = "legacy_visualization"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/point_prompt_1pts_hf"
 pred_dir = "./results/point_prompt_1pts_hf/predictions"
 results_csv = "./results/point_prompt_1pts_hf/evaluation_results.csv"
 num_samples = 10
 save_all = false
 create_metrics_plot = true
 # 3 point config
 [[steps]]
 kind = "point_inference"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 model_id = "facebook/sam2-hiera-small"
 num_points = 3
 per_component = false
 output_dir = "./results/point_prompt_3pts_hf"
 [[steps]]
 kind = "legacy_evaluation"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/point_prompt_3pts_hf"
 pred_dir = "./results/point_prompt_3pts_hf/predictions"
 compute_skeleton = true
 [[steps]]
 kind = "legacy_visualization"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/point_prompt_3pts_hf"
 pred_dir = "./results/point_prompt_3pts_hf/predictions"
 results_csv = "./results/point_prompt_3pts_hf/evaluation_results.csv"
 num_samples = 10
 save_all = false
 create_metrics_plot = true
 # 5 point config
 [[steps]]
 kind = "point_inference"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 model_id = "facebook/sam2-hiera-small"
 num_points = 5
 per_component = false
 output_dir = "./results/point_prompt_5pts_hf"
 [[steps]]
 kind = "legacy_evaluation"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/point_prompt_5pts_hf"
 pred_dir = "./results/point_prompt_5pts_hf/predictions"
 compute_skeleton = true
 [[steps]]
 kind = "legacy_visualization"
 [steps.params]
 data_root = "./crack500"
 test_file = "./crack500/test.txt"
 output_dir = "./results/point_prompt_5pts_hf"
 pred_dir = "./results/point_prompt_5pts_hf/predictions"
 results_csv = "./results/point_prompt_5pts_hf/evaluation_results.csv"
 num_samples = 10
 save_all = false
 create_metrics_plot = true
		`@ -0,0 +1,2 @@`
							`# SCM syntax highlighting & preventing 3-way merges`
							`pixi.lock merge=binary linguist-language=YAML linguist-generated=true -diff`