prompt-testing-evaluation

プロンプトのテスト、評価、反復改善を専門とするスキル。A/Bテスト、評価メトリクス、自動化されたプロンプト品質保証により、本番環境で信頼性の高いプロンプトを実現します。Anchors:• Test-Driven Development: By Example (Kent Beck) / 適用: Red-Green-Refactorサイクル / 目的: 反復的な品質改善• LLM-as-a-Judge pattern / 適用: 自動評価とスコアリング / 目的: スケーラブルな品質評価• A/B Testing for AI Systems / 適用: プロンプト比較実験設計 / 目的: データドリブンな改善Trigger:Use when testing prompts, evaluating prompt quality, running A/B tests on prompts, implementing automated prompt evaluation, or establishing continuous prompt improvement cycles.Keywords: prompt testing, A/B testing, evaluation metrics, LLM-as-a-judge, prompt quality, automated evaluation, regression testing

$ Instalar

git clone https://github.com/daishiman/AIWorkflowOrchestrator /tmp/AIWorkflowOrchestrator && cp -r /tmp/AIWorkflowOrchestrator/.claude/skills/prompt-testing-evaluation ~/.claude/skills/AIWorkflowOrchestrator

// tip: Run this command in your terminal to install the skill