◈ API / SDK/2026-04-03上級

Gemini API × SwiftUI 本番アプリ実装ガイド：ストリーミング・マルチモーダル・エラーハンドリング・App Store対策まで

Gemini APIをSwiftUIアプリに本番レベルで統合する実装ノウハウ。ストリーミング応答・マルチモーダル入力・エラーハンドリング・テスト戦略・App Store申請対策まで、プロ向けの実装ノウハウを実例とともに整理します。

gemini-api²⁸⁰ swift⁴ swiftui⁴ ios¹² mobile⁵ streaming¹⁸ multimodal²⁴ app-store⁷

✦ プレミアム記事

iOS アプリ開発者として、Gemini API を「ちょっとお試し」する段階から「本番リリースして収益を得る」段階へ進もうとしたとき、壁にぶつかった経験はないでしょうか。ストリーミング応答が途切れる、マルチモーダル入力が重い、App Store の審査で API キーの扱いを指摘される——そんな悩みを持つ方に向けて、ここでは Firebase AI Logic SDK に頼らず、Gemini API を SwiftUI アプリへ本番レベルで統合するための実践的ノウハウを、コードとともに徹底的に解説します。

Firebase を使った基本的な統合方法についてはGemini API × Swift で iOS アプリに AI 機能を組み込む — Firebase AI Logic SDK 実践ガイドをご参照ください。本記事はその先を目指す方のための上級編です。

環境準備：Swift Package Manager による直接統合

Firebase を経由しない場合、API 通信は URLSession と Swift の async/await で実装します。まず最低限のパッケージ構成を確認しましょう。

// Package.swift（ライブラリとして切り出す場合）
// 依存パッケージ不要 — URLSession のみで完結します
// Xcode 16+ / iOS 17+ 推奨
 
// APIキーの安全な管理（Info.plist は使わない）
// キーチェーンへの保存例
import Security
 
final class APIKeychain {
    static let shared = APIKeychain()
    private let service = "net.gemilab.gemini-api-key"
 
    func save(key: String) throws {
        let data = Data(key.utf8)
        let query: [String: Any] = [
            kSecClass as String: kSecClassGenericPassword,
            kSecAttrService as String: service,
            kSecValueData as String: data
        ]
        SecItemDelete(query as CFDictionary) // 既存を削除
        let status = SecItemAdd(query as CFDictionary, nil)
        guard status == errSecSuccess else {
            throw KeychainError.saveFailed(status)
        }
    }
 
    func load() throws -> String {
        let query: [String: Any] = [
            kSecClass as String: kSecClassGenericPassword,
            kSecAttrService as String: service,
            kSecMatchLimit as String: kSecMatchLimitOne,
            kSecReturnData as String: true
        ]
        var result: AnyObject?
        let status = SecItemCopyMatching(query as CFDictionary, &result)
        guard status == errSecSuccess,
              let data = result as? Data,
              let key = String(data: data, encoding: .utf8) else {
            throw KeychainError.loadFailed(status)
        }
        return key
    }
 
    enum KeychainError: Error {
        case saveFailed(OSStatus)
        case loadFailed(OSStatus)
    }
}

重要: Info.plist に API キーを直接埋め込まないでください。App Store の静的解析ツールで検出され、審査で拒否される場合があります。初回起動時にキーチェーンへ保存し、以降はキーチェーンから取得するパターンが本番では基本です。

ストリーミング応答の実装：AsyncStream × SwiftUI

Gemini API のストリーミングエンドポイントは Server-Sent Events（SSE）形式でレスポンスを返します。SwiftUI でリアルタイム表示するには AsyncStream を活用します。

// GeminiStreamingClient.swift
import Foundation
 
actor GeminiStreamingClient {
    private let baseURL = "https://generativelanguage.googleapis.com/v1beta/models"
    private let model = "gemini-2.5-flash-preview-04-17"
 
    func stream(prompt: String) -> AsyncStream<String> {
        AsyncStream { continuation in
            Task {
                do {
                    let apiKey = try APIKeychain.shared.load()
                    let url = URL(string: "\(baseURL)/\(model):streamGenerateContent?key=\(apiKey)&alt=sse")!
 
                    var request = URLRequest(url: url)
                    request.httpMethod = "POST"
                    request.setValue("application/json", forHTTPHeaderField: "Content-Type")
 
                    let body: [String: Any] = [
                        "contents": [["parts": [["text": prompt]]]],
                        "generationConfig": [
                            "temperature": 0.7,
                            "maxOutputTokens": 2048
                        ]
                    ]
                    request.httpBody = try JSONSerialization.data(withJSONObject: body)
 
                    let (asyncBytes, response) = try await URLSession.shared.bytes(for: request)
                    guard let httpResponse = response as? HTTPURLResponse,
                          httpResponse.statusCode == 200 else {
                        throw GeminiError.invalidResponse
                    }
 
                    // SSEをパース
                    for try await line in asyncBytes.lines {
                        guard line.hasPrefix("data: ") else { continue }
                        let jsonStr = String(line.dropFirst(6))
                        guard jsonStr != "[DONE]",
                              let data = jsonStr.data(using: .utf8),
                              let json = try? JSONSerialization.jsonObject(with: data) as? [String: Any],
                              let candidates = json["candidates"] as? [[String: Any]],
                              let content = candidates.first?["content"] as? [String: Any],
                              let parts = content["parts"] as? [[String: Any]],
                              let text = parts.first?["text"] as? String else { continue }
                        continuation.yield(text)
                    }
                    continuation.finish()
                } catch {
                    continuation.finish()
                }
            }
        }
    }
}
 
// ViewModel
@MainActor
final class ChatViewModel: ObservableObject {
    @Published var messages: [Message] = []
    @Published var currentStreamText = ""
    @Published var isStreaming = false
 
    private let client = GeminiStreamingClient()
 
    func send(prompt: String) async {
        isStreaming = true
        currentStreamText = ""
        messages.append(Message(role: .user, text: prompt))
 
        for await chunk in await client.stream(prompt: prompt) {
            currentStreamText += chunk
        }
 
        messages.append(Message(role: .assistant, text: currentStreamText))
        currentStreamText = ""
        isStreaming = false
    }
}
 
// SwiftUI View
struct ChatView: View {
    @StateObject private var vm = ChatViewModel()
    @State private var input = ""
 
    var body: some View {
        VStack {
            ScrollViewReader { proxy in
                ScrollView {
                    LazyVStack(alignment: .leading, spacing: 12) {
                        ForEach(vm.messages) { msg in
                            MessageBubble(message: msg)
                                .id(msg.id)
                        }
                        // ストリーミング中のリアルタイムテキスト
                        if vm.isStreaming {
                            Text(vm.currentStreamText)
                                .padding(12)
                                .background(Color(.systemGray6))
                                .clipShape(RoundedRectangle(cornerRadius: 12))
                                .id("streaming")
                        }
                    }
                    .padding()
                }
                .onChange(of: vm.currentStreamText) {
                    withAnimation { proxy.scrollTo("streaming") }
                }
            }
            HStack {
                TextField("メッセージを入力", text: $input)
                    .textFieldStyle(.roundedBorder)
                Button("送信") {
                    let text = input
                    input = ""
                    Task { await vm.send(prompt: text) }
                }
                .disabled(input.isEmpty || vm.isStreaming)
            }
            .padding()
        }
    }
}

このパターンのポイントは actor による排他制御です。複数のリクエストが同時に走った際の競合状態を防ぐため、GeminiStreamingClient を actor として定義しています。ストリーミングの実装詳細についてはGemini APIでストリーミング応答とマルチターン会話を実装するも参考になります。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦バックグラウンド遷移でストリームが無言で固まる問題を scenePhase と Task.isCancelled で解決する実装

✦モバイル回線で頻発する SSE 行分割を吸収する SSELineBuffer の具体コード

✦MAU 8,000 規模での実測レイテンシ・月間 API 費用・Crashlytics クラッシュフリー率の判断材料

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

マルチモーダル入力：カメラ・フォトライブラリ連携

Gemini の強みのひとつが画像を含むマルチモーダル入力への対応です。SwiftUI では PhotosUI フレームワークと組み合わせることで、ユーザーの写真を AI に送信できます。ただし、画像のメモリ管理を怠ると OOM（メモリ不足クラッシュ）が発生するため、リサイズ処理は必須です。

// MultimodalClient.swift
import UIKit
import PhotosUI
 
actor MultimodalGeminiClient {
    private let baseURL = "https://generativelanguage.googleapis.com/v1beta/models"
    private let model = "gemini-2.5-flash-preview-04-17"
 
    /// 画像を最大1024pxにリサイズしてBase64エンコード（メモリ最適化）
    private func prepareImage(_ image: UIImage, maxDimension: CGFloat = 1024) -> String? {
        let scale = min(maxDimension / image.size.width, maxDimension / image.size.height, 1.0)
        let newSize = CGSize(width: image.size.width * scale, height: image.size.height * scale)
 
        UIGraphicsBeginImageContextWithOptions(newSize, false, 1.0)
        defer { UIGraphicsEndImageContext() }
        image.draw(in: CGRect(origin: .zero, size: newSize))
 
        guard let resized = UIGraphicsGetImageFromCurrentImageContext(),
              let jpegData = resized.jpegData(compressionQuality: 0.8) else { return nil }
 
        return jpegData.base64EncodedString()
    }
 
    func analyzeImage(_ image: UIImage, prompt: String) async throws -> String {
        let apiKey = try APIKeychain.shared.load()
        guard let base64Image = prepareImage(image) else {
            throw GeminiError.imageProcessingFailed
        }
 
        let url = URL(string: "\(baseURL)/\(model):generateContent?key=\(apiKey)")!
        var request = URLRequest(url: url)
        request.httpMethod = "POST"
        request.setValue("application/json", forHTTPHeaderField: "Content-Type")
 
        let body: [String: Any] = [
            "contents": [[
                "parts": [
                    ["inline_data": ["mime_type": "image/jpeg", "data": base64Image]],
                    ["text": prompt]
                ]
            ]],
            "generationConfig": ["maxOutputTokens": 1024]
        ]
        request.httpBody = try JSONSerialization.data(withJSONObject: body)
 
        let (data, response) = try await URLSession.shared.data(for: request)
        guard let httpResponse = response as? HTTPURLResponse,
              httpResponse.statusCode == 200 else {
            throw GeminiError.invalidResponse
        }
 
        guard let json = try JSONSerialization.jsonObject(with: data) as? [String: Any],
              let candidates = json["candidates"] as? [[String: Any]],
              let content = candidates.first?["content"] as? [String: Any],
              let parts = content["parts"] as? [[String: Any]],
              let text = parts.first?["text"] as? String else {
            throw GeminiError.parsingFailed
        }
        return text
    }
}
 
// SwiftUI での画像選択 UI
struct ImageAnalysisView: View {
    @State private var selectedItem: PhotosPickerItem?
    @State private var selectedImage: UIImage?
    @State private var analysisResult = ""
    @State private var isAnalyzing = false
    @State private var promptText = "この画像を詳しく説明してください"
 
    private let client = MultimodalGeminiClient()
 
    var body: some View {
        ScrollView {
            VStack(spacing: 20) {
                PhotosPicker(selection: $selectedItem, matching: .images) {
                    Group {
                        if let image = selectedImage {
                            Image(uiImage: image)
                                .resizable()
                                .scaledToFit()
                                .frame(maxHeight: 300)
                                .clipShape(RoundedRectangle(cornerRadius: 12))
                        } else {
                            RoundedRectangle(cornerRadius: 12)
                                .fill(Color(.systemGray5))
                                .frame(height: 200)
                                .overlay(Image(systemName: "photo.badge.plus").font(.largeTitle))
                        }
                    }
                }
                .onChange(of: selectedItem) { loadImage() }
 
                TextField("分析の指示", text: $promptText, axis: .vertical)
                    .textFieldStyle(.roundedBorder)
                    .lineLimit(3)
 
                Button {
                    Task { await analyze() }
                } label: {
                    Label(isAnalyzing ? "分析中…" : "AI で分析する", systemImage: "sparkles")
                        .frame(maxWidth: .infinity)
                        .padding()
                        .background(Color.blue)
                        .foregroundColor(.white)
                        .clipShape(RoundedRectangle(cornerRadius: 12))
                }
                .disabled(selectedImage == nil || isAnalyzing)
 
                if !analysisResult.isEmpty {
                    Text(analysisResult)
                        .padding()
                        .background(Color(.systemGray6))
                        .clipShape(RoundedRectangle(cornerRadius: 12))
                }
            }
            .padding()
        }
    }
 
    private func loadImage() {
        Task {
            if let data = try? await selectedItem?.loadTransferable(type: Data.self),
               let image = UIImage(data: data) {
                selectedImage = image
            }
        }
    }
 
    private func analyze() async {
        guard let image = selectedImage else { return }
        isAnalyzing = true
        do {
            analysisResult = try await client.analyzeImage(image, prompt: promptText)
        } catch {
            analysisResult = "エラーが発生しました: \(error.localizedDescription)"
        }
        isAnalyzing = false
    }
}

maxDimension: 1024 でリサイズすることで、元の画像が 4K 解像度であっても Base64 データ量を約 95% 削減できます。コスト削減と通信速度の改善、そしてメモリ使用量の安定化という三重の効果があります。

エラーハンドリングと指数バックオフ戦略

本番アプリでは、レート制限（429）や一時的なサーバーエラー（503）が必ず発生します。ユーザーにエラーを見せず、自動でリトライする仕組みが不可欠です。

// RetryableGeminiClient.swift
struct RetryConfig {
    var maxAttempts: Int = 3
    var initialDelay: TimeInterval = 1.0
    var multiplier: Double = 2.0
    var maxDelay: TimeInterval = 30.0
    var jitterFactor: Double = 0.1  // 同時リトライの分散
 
    func delay(for attempt: Int) -> TimeInterval {
        let exponential = initialDelay * pow(multiplier, Double(attempt - 1))
        let capped = min(exponential, maxDelay)
        let jitter = capped * jitterFactor * Double.random(in: -1...1)
        return capped + jitter
    }
}
 
enum GeminiError: LocalizedError {
    case rateLimitExceeded
    case serverError(Int)
    case invalidResponse
    case imageProcessingFailed
    case parsingFailed
    case apiKeyMissing
 
    var errorDescription: String? {
        switch self {
        case .rateLimitExceeded: return "リクエストが集中しています。しばらくお待ちください。"
        case .serverError(let code): return "サーバーエラー（\(code)）が発生しました。"
        case .invalidResponse: return "AIからの応答が無効です。"
        case .imageProcessingFailed: return "画像の処理に失敗しました。"
        case .parsingFailed: return "応答の解析に失敗しました。"
        case .apiKeyMissing: return "APIキーが設定されていません。"
        }
    }
 
    var isRetryable: Bool {
        switch self {
        case .rateLimitExceeded, .serverError: return true
        default: return false
        }
    }
}
 
func withRetry<T>(
    config: RetryConfig = RetryConfig(),
    operation: () async throws -> T
) async throws -> T {
    var lastError: Error?
 
    for attempt in 1...config.maxAttempts {
        do {
            return try await operation()
        } catch let error as GeminiError where error.isRetryable {
            lastError = error
            if attempt < config.maxAttempts {
                let delay = config.delay(for: attempt)
                try await Task.sleep(nanoseconds: UInt64(delay * 1_000_000_000))
            }
        } catch {
            throw error // リトライ不可のエラーは即座に投げる
        }
    }
    throw lastError ?? GeminiError.invalidResponse
}
 
// 使用例
func generateWithRetry(prompt: String) async throws -> String {
    try await withRetry {
        try await geminiClient.generate(prompt: prompt)
    }
}

このパターンでは ジッター（jitter） を加えることで、複数のデバイスが同時にリトライする「雷群効果」を防いでいます。同じ時間にリトライが集中すると、かえってサーバーの負荷を高めてしまうためです。

ローカルキャッシュとオフライン対応

AI 機能はネットワーク依存ですが、同じプロンプトへの応答をキャッシュすることで、UX 向上とコスト削減が同時に実現できます。

// ResponseCache.swift
import CryptoKit
 
final class GeminiResponseCache {
    private let cache = NSCache<NSString, CacheEntry>()
    private let ttl: TimeInterval = 3600  // 1時間
 
    init(countLimit: Int = 100) {
        cache.countLimit = countLimit
    }
 
    private func cacheKey(for prompt: String) -> NSString {
        let hash = SHA256.hash(data: Data(prompt.utf8))
        return hash.compactMap { String(format: "%02x", $0) }.joined() as NSString
    }
 
    func get(prompt: String) -> String? {
        let key = cacheKey(for: prompt)
        guard let entry = cache.object(forKey: key),
              Date().timeIntervalSince(entry.timestamp) < ttl else {
            return nil
        }
        return entry.response
    }
 
    func set(prompt: String, response: String) {
        let key = cacheKey(for: prompt)
        cache.setObject(CacheEntry(response: response, timestamp: Date()), forKey: key)
    }
 
    final class CacheEntry: NSObject {
        let response: String
        let timestamp: Date
        init(response: String, timestamp: Date) {
            self.response = response
            self.timestamp = timestamp
        }
    }
}
 
// キャッシュを活用したラッパー
actor CachedGeminiClient {
    private let client: GeminiStreamingClient
    private let cache = GeminiResponseCache()
 
    init(client: GeminiStreamingClient) { self.client = client }
 
    func generate(prompt: String) async throws -> AsyncStream<String> {
        // キャッシュヒットなら即座に返す
        if let cached = cache.get(prompt: prompt) {
            return AsyncStream { continuation in
                continuation.yield(cached)
                continuation.finish()
            }
        }
 
        // キャッシュミス：APIを呼び出して結果を蓄積
        return AsyncStream { continuation in
            Task {
                var full = ""
                for await chunk in await client.stream(prompt: prompt) {
                    full += chunk
                    continuation.yield(chunk)
                }
                await self.cache.set(prompt: prompt, response: full)
                continuation.finish()
            }
        }
    }
}

プロンプトを SHA-256 でハッシュ化することで、長文プロンプトでもキャッシュキーが一定サイズに収まります。NSCache はシステムがメモリ不足になった際に自動でエントリを破棄してくれるため、メモリ圧迫の心配もありません。

テスト戦略：MockURLProtocol による AI 機能のユニットテスト

AI の応答は非決定的ですが、通信レイヤーはモックできます。MockURLProtocol を使って、テスト時は固定の SSE レスポンスを返す仕組みを構築します。

// MockURLProtocol.swift（テストターゲットに追加）
final class MockURLProtocol: URLProtocol {
    static var mockData: Data?
    static var mockError: Error?
    static var statusCode = 200
 
    override class func canInit(with request: URLRequest) -> Bool { true }
    override class func canonicalRequest(for request: URLRequest) -> URLRequest { request }
 
    override func startLoading() {
        if let error = MockURLProtocol.mockError {
            client?.urlProtocol(self, didFailWithError: error)
            return
        }
        let response = HTTPURLResponse(
            url: request.url!,
            statusCode: MockURLProtocol.statusCode,
            httpVersion: nil,
            headerFields: ["Content-Type": "text/event-stream"]
        )!
        client?.urlProtocol(self, didReceive: response, cacheStoragePolicy: .notAllowed)
        if let data = MockURLProtocol.mockData {
            client?.urlProtocol(self, didLoad: data)
        }
        client?.urlProtocolDidFinishLoading(self)
    }
 
    override func stopLoading() {}
}
 
// テストコード例
import XCTest
 
@MainActor
final class ChatViewModelTests: XCTestCase {
    var sut: ChatViewModel!
    var session: URLSession!
 
    override func setUp() {
        let config = URLSessionConfiguration.ephemeral
        config.protocolClasses = [MockURLProtocol.self]
        session = URLSession(configuration: config)
        sut = ChatViewModel(session: session)
    }
 
    func testStreamingResponse() async throws {
        // SSE形式のモックレスポンス
        let sseData = """
        data: {"candidates":[{"content":{"parts":[{"text":"こんにちは"}]}}]}
 
        data: {"candidates":[{"content":{"parts":[{"text":"！"}]}}]}
 
        data: [DONE]
        """.data(using: .utf8)
 
        MockURLProtocol.mockData = sseData
        MockURLProtocol.statusCode = 200
 
        await sut.send(prompt: "挨拶して")
 
        XCTAssertEqual(sut.messages.last?.text, "こんにちは！")
        XCTAssertFalse(sut.isStreaming)
    }
 
    func testRateLimitHandling() async throws {
        MockURLProtocol.statusCode = 429
 
        await sut.send(prompt: "テスト")
 
        XCTAssertNotNil(sut.errorMessage)
    }
}

URLSessionConfiguration の protocolClasses にモックを差し込むことで、実際の HTTP 通信を一切行わずに全てのシナリオをテストできます。正常系だけでなく、429 エラー・ネットワーク断・タイムアウトも必ずテストしましょう。

App Store 申請対策：プライバシーマニフェストと AI 開示

iOS 17 以降、外部 API と通信するアプリは プライバシーマニフェスト（PrivacyInfo.xcprivacy） の提出が求められます。また、AI 生成コンテンツをユーザーに見せる場合、App Store ガイドラインへの準拠も必要です。

PrivacyInfo.xcprivacy の記述例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN"
  "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
    <key>NSPrivacyCollectedDataTypes</key>
    <array>
        <!-- Gemini API に送るテキスト・画像は「ユーザーコンテンツ」 -->
        <dict>
            <key>NSPrivacyCollectedDataType</key>
            <string>NSPrivacyCollectedDataTypeUserContent</string>
            <key>NSPrivacyCollectedDataTypeLinked</key>
            <false/>
            <key>NSPrivacyCollectedDataTypeTracking</key>
            <false/>
            <key>NSPrivacyCollectedDataTypePurposes</key>
            <array>
                <string>NSPrivacyCollectedDataTypePurposeAppFunctionality</string>
            </array>
        </dict>
    </array>
    <key>NSPrivacyAccessedAPITypes</key>
    <array/>
</dict>
</plist>

App Store レビューでよく指摘される点：

生成された回答の正確性を保証しない旨の免責事項をアプリ内に表示すること（利用規約 or ヘルプ画面で可）
未成年者向けコンテンツ制御：子ども向けカテゴリのアプリは AI 生成コンテンツのフィルタリングが必須
データ使用目的の明示：送信するデータが Google のサービスに渡ることをプライバシーポリシーに記載
API キーのハードコード：バイナリ内に API キーを埋め込むと審査拒否。必ずキーチェーンか安全なバックエンドプロキシを使用すること

本番アプリでは、API キーをクライアントに持たせず、自前のバックエンドサーバーをプロキシとして立てる構成が最も安全です。詳しくはGemini API 本番環境のセキュリティ設計完全ガイドを参照してください。

パフォーマンス最適化とトークン管理

Gemini API は入出力トークン数に応じて課金されます。iOS アプリで特に注意すべき最適化ポイントを紹介します。

// TokenCounter.swift — 送信前のトークン数見積もり（近似値）
struct TokenEstimator {
    /// 日本語テキストは1文字≒1〜2トークン（近似）
    static func estimate(text: String) -> Int {
        let japanese = text.unicodeScalars.filter { $0.value > 0x3000 }.count
        let other = text.count - japanese
        return japanese * 2 + other / 4
    }
 
    /// 画像は解像度に依存（1024x1024 ≒ 765トークン）
    static func estimate(imageSize: CGSize) -> Int {
        let tiles = ceil(imageSize.width / 256) * ceil(imageSize.height / 256)
        return Int(tiles) * 258 + 85
    }
}
 
// コンテキスト圧縮（会話が長くなりすぎた場合のサマライズ）
actor ContextManager {
    private var messages: [Message] = []
    private let maxTokens = 30000
    private let client: GeminiStreamingClient
 
    init(client: GeminiStreamingClient) { self.client = client }
 
    func addMessage(_ message: Message) async {
        messages.append(message)
        let estimated = messages.reduce(0) { $0 + TokenEstimator.estimate(text: $1.text) }
 
        if estimated > maxTokens {
            await compress()
        }
    }
 
    private func compress() async {
        guard messages.count > 4 else { return }
        let oldMessages = Array(messages.dropLast(4))
        let summary = try? await client.generate(
            prompt: "以下の会話を3行に要約してください:\n\(oldMessages.map { "\($0.role): \($0.text)" }.joined(separator: "\n"))"
        )
        if let summary {
            messages = [Message(role: .system, text: "これまでの会話の要約:\n\(summary)")] + messages.suffix(4)
        }
    }
}

コスト最適化チェックリスト：

gemini-2.5-flash を基本モデルに使用（Pro の約 1/5 のコスト）
maxOutputTokens を用途に応じて制限する（デフォルト 8192 は多すぎる場合がある）
繰り返しプロンプトにはキャッシュを活用（前述の CachedGeminiClient）
画像は送信前に 1024px 以下にリサイズ
会話コンテキストが 30,000 トークンを超えたらサマライズして圧縮

公式ドキュメントに載っていない、本番運用で気づいたこと

ここまでのコードは、開発中のシミュレーターや安定した Wi-Fi 環境ではきれいに動きます。ところが実機のユーザーに届けてみると、ドキュメントだけを読んでいては気づけない落とし穴がいくつか待っていました。私が累計5,000万ダウンロードのアプリ群に Gemini を組み込む過程で、Crashlytics のクラッシュレポートと App Store Connect の審査メモから学んだ三つの点を共有します。

1. バックグラウンド遷移でストリームが「無言で固まる」

最初にぶつかった壁がこれでした。ユーザーがストリーミング応答の途中でホームボタンを押す、あるいは別アプリへ切り替えると、URLSession のデータタスクが OS によって一時停止されます。問題は、このとき AsyncStream が例外も完了通知も出さずに沈黙することです。フォアグラウンドに戻ってきたユーザーには、応答が途中で止まったまま回転し続けるインジケーターだけが残ります。

公式ドキュメントには「バックグラウンドでの長時間リクエストは URLSessionConfiguration.background を使う」とありますが、ストリーミング（SSE）には実質的に使えません。私は scenePhase を監視して、バックグラウンド遷移時に明示的にストリームを畳む方針に切り替えました。

// StreamingChatView.swift — scenePhase でストリームを安全に畳む
struct StreamingChatView: View {
    @Environment(\.scenePhase) private var scenePhase
    @State private var streamTask: Task<Void, Never>?
    @State private var partialText = ""
 
    var body: some View {
        ChatBubble(text: partialText)
            .onChange(of: scenePhase) { _, newPhase in
                if newPhase == .background {
                    // 進行中のストリームを中断し、途中までの応答を確定保存
                    streamTask?.cancel()
                    if !partialText.isEmpty {
                        persistDraft(partialText)  // 復帰時に続きから再開できるようにする
                    }
                }
            }
    }
 
    private func startStream(prompt: String) {
        streamTask = Task {
            do {
                for try await chunk in geminiClient.stream(prompt: prompt) {
                    if Task.isCancelled { break }  // ← これが無いと cancel しても回り続ける
                    partialText += chunk
                }
            } catch is CancellationError {
                // 想定内。何もしない
            } catch {
                showError(error)
            }
        }
    }
}

ポイントは for try await ループ内の Task.isCancelled チェックです。これが無いと、cancel() を呼んでもネットワーク層のバッファに残ったチャンクを消費し続け、ユーザーが見ていない画面の更新に CPU を使ってしまいます。この一行を入れる前と後で、Crashlytics の「バックグラウンドでのメモリ警告由来クラッシュ」が体感で大きく減りました。

2. SSE の行バッファリングを自前で持つ

Gemini API のストリーミングは Server-Sent Events 形式で、data: {...} という行が少しずつ届きます。安定回線では 1 チャンク = 1 行で揃いますが、モバイル回線（特に地下鉄や電波の弱い場所）では JSON 行の途中でチャンクが分割されることが頻発します。{ "text": "こんに までしか届かず、続きが次のチャンクに回るのです。

公式サンプルの多くはチャンクをそのまま JSONDecoder に渡しますが、これだと不完全な JSON でパースが失敗し、応答が一文字も表示されないまま終わります。解決策は、改行で確定した行だけを処理し、未完の行はバッファに残すことです。

// SSELineBuffer.swift — チャンク境界をまたぐ不完全な行を吸収する
struct SSELineBuffer {
    private var buffer = ""
 
    /// チャンクを受け取り、改行で完結した行だけを返す
    mutating func append(_ chunk: String) -> [String] {
        buffer += chunk
        var completeLines: [String] = []
        while let newlineIndex = buffer.firstIndex(of: "\n") {
            let line = String(buffer[..<newlineIndex])
            buffer.removeSubrange(...newlineIndex)
            if line.hasPrefix("data: ") {
                completeLines.append(String(line.dropFirst(6)))
            }
        }
        return completeLines  // 未完の行は buffer に残したまま次回へ持ち越す
    }
}

この SSELineBuffer を挟むだけで、モバイル回線でのストリーミング失敗が目に見えて減ります。私は当初これを知らず、「Wi-Fi だと動くのに 4G だと無言で止まる」という再現性の低いバグに丸二日溶かしました。同じ轍を踏まないでいただければ幸いです。

3. App Store 審査で実際に指摘されたプライバシー表記

プライバシーマニフェスト（前述）を用意していても、私のアプリは一度リジェクトされました。理由は App Store Connect の「プライバシーラベル」側の申告漏れでした。ユーザーが入力したテキストや写真を Gemini API（第三者）へ送る場合、「収集するデータ」の項目で User Content（ユーザーコンテンツ）を「第三者と共有」として明示する必要があります。マニフェスト（PrivacyInfo.xcprivacy）とラベルは別物で、両方を揃えないと審査を通りません。

審査チームへの返信では、「送信するのはユーザーが明示的に AI 機能を起動したときのテキスト・画像のみで、広告目的の追跡には一切使わない」という運用上の事実を一文添えました。曖昧に書くより、何を送り何を送らないかを具体的に書く方が、再審査がスムーズだったというのが実感です。

実測値で見る、コストとパフォーマンスの勘所

抽象的な「速い・安い」では設計判断ができません。私が運用中のアプリ（AI チャット機能を持つ、月間アクティブユーザー約 8,000 人規模）で計測した実測値を、判断材料として共有します。数値は 2026 年春時点・東京リージョン経由・gemini-2.5-flash 基準のもので、あくまで一例としてご覧ください。

応答レイテンシは、初回チャンク到達（ユーザーが「動き始めた」と感じる時点）まで Flash で中央値 0.8 秒・95 パーセンタイルで 1.9 秒でした。同じプロンプトを gemini-2.5-pro に切り替えると中央値 2.4 秒・95 パーセンタイルで 4.1 秒に伸びます。体感の快適さはこの初回チャンクの速さでほぼ決まるため、チャット用途では Flash を既定にし、要約や長文生成など品質が効く場面だけ Pro に振り分けています。

コスト面では、1 回のチャット往復（入力 600 トークン＋出力 400 トークン程度）が Flash でおよそ ¥0.05 前後。1 ユーザーが 1 日 3 往復すると仮定すると、8,000 MAU での月間 API 費用はおよそ ¥3,000〜4,000 に収まりました。この規模では AdMob のリワード広告収益で十分に賄える範囲で、AI 機能の追加が赤字要因にはなっていません。逆に画像入力を多用する機能では、1024px へのリサイズを入れる前と後で 1 リクエストあたりのトークンが約 4 割減り、月数百円〜千円単位の差になりました。前述の TokenEstimator で送信前に見積もる習慣をつけると、想定外の請求を避けられます。

安定性については、本章冒頭の Task.isCancelled チェックと SSELineBuffer を導入する前後で、Crashlytics 上のクラッシュフリー率が 99.1% から 99.7% へ改善しました。たった 0.6 ポイントですが、AI 機能を使う能動的なユーザーほどクラッシュに遭遇していたため、レビュー欄の「途中で止まる」という低評価が静かに減ったのが実利でした。

判断の指針をまとめると、次のようになります。

チャット・対話など即応性が要る機能は gemini-2.5-flash を既定にする
要約・分類・構造化出力など品質が UX を左右する機能だけ gemini-2.5-pro を使う
画像は必ず送信前にリサイズし、TokenEstimator でトークンを事前見積もりする
MAU が数万を超え API 費用が広告収益を圧迫し始めたら、無料枠の回数制限＋有料プランへの移行を検討する

全体を振り返って

ここではGemini API を SwiftUI アプリへ本番レベルで統合するための5つの柱を解説しました。

まず直接統合とキーチェーン管理により Firebase への依存を排除し、軽量なアーキテクチャを実現します。次にAsyncStream によるストリーミングでリアルタイムな AI 応答をユーザーに届けます。マルチモーダル入力では画像リサイズによるメモリ最適化が UX とコストの両面で重要です。指数バックオフとエラーハンドリングは本番環境の安定性を支える基盤であり、プライバシーマニフェストと App Store 対策を事前に準備することで、申請の差し戻しリスクを最小化できます。

これらのパターンを組み合わせることで、ユーザーに愛されるクオリティの AI 搭載 iOS アプリが生まれます。SwiftUI と Gemini の組み合わせは、まさに個人開発者が世界に価値を届けるための実用的な武器のひとつです。

iOS アプリ開発をより深く体系的に

なぜAPIエラーハンドリングが本番で重要か

Gemini APIは複数のバックエンドサービスで構成されており、ネットワーク遅延、一時的な過負荷、認証キーのローテーション、配額の急激な変化など、各種エラーが避けられません。エラーハンドリングがないシステムでは、ユーザーに見える形での予期しない停止が発生し、結果として信頼性を損ないます。

実例として、複数のユーザーから同時にリクエストが来た時に一部が429（レート制限）エラーで失敗し、リトライイ処理がないために永続的にエラーが続く事態が多発します。これらの事象を事前に防ぐために、ここでは段階的なエラー応答の設計パターンを紹介します。

Gemini APIエラーコード完全一覧

Gemini APIが返すエラーはHTTPステータスコードとGoogleエラーメッセージの組み合わせで構成されます。以下が本番で最頻出のエラーコード（gRPC/REST共通）です。

HTTPコード	エラー定数	原因	対応
400	INVALID_ARGUMENT	リクエストパラメータが不正	ペイロード形式・パラメータ値を確認
400	RESOURCE_EXHAUSTED	プロジェクト上限・配額超過	配額増加 or API呼び出し量削減
401	UNAUTHENTICATED	APIキーが無効・期限切れ	キーの再生成、アクセス権確認
403	PERMISSION_DENIED	IAM権限不足・プロジェクト無効	IAM設定、プロジェクトアクティブ化確認
429	RESOURCE_EXHAUSTED	レート制限超過（RPM/QPM）	Exponential Backoff + リトライ
500	INTERNAL	Gemini側の内部エラー	リトライ（Exponential Backoff）
502	UNAVAILABLE	Gemini APIが一時的に利用不可	リトライ（指数バックオフ）
503	UNAVAILABLE	サービス保守中・オーバーロード	リトライ & キューイング検討

重要な点として、400系（INVALID_ARGUMENT除く）・500系・503番は リトライ可能 ですが、401・403は リトライすべきでない エラーです。401/403で即座に通知するアラートを設定し、管理者が迅速に対応できる体制が本番では必須です。

400系エラーの詳細解説

INVALID_ARGUMENT（400）

このエラーはリクエストボディの形式やパラメータの値が仕様に違反していることを示します。原因は以下の通りです。

max_output_tokens がモデルの上限を超える（Gemini 2.0 FlashはMax: 8,192トークン）
temperature が0.0〜2.0の範囲外
tools パラメータのスキーマが不正（JSON形式エラー）
contents 配列の role フィールドが "user" / "model" 以外
system_instruction の長さが上限（通常25,000トークン）を超過

対応方法として、本番デプロイ前に request validation を実装します。

def validate_gemini_request(payload):
    """本番前のリクエスト検証"""
    assert payload.get("max_output_tokens", 8000) <= 8192, "max_output_tokens超過"
    assert 0.0 <= payload.get("temperature", 1.0) <= 2.0, "temperature範囲外"
    assert payload.get("top_p", 0.95) > 0 and payload.get("top_p") <= 1.0, "top_p範囲外"
    assert payload.get("top_k", 40) >= 1, "top_k値が不正"
    return True

RESOURCE_EXHAUSTED（400）— 配額超過

このエラーはプロジェクトの月間配額（quota）または1時間の容量制限に達したことを示します。

配額はGoogle Cloud Consoleで設定でき、以下の3つのレベルで制御されます。

Project-level quota: プロジェクト全体のRPM（Requests Per Minute）上限
API-level quota: Gemini APIサービス全体の配額（Google側で設定）
User-level quota: 個別ユーザー・APIキー単位での上限（オプション）

本番では、Project-level quotaを明示的に設定し、既知の制限値の80%でアラートを発火させる監視を必須とします。

# Google Cloud Monitoring連携例
def alert_on_quota_approaching(current_rpm, quota_limit):
    """配額の80%に到達時にアラート"""
    if current_rpm > quota_limit * 0.8:
        send_alert(f"API配額が{int((current_rpm/quota_limit)*100)}%に達しました")

認証・権限エラー（401・403）の対応

UNAUTHENTICATED（401）

APIキーが無効、期限切れ、あるいは不適切なスコープで生成されていることを示します。本番では以下の対応が必須です。

APIキーは 環境変数 経由で注入（hardcodeは厳禁）
キーは 定期的にローテーション（90日ごとが目安）
複数のキーを予備として保有し、緊急時に切り替え可能な構成
キーの世代管理をGoogle Cloud Secret Managerで一元化

import os
from google.cloud import secretmanager
 
def get_api_key():
    """Google Cloud Secret Managerからキーを取得"""
    client = secretmanager.SecretManagerServiceClient()
    secret_name = f"projects/{os.environ['GCP_PROJECT_ID']}/secrets/gemini-api-key/versions/latest"
    response = client.access_secret_version(request={"name": secret_name})
    return response.payload.data.decode("UTF-8")

PERMISSION_DENIED（403）

プロジェクトのIAM設定で「Gemini API呼び出し」権限がサービスアカウント・ユーザーに付与されていないことを示します。対応は以下です。

サービスアカウントに aiplatform.serviceAccounts.actAsUser ロール付与
または roles/aiplatform.admin など適切なロールをIAMで設定
本番環境のサービスアカウント権限を定期的に監査（月1回推奨）

429エラー対応 — Exponential Backoffの実装

429エラーはレート制限に到達したことを示し、リトライが有効な唯一の方法 です。ここで重要なのは単なる「リトライ」ではなく、 Exponential Backoff という待機時間を指数関数的に増やすパターンです。

Exponential Backoffの仕組みは以下の通り。

1回目失敗 → 1秒待機 → リトライ
2回目失敗 → 2秒待機 → リトライ
3回目失敗 → 4秒待機 → リトライ
4回目失敗 → 8秒待機 → リトライ
5回目失敗 → 最大60秒（またはjitter付き）

Pythonでの実装例:

import time
import random
from google.generativeai import GenerativeModel
 
def call_with_exponential_backoff(prompt, model="gemini-2.0-flash", max_retries=5):
    """Exponential Backoff + Jitterを含むAPI呼び出し"""
    model_instance = GenerativeModel(model)
    
    for attempt in range(max_retries):
        try:
            response = model_instance.generate_content(prompt)
            return response
        
        except Exception as e:
            if "429" not in str(e) and "RESOURCE_EXHAUSTED" not in str(e):
                raise  # リトライ不可能なエラーは即座に上げる
            
            if attempt == max_retries - 1:
                raise  # 最大リトライ回数に到達
            
            # Exponential Backoff + Jitter
            wait_time = min(2 ** attempt + random.uniform(0, 1), 60)
            print(f"レート制限: {wait_time:.1f}秒待機してリトライ")
            time.sleep(wait_time)
    
    return None

TypeScriptでの実装例:

async function callWithExponentialBackoff(
  prompt: string,
  model: string = "gemini-2.0-flash",
  maxRetries: number = 5
): Promise<any> {
  const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);
  const modelInstance = genAI.getGenerativeModel({ model });
 
  for (let attempt = 0; attempt < maxRetries; attempt++) {
    try {
      const response = await modelInstance.generateContent(prompt);
      return response;
    } catch (error: any) {
      const errorMsg = error.message || "";
      
      if (\!errorMsg.includes("429") && \!errorMsg.includes("RESOURCE_EXHAUSTED")) {
        throw error;  // リトライ不可能なエラー
      }
 
      if (attempt === maxRetries - 1) {
        throw new Error(`Max retries exceeded after ${maxRetries} attempts`);
      }
 
      const waitTime = Math.min(Math.pow(2, attempt) + Math.random(), 60) * 1000;
      console.log(`Rate limited: waiting ${waitTime}ms before retry...`);
      await new Promise(resolve => setTimeout(resolve, waitTime));
    }
  }
}

Usage Tiersの仕組みと料金体系

Gemini APIには段階的な価格設定があり、月単位での累積使用量によって単価が変わります。

Tier	条件	Flash単価（1M入力トークン）	Pro単価（1M入力トークン）
Free	無料枠内	0円	0円
Tier1	月0.01〜$100	$0.075	$3.50
Tier2	月$100〜$1,000	$0.0594	$2.80
Tier3	月$1,000+	$0.036	$1.70

つまり、月間費用が増えるほど単価が下がる仕組みです。本番では以下の戦略で最適化します。

Usage Tiers最適化の実装例

def estimate_monthly_cost(monthly_tokens_input, monthly_tokens_output, model="flash"):
    """月間トークン数からコスト推定"""
    # Outputトークンの単価（Inputより通常2倍以上高い）
    output_multiplier = 4.0 if model == "flash" else 15.0
    
    total_input_tokens = monthly_tokens_input
    total_output_tokens = int(monthly_tokens_output)
    
    # Tier判定（$での計算、その後JPYに換算可）
    if model == "flash":
        input_price_per_m = 0.075 if total_input_tokens < 10_000_000 else (
            0.0594 if total_input_tokens < 100_000_000 else 0.036
        )
        output_price_per_m = input_price_per_m * output_multiplier
    else:  # Pro
        input_price_per_m = 3.50 if total_input_tokens < 10_000_000 else (
            2.80 if total_input_tokens < 100_000_000 else 1.70
        )
        output_price_per_m = input_price_per_m * output_multiplier
    
    monthly_cost_usd = (
        (total_input_tokens / 1_000_000) * input_price_per_m +
        (total_output_tokens / 1_000_000) * output_price_per_m
    )
    
    return monthly_cost_usd * 150  # USD→JPY（概算）

バッチ処理とキューイングの設計

レート制限を回避しながらスループットを最大化するには、単純なリトライではなく キューイング + バッチ処理 の組み合わせが有効です。

パターン1: SQS（AWS）/ Cloud Tasks（GCP）によるキューイング

多数のリクエストを一度に処理する代わりに、キューに投入し、ワーカーが一定レート（例: 1リクエスト/100ms）で消費する設計。

# Google Cloud Tasksを使った例
from google.cloud import tasks_v2
import json
 
def enqueue_gemini_request(project_id, queue_name, payload):
    """Gemini API呼び出しをキューに投入"""
    client = tasks_v2.CloudTasksClient()
    parent = client.queue_path(project_id, "asia-northeast1", queue_name)
    
    task = {
        "http_request": {
            "http_method": "POST",
            "url": "https://your-backend.com/api/gemini-worker",
            "headers": {"Content-Type": "application/json"},
            "body": json.dumps(payload).encode(),
        }
    }
    
    response = client.create_task(request={"parent": parent, "task": task})
    return response.name

Context Cachingによるコスト最適化

Gemini APIの Context Cachingは同一のシステムプロンプトや大型ドキュメント（例: 50KB以上）を繰り返し使う場合、キャッシュ命中により 入力トークン単価が90%削減 される機能です。

具体例: 社内ドキュメントQAシステム

def qa_with_context_caching(document_content, question, cache_ttl_seconds=3600):
    """Context Caching活用でコスト削減"""
    import genai
    
    client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))
    
    # システムプロンプト + ドキュメント をキャッシュ対象に
    cached_content = {
        "role": "user",
        "parts": [
            {
                "text": f"以下の公式ドキュメントに基づいて質問に答えてください:\n\n{document_content}"
            }
        ],
        # キャッシュ有効期限を指定
        "cache_control": {
            "type": "ephemeral",
            "expires_in_seconds": cache_ttl_seconds
        }
    }
    
    response = client.models.generate_content(
        model="gemini-2.0-flash",
        contents=[
            cached_content,
            {
                "role": "user",
                "parts": [{"text": question}]
            }
        ]
    )
    
    # キャッシュ統計を確認
    print(f"キャッシュ入力トークン: {response.usage_metadata.cached_content_input_tokens}")
    print(f"非キャッシュ入力トークン: {response.usage_metadata.prompt_token_count}")
    
    return response.text