本文へ移動
Chandler Nguyen
AI1分で読めます

AI

iOSアプリがプロダクトではなかった。ワークフローがプロダクトだった。

DIALØGUEのiOSアプリを数か月前にリリースし、その後ほとんどを作り直しました。本当のプロダクトはワークフローでした。作る・確認する・聴く・繰り返す——七つの言語で。

DIALØGUEのiOSアプリは、数か月前にリリースしました。そのあと、ほとんどを作り直しました。

最初の版は、Webプロダクトを電話の画面に縮めただけのものでした。トピック入力、PDFアップロード、声の選択、credits、library、settings——すべてをそのまま移植しました。ちゃんと動きました。それが問題でした。

誰かの手の中にある電話は、小さなデスクトップではありません。別の場面です。その二つの版の差が、この記事で書きたいことです。

その版の根っこにあった前提は単純でした。DIALØGUEはAI podcast generatorなのだから、アプリの仕事はそのgeneratorを見せることだ、と。そう考えると、電話はあっという間に小さなダッシュボードになります。

でも、dashboardを管理したくてpodcast appを開く人はいません。

開く理由は、アイデアをaudioにしたいから。完成したepisodeを聴きたいから。繰り返し使うshow setupを、毎回ゼロから設定したくないから。だから、私はアプリをfeature listではなくworkflowを中心に作り直しました。

現在のiOS版はApp Storeで公開されています。インストール数やrating、adoptionの数字を作って語るつもりはありません。ここで書きたいのは、もっと地味なproduct lessonです。多くのAIアプリでは、workflowこそがプロダクトです。

Createはただのフォームではない

作成フローは、いちばん単純な質問から始まります。このpodcastは何について話すのか。

トピックから始めてもいいし、PDFから始めてもいい。両方でもいい。トピックは、システムに調査と構成を任せたいときに役立ちます。PDFは、すでに信頼できる資料があって、それを聴ける形にしたいときに役立ちます。

この画面は単なるinputではありません。最初の信頼の瞬間です。

DIALØGUE iOSの作成画面。トピック入力とPDF添付がある
iOSアプリの作成フロー。システムが素材に触れる前の、最初の信頼の瞬間です。

Desktopならもっと文脈を出せます。Phoneでは、余計なpanelのひとつひとつがattentionを要求します。iOSアプリは、より全部入りになるのではなく、より選ぶ必要がありました。

信頼はreviewで生まれる

以前の私は、DIALØGUEをAI podcast generatorと呼んでいました。間違いではありません。でも不十分です。

より重要なのは、audioの前にreviewすることです。

workflowには2つのreview gateがあります。まずoutline。full scriptを書く前に、approveするかfeedbackを返せます。次にscript review。audioを生成する前に、実際の言葉を読めます。

これは単なるUXの飾りではありません。creditsを無駄にすること、時間を無駄にすること、そして「ほぼ正しいけれど違う」ものを公開してしまうリスクを減らす仕組みです。

DIALØGUE iOSのアウトライン確認画面。承認操作がある
アウトライン確認のゲート。audioの前に、workflowを確認できる必要があります。

script reviewも同じ理由で大事です。ただし、より後戻りしにくい地点にあります。tone、hostのリズム、内容の確からしさがここで見えます。

DIALØGUE iOSのスクリプト確認画面。音声生成前の状態
スクリプト確認のゲート。重要なのは、速いgenerationではなくaudio前のcontrolです。

私にとって、これは「魔法としてのAI」と「プロダクトとしてのAI」の違いです。魔法は作業を隠します。プロダクトは重要な判断を確認可能にします。

聴くことは後付けではない

ここでも私は間違っていました。

しばらくの間、listeningを「生成が終わった後のこと」として扱っていました。podcastを作る。audioを生成する。libraryに入れる。終わり。

でもoutputがaudioなら、聴くことは終わりではありません。プロダクトの半分です。

アプリにはsynced transcriptがあります。episodeを再生しながらtextを追い、任意のlineをtapしてその場所に移動できます。DIALØGUEはscriptを生成しているので、episodeの構造をすでに知っています。transcriptは付録ではなく、outputをより探しやすく、確認しやすく、信頼しやすくするものです。

DIALØGUE iOSの同期トランスクリプト画面。tap-to-seekのカードがある
同期トランスクリプト。listeningはgeneration後の飾りではなく、workflowの一部です。

offline listeningも同じです。散歩、通勤、飛行機、電波の弱い場所で聴くなら、audioはaudioらしく動かなければいけません。

DIALØGUE iOSのオフライン再生画面。ダウンロード済みエピソードの操作がある
オフライン再生。appは現実のlistening conditionsを尊重する必要があります。

Repeatabilityはautomationではない

DIALØGUEでは以前、recurring showsにStudioという言葉を使っていました。響きはよかった。でも少し重すぎました。

Studioはcontrol roomを連想させます。多くのknob、多くのmanagement。より明確な言葉はSeriesでした。

Seriesは保存されたsetupです。hosts、tone、format、language、source pattern。次のepisodeを作るときに、すべてをゼロから設定し直さなくてよくなります。

DIALØGUE iOSのSeries画面。繰り返せるPodcast設定を保存する
Series。repeatabilityはsetup作業を減らすべきで、reviewを消すべきではありません。

正しい問いは「ここでさらに何を管理できるか」ではありません。「どの繰り返し作業なら、安全に消せるか」です。

Localized screenshotsはproduct evidence

アプリは現在、English、Vietnamese、Japanese、Korean、Spanish、Chinese、Frenchの7言語に対応しています。

App Store listingだけを翻訳するのは簡単でした。でもmultilingual productは、marketing copyが翻訳されただけでは信頼されません。実際のflowがその言語で自然に見えるとき、少しずつ信頼されます。これは、DIALOGUEを複数言語で出したときに最初に学んだことと同じです。

DIALØGUE iOSのvoice preview画面。音声選択の操作がある
Voice preview。localizationはlanding pageだけでなく、実際のdecision pointsまで届く必要があります。

すべての言語が同じ成熟度だとは言いません。それは簡単すぎるし、自信過剰です。だからこそscreenshot packageが重要です。quality barを見えるようにするからです。

学んだこと

AI productを作っていると、modelこそがproductだと思いたくなります。

そういう場合もあります。でも多くの場合、productはworkflowだと思います。

modelはcapabilityを与えます。workflowは、そのcapabilityを人間が信頼して使えるものに変えます。いつuserがcontrolを持つのか。いつsystemが進んでいいのか。いつoutputがinspectableであるべきか。いつinterfaceがattentionを求めるのをやめるべきか。それを決めるのがworkflowです。

DIALØGUE on iOSでは、こういう形になりました。

  • ideaやsource materialがあるときにCreate
  • audioに時間とcreditsを使う前にReview
  • transcriptとoffline supportでListen
  • 毎回setupし直さずSeriesでRepeat
  • marketing pageだけでなく実際のflowをLocalize

まだ間違っているかもしれません。本当のtestは、screenshotsがきれいかどうかではありません。誰かがepisodeを作り、聴き、また戻って次を作るかどうかです。

今の私が気にしているbarはそこです。

よくある質問

DIALØGUE iOSアプリでは何が変わりましたか?

Listen、Create、Youの3つのmain tabsになりました。synced transcript、offline downloads、Siri/Shortcuts、recurring shows向けのSeries、そして7つのapp languages向けのlocalized App Store screenshotsも加わりました。

なぜworkflowがproductなのですか?

便利なのは、AIがaudioを生成することだけではないからです。topicまたはPDF、outline、script、audio、context付きのlistening、そしてrecurring shows向けのreusable setupまで含めた道筋が価値です。

DIALØGUEはNotebookLMより良いのですか?

jobによります。NotebookLMはsource-based audio overviewにはとても便利で無料です。DIALØGUEは、language、outline review、script review、voices、final audio、transcript、offline access、Seriesまで含む、より包括的なpodcast workflowを目指しています。

DIALØGUEのiOSアプリは何語に対応していますか?

7言語です。English、Vietnamese、Japanese、Korean、Spanish、Chinese、French。すべての言語が同じ成熟度ではありません(Englishが最も使われています)が、create・review・listenの主要なflowはApp Store listingだけでなく本体もlocalizeされています。

DIALØGUEのpodcastはオフラインで聴けますか?

はい。episodeをダウンロードしてoffline再生できます。通勤、飛行機、電波の弱い場所で役立ちます。再生中はsynced transcriptでtextを追え、任意のlineをtapしてその位置に移動できます。

今日はここまでです。

AI productを作っている方に聞いてみたいです。productは本当にどこにあると思いますか。modelですか、interfaceですか、それともその周りのworkflowですか?

それでは Chandler