Pianificazione e ottimizzazione del customer jounrey attraverso il reinforcement learning

Abstract – person holding white Samsung Galaxy TabI customer journey classici si basano spesso su approcci di pianificazione statici che non considerano le reazioni delle parti nel processo. Queste metodologie sono facili da implementare, ma mancano di un controllo robusto della loro precisione e di una solida adattabilità ai cambiamenti ambientali. In questo articolo, discutiamo alcuni metodi basati sulla modellazione di un customer journey come un processo decisionale di Markov, dove l’ambiente codifica l’insieme dei possibili sotto-contesti e tutti i vincoli imposti dai dipartimenti di marketing e di regolamentazione. Grazie all’adozione di algoritmi di apprendimento per rinforzo, è possibile pianificare una serie di viaggi ottimali (in base a diverse condizioni e vincoli locali) e, allo stesso tempo, ottimizzarli in pseudo-tempo reale attraverso la raccolta di feedback espliciti. Inoltre, questi modelli hanno il vantaggio di essere intrinsecamente interpretabili e, quindi, possono fornire a manager e dirigenti spiegazioni sulle azioni migliori suggerite.

Parole chiave-customer journey, marketing, ottimizzazione, apprendimento automatico, apprendimento per rinforzo

Customer journeys come processi decisionali di Markov

Un customer journey statico è spesso rappresentato come una sequenza di azioni selezionate da un insieme finito A = {a1, a2, …, aN}, dove ogni elemento rappresenta una specifica attività di marketing/commerciale (ad esempio, F2F, e-mail, invito alla conferenza, follow-up F2F, ecc.) La sequenza di azioni può essere progettata staticamente in base a criteri predefiniti, e un sistema automatico può suggerire l’azione successiva migliore in base al programma. Per esempio, uno scenario semplice può basarsi sulla sequenza:

Le azioni di pausa sono state introdotte per definire un tempo di attesa di almeno due giorni lavorativi tra due tappe del viaggio.

Pertanto, la prima azione può essere attivata da un sistema CRM e, dopo sette giorni, si può inviare un suggerimento automatico al rappresentante per invitarlo a organizzare una visita F2F. Anche se il processo è semplice, ci sono alcuni svantaggi evidenti. In primo luogo, ogni viaggio è un’istanza di una classe rigorosamente definita, che non considera alcun vincolo specifico (ad esempio, reazioni soggettive, preferenze, ecc.). Inoltre, non c’è modo di incorporare il feedback di un’azione nel flusso, con l’apparente conseguenza che tutte le azioni inappropriate saranno ripetute all’infinito.

Questo articolo analizza un approccio basato sulla modellazione del viaggio del cliente come un processo decisionale di Markov (MDP). Questa struttura matematica definisce un processo decisionale sequenziale che può essere ottimizzato in modo che un agente razionale selezioni sempre le azioni che massimizzano la ricompensa finale attesa. Assumiamo che l’ambiente sia un’entità astratta che rappresenta un contesto specifico strutturato come stati discreti S = {s1, s2, …, sM}. Analogamente alle azioni, ogni stato è associato a una semantica ben definita (ad esempio, Cliente visitato due volte) definita in ogni contesto specifico. Considerando la struttura di un customer journey, spesso è utile definire gli stati in base alle azioni, ma questa non è una condizione necessaria e, in questo articolo, non imporremo tale vincolo.

Poiché il processo è dipendente dal tempo, l’evoluzione della sequenza di stati (indicata con la lettera greca ) sarà definita come:

Questa notazione significa che un agente ha iniziato dallo stato s1 a t = 1 e ha terminato nello stato sK a t = T, selezionando le azioni indicate sopra le frecce. La scelta dell’unità di tempo discreto è arbitraria e non è direttamente collegata al flusso temporale effettivo. Per esempio, uno stato può significare che un agente che ha raggiunto lo stato a t = a deve attendere un numero predefinito di giorni lavorativi prima di intraprendere un’altra azione. Questa scelta permette di lavorare in uno scenario asincrono in tempo reale, che descrive meglio la struttura di un viaggio reale del cliente.

Un’altra peculiarità dell’ambiente è quella di fornire un feedback (d’ora in poi lo chiameremo ricompensa) dopo ogni azione che l’agente compie. Formalmente, l’effetto di un’azione eseguita dall’agente è una transizione da uno stato di origine a uno di destinazione [1]; quindi, possiamo definire il quadruplo SigmaJ:

La formula codifica i seguenti passaggi:

    1. L’agente si trova nello stato Si al momento t
    2. Mentre si trova in Si, l’agente esegue l’azione
    3. L’agente riceve la ricompensa Rik, che è un numero reale e, se negativo, esprime una penalità (anche se ci riferiamo costantemente a ricompense generiche).
    4. L’ambiente passa allo stato Sj al tempo t+1

Il segno della ricompensa indica se è positiva o negativa. Allo stesso tempo, il suo valore assoluto è proporzionale al livello di bontà associato alla quadrupla (ad esempio, r = 1 e r = -1 hanno la stessa magnitudine – che può rappresentare l’impatto previsto dal reparto marketing o soggettivamente percepito da parte del rappresentante – ma, mentre il primo incentiva l’azione, il secondo la penalizza). È importante ricordare che una ricompensa non ha un significato intrinseco, ma deve sempre essere analizzata nel contesto di una transizione di stato. La stessa azione può produrre effetti diversi quando cambia lo stato iniziale (ad esempio, una prima visita può avere una ricompensa positiva, mentre una seconda indesiderata il giorno dopo potrebbe ricevere una ricompensa negativa).

Un vincolo fondamentale che l’Apprendimento per rinforzo richiede è chiamato inizio di esplorazione e implica che l’agente può esplorare liberamente l’intero ambiente in un tempo infinito (cioè, tutti gli stati vengono rivisitati un numero infinito di volte). Questa condizione non è realistica, perché un rappresentante onesto non può sperimentare liberamente tutte le strategie possibili. Tuttavia, la nostra approssimazione presuppone un numero sufficientemente grande di viaggi esistenti e, contemporaneamente, un numero limitato di stati possibili. Quindi, in media, l’agente può visitare tutti gli stati molte volte N >> Lunghezza media del viaggio.

Incertezza nei percorsi dei clienti

Nella sezione precedente, abbiamo definito una sequenza di stati come un processo in cui le azioni innescano le transizioni. Questo è generalmente corretto, ma non siamo sicuri che un’azione porti sempre allo stesso stato finale negli scenari reali. Quindi, è essenziale introdurre una struttura più generale che sfrutti l’espressività completa degli MDP. Consideriamo la sequenza Tau:

In questo caso, lo stato St(i) è un’espressione generica per “lo stato raggiunto dall’agente al momento t = i”. Pertanto, una singola transizione è associata a una probabilità condizionale:

Tale probabilità ha due caratteristiche essenziali:

    1. Si basa sulla proprietà di Markov. Ciò significa che non abbiamo bisogno di conoscere la storia per prevedere uno stato futuro. È sufficiente considerare solo lo stato precedente e l’azione che ha innescato la transizione (questa ipotesi non è sempre del tutto realistica, ma nella maggior parte dei casi, tale approssimazione è ragionevole e senza conseguenze negative).
    2. Permette di codificare più possibili stati finali come conseguenza di un’azione in uno stato di origine.

Nelle restanti sezioni, facciamo riferimento a processi stocastici e i nostri modelli incorporano sempre questa incertezza nelle stime. Nei customer journey, le azioni sono sempre discrete. Pertanto, l’espressione precedente corrisponde a un array associativo multidimensionale in cui ogni riga contiene le probabilità di ogni azione. Supponiamo che alcuni scenari siano puramente deterministici (cioè, un’azione in uno stato può innescare solo una transizione). In questo caso, è sufficiente impostare una singola probabilità uguale a 1 e tutte le altre uguali a 0 (ad esempio, una riga diventerà uguale a [0,0, …, 0,1,0, …, 0] dove l’uno corrisponde all’unica azione possibile).

Premi, valore e politiche

Per i nostri scopi, è utile introdurre una notazione appropriata per definire tutti i restanti componenti di un customer journey. Nella sezione precedente, abbiamo discusso il ruolo delle ricompense. Per mantenere il massimo livello di generalità, assumiamo l’esistenza di una funzione che emette la ricompensa corrispondente a una transizione:

Tale funzione può essere modellata in modo esplicito oppure può essere considerata come parte dell’ambiente. In generale, trovare un’approssimazione per RhoEnv non è necessario, perché siamo interessati solo alla ricompensa effettiva raccolta dall’agente. Tuttavia, per i nostri calcoli, è preferibile sintetizzare la sequenza di ricompense come una funzione a forma chiusa.

Analogamente a RhoEnv, introdurremo un’altra funzione:

I valori Mk sono sempre ricompense, ma vengono forniti esplicitamente da un agente di controllo (ad esempio, il reparto marketing o commerciale). Hanno lo scopo di imporre vincoli specifici e di incoraggiare/scoraggiare artificialmente alcune azioni.

Durante un viaggio, l’agente raccoglierà una sequenza di ricompense e il suo obiettivo è massimizzare la ricompensa totale prevista. Per questo motivo, dobbiamo introdurre una somma ponderata di tutte le ricompense, ipotizzando che al momento t, l’agente sia interessato a ottenere la ricompensa più significativa possibile con un orizzonte limitato. La sequenza è sconosciuta fino al completamento, quindi non possiamo presumere una conoscenza perfetta del futuro. Quindi, una volta in uno stato, l’agente può essere guidato a intraprendere l’azione che massimizza la ricompensa immediata o una somma di decadimento esponenziale di tutte le ricompense previste nel tempo. Quest’ultima scelta è normalmente la migliore perché evita scelte premature e porta l’agente a perseguire il risultato ottimale anche se alcune azioni intermedie sono localmente subottimali. Formalmente, esprimeremo questo concetto utilizzando due fattori di sconto, LambdaEnv e LambdaCon:

Nella formula precedente, abbiamo implicitamente supposto che gli stati s_i e s_j e le azioni a_k si riferiscano ad ogni singolo valore temporale t. È facile capire che il ruolo dei fattori di sconto è quello di ridurre l’effetto dei premi futuri. Quando λ_i→0, l’orizzonte è limitato a una singola azione, mentre λ_i→1 implica che tutte le azioni future hanno lo stesso peso. Qualsiasi scelta nell’intervallo (0,1) consente di limitare la profondità dell’orizzonte. Nel nostro contesto, utilizzeremo un valore λ_env=0,75 e λ_con=0,15 perché vogliamo limitare l’effetto dei vincoli a una singola azione e, allo stesso tempo, preferiamo un modello con un orizzonte medio-lungo per prendere sempre le decisioni migliori riguardo all’obiettivo finale. Inoltre, la somma precedente è valida solo teoricamente, perché non ha mai esplorazioni infinite. Pertanto, nei nostri calcoli, troncheremo la somma a un limite T, che rappresenta la lunghezza massima dei viaggi.

Nell’apprendimento per rinforzo, l’agente decide in base a una politica, che può essere deterministica o stocastica. Una politica deterministica è una funzione che suggerisce l’azione migliore in ogni stato. Questa è la soluzione più semplice, ma purtroppo non è abbastanza flessibile per gestire l’incertezza degli ambienti reali. Ecco perché ci riferiamo sempre a politiche stocastiche, che sono invece distribuzioni di probabilità condizionali Pi(Ak(t)|Sj(t)). Il valore in uscita è un vettore di probabilità associato a ogni stato. Una volta che tali informazioni sono disponibili, l’agente può seguire la politica (cioè sfruttarla selezionando l’azione più probabile) o scegliere un’azione casuale (cioè esplorare l’ambiente e imparare nuovi elementi). Più formalmente, un’azione viene scelta in base alla seguente regola:

Nel secondo caso, l’azione viene campionata uniformemente dall’insieme Ai di tutte le azioni possibili nello stato Si. Supponiamo che l’agente segua la politica Pi(Ak(t)|Sj(t)). In tal caso, la sequenza di transizione si otterrà moltiplicando le probabilità di transizione (che codificano l’incertezza dell’ambiente) per il valore della politica. Tuttavia, poiché ottimizzeremo solo Pi, ci riferiamo sempre ad esso, omettendo la probabilità di transizione. Pertanto, considerando la precedente definizione di ricompensa scontata, una politica stocastica ottimale è quella che massimizza il valore atteso di Rinf:

La ricerca di una politica ottimale è l’obiettivo di tutti gli approcci di apprendimento per rinforzo. Nella parte restante del documento, discuteremo alcune strategie che possono dare risultati molto positivi nel contesto dei customer journey. Tuttavia, prima di andare avanti, è utile introdurre un altro vincolo esplicito, che è estremamente importante per ragioni normative. I customer journey devono avere una lunghezza massima fissa T per una finestra temporale ben definita (ad esempio, un rappresentante commerciale può visitare un cliente cinque volte all’anno e deve programmare il suo piano di conseguenza). Questo vincolo viene espresso utilizzando una ricompensa scontata troncata:

Questa espressione approssima la ricompensa reale scontata quando T è abbastanza grande. Il limite Lim LamdaK = 0 se K è in (0, 1) quando t > T* come quando i termini della somma diventano trascurabili e per ogni Epsilon > 0 e Tau, esiste T > 0 in modo che il valore assoluto di |Rinf(Tau) – R*(Tau)| < Epsilon.

Modelli ambientali

Nel nostro contesto, l’ambiente può essere standardizzato (ad esempio, quando si considerano solo i microcontesti) o altamente variabile. Quest’ultima opzione, tuttavia, è la più comune per diversi motivi. La gestione dei customer journey si basa normalmente su strategie di marca centralizzate e, allo stesso tempo, su regolamenti e direttive locali. D’altra parte, i rappresentanti di vendita lavorano in aree geografiche limitate e la loro esperienza è spesso tenuta fuori da qualsiasi processo di modellazione. La nostra strategia proposta offre il vantaggio di mantenere il controllo centrale, raccogliendo attivamente il feedback locale e adattando i viaggi. Per le nostre simulazioni, abbiamo implementato un modello neurale degli ambienti che può essere rappresentato come una funzione parametrizzata che emette tutte le probabilità di tutti gli stati possibili dopo che l’agente ha agito come stato St:

La funzione accetta anche una variabile indicatore per passare da un ambiente all’altro (ad esempio, regioni, contee o microaree). Una volta che la rete neurale è stata addestrata utilizzando i dati reali del viaggio del cliente, tali modelli possono essere utilizzati per campionare sequenze di transizione valide e valutare le ricompense. Un altro approccio che abbiamo utilizzato si basa sull’osservazione che gli stati sono discreti e il loro numero è generalmente molto piccolo. Pertanto, è possibile stimare le matrici di transizione associate a ciascun ambiente:

Ogni voce Pij rappresenta la probabilità di transizione P(Si → Sj); quindi, la somma di ogni riga (ogni colonna) deve essere sempre uguale a 1, e le singole voci possono essere ottenute attraverso un conteggio di frequenza. Questo metodo è più semplice ma non necessariamente meno efficace, soprattutto in quegli scenari in cui non è necessario modellare molti ambienti. Tuttavia, dal nostro punto di vista, entrambi gli approcci sono equivalenti, perché si presuppone sempre di lavorare con un numero limitato di stati discreti (chiaramente, una rete neurale può facilmente superare questa limitazione, che invece è codificata nelle matrici di transizione).

Come discusso nella sezione precedente, gestiremo le ricompense basate sull’ambiente e sui vincoli. I formatori devono essere raccolti utilizzando un’applicazione CRM appropriata che deve consentire al rappresentante di vendita di inserire la sua valutazione delle azioni. La scala è sempre standardizzata e, nel nostro caso, corrisponde all’intervallo (-5, 5). Quando possibile, il feedback deve essere raccolto in modo automatizzato e, se necessario, anonimo; ad esempio, la valutazione di una conferenza può essere ottenuta utilizzando un sondaggio online e collegata al customer journey senza soluzione di continuità. Questa scelta limita l’effetto del pregiudizio dovuto al desiderio naturale di non riportare valutazioni inadeguate.

Anche se le ricompense rappresentano un elemento centrale del nostro sistema, non creeremo alcun modello per prevederle. In effetti, tutte le politiche incorporano implicitamente una parte sostanziale delle dinamiche di ricompensa. Tuttavia, considerando la variabilità di tali parametri, riteniamo che non sia utile addestrare un modello predittivo, ma piuttosto affidarsi alle esperienze quasi in tempo reale per raccogliere sempre il feedback più accurato. È anche utile ricordare che una polizza è un modello che può essere utilizzato per un singolo rappresentante o condiviso tra un gruppo di rappresentanti simili. Idealmente, ogni singolo rappresentante di vendita dovrebbe essere associato alla sua politica (che rimane un modello variabile nel tempo che viene periodicamente riqualificato) per massimizzare l’ottimalità e minimizzare il rischio di azioni generalizzate con applicabilità limitata. Al contrario, una grande azienda potrebbe trovarsi di fronte al problema di formare quotidianamente molti modelli senza alcun vantaggio tangibile. In questo contesto, proponiamo una strategia basata su prototipi collaborativi.

Un insieme E di ambienti viene inizialmente selezionato in base a fattori geografici, politici ed economici. Ogni rappresentante di vendita è associato a un sottoinsieme G e il suo customer journey viene selezionato in modo casuale dalle politiche contenute in G. Tutti i feedback raccolti vengono mediati e utilizzati per riqualificare le politiche. Dopo un ciclo di n settimane, l’insieme E viene rimescolato e nuovi sottoinsiemi vengono selezionati e associati ai rappresentanti di vendita. Questo processo viene ripetuto per un numero fisso di cicli o fino a quando le politiche diventano stabili (essendo variabili nel tempo, la stabilità deve essere misurata e considerata una soglia di variazione massima). Una volta concluso questo processo, un rappresentante di vendita sarà associato alla politica più compatibile (cioè quella le cui azioni migliori corrispondono al maggior feedback riportato). Questo metodo non offre il livello di qualità delle politiche per rappresentanti di vendita. Tuttavia, riduce al minimo il numero di modelli e, allo stesso tempo, standardizza i percorsi dei clienti classificandoli in segmenti ben definiti.

Ottimizzazione del customer journey

Il primo metodo di ricerca delle politiche si basa su un approccio classico [2] e [3]. Si basa sull’ottimizzazione di funzioni proporzionali alla ricompensa attesa ottenuta dalla media di tutti i possibili viaggi dei clienti compatibili con un contesto specifico.

Consideriamo un ambiente associato a una versione semplificata della probabilità di transizione P(St+1|St, At) e a una generica politica stocastica parametrizzata Pi(At|St; Psi). Entrambe le espressioni sono semplici e utilizzano una singola variabile per indicare l’evoluzione nel tempo. Possiamo modellare una sequenza di transizione generica con una distribuzione che eredita il vettore di parametri Psi:

Nella formula precedente, p(S1) è la probabilità che Tau parta da S1. Poiché i percorsi dei clienti spesso hanno origine dallo stesso stato iniziale, è possibile impostare questo valore uguale a 1 e omettere il termine. La ricompensa scontata può essere analogamente semplificata e riscritta come:

Il valore atteso della ricompensa scontata è la funzione che vogliamo massimizzare:

Il modo migliore per ottenere l’ottimizzazione è eseguire un’ascesa del gradiente. Supponendo che T passi sequenze di transizione lunghe, è facile dimostrare il seguente risultato:

Un ulteriore miglioramento può essere ottenuto impiegando metodi come la sottrazione della linea di base [5], che produce una politica con una varianza minore. Tuttavia, considerando la bassa complessità dei nostri ambienti, questa ottimizzazione potrebbe essere necessaria per raggiungere la precisione desiderata.

Un metodo alternativo particolarmente adatto agli ambienti discreti si basa sull’algoritmo Q-Learning [4] e [1]. Il nostro obiettivo è modellare una funzione stato-azione Q(S(t), A(t)) che quantifica il vantaggio per un agente nello stato St di scegliere un’azione invece di un’altra. È facile capire che una politica ottimale è..:

In questo caso, l’agente selezionerà sempre l’azione che massimizza la ricompensa attesa da un determinato stato. La regola di apprendimento è autoesplicativa:

Una volta in uno stato, l’agente aggiornerà il valore Q considerando la ricompensa attuale Rt+1 e il valore massimo[1] ottenibile selezionando l’azione ottimale nello stato di destinazione St+1 (scontato da Lambda – in questo modo, si può ottenere un equilibrio tra ricompensa immediata e futura). Dopo alcune iterazioni, la funzione Q converge verso una configurazione stabile che rappresenta l’effettiva mappatura stato-azione. Il vantaggio principale di questo approccio è la sua semplicità (ci sono solo differenze finite); inoltre, la convergenza è normalmente molto veloce, dato un numero sufficientemente grande di partenze di esplorazione. Poiché l’agente è spinto a ottimizzare la politica, le possibili sequenze di transizione saranno limitate senza una sufficiente esplorazione avida. Questo comportamento equivale ad accettare il primo risultato ‘migliore’ senza considerare altre alternative. Fortunatamente, il numero di stati è generalmente piccolo e l’attività concomitante di un gruppo di rappresentanti di vendita è sufficiente per raccogliere un campione di sequenze di transizione valide per eseguire il bootstrap della prima parte del processo di formazione.

Tuttavia, come spiegato nelle sezioni precedenti, qualsiasi approccio di apprendimento del rinforzo senza modello richiede una fase di esplorazione per evitare di escludere grandi regioni dello spazio di stato dalla politica. Questo comportamento non potrebbe essere completamente attuabile quando si tratta di customer journey, a causa del rischio di perdere potenziali clienti. Ecco perché i modelli devono essere addestrati con un set di dati reali, lasciando che l’agente esplori le alternative solo per una frazione limitata del numero totale di azioni (ad esempio, contrariamente alla pratica comune, è possibile iniziare con una percentuale di esplorazioni del 25%, diminuendola monotonicamente fino a raggiungere e mantenere lo 0%). In alternativa, una strategia valida è quella di iniziare ogni viaggio solo con sequenze di sfruttamento fisse e autorizzare l’esplorazione solo quando la ricompensa supera una soglia predefinita. Questo metodo riduce il rischio di azioni premature e sbagliate e limita l’analisi delle proposte alternative solo quando il cliente è impegnato. L’efficacia di tale approccio non è paragonabile a un’esplorazione iniziale libera (che presuppone un numero infinito di episodi). Tuttavia, ha l’ulteriore vantaggio di consentire l’applicazione di vincoli fin dall’inizio. La nostra simulazione mostrerà come questo approccio porti a un’esplorazione approfondita e a una modellazione completa della politica ottimale in presenza di diversi stati e contesti di partenza.

Simulazione dell’ottimizzazione dinamica

Per dimostrare l’efficacia di questo approccio, abbiamo simulato 25.000 viaggi di clienti[2] strutturati in sei stati:

    • Chiamata/interazione F2F
    • Email/Newsletter
    • Invito al webinar
    • Invito alla conferenza
    • Nessuna azione (Attendere 15 giorni prima di qualsiasi altra azione)
    • Successo (conversione verificata) o Fallimento (conversione mancata)

La lunghezza massima dei percorsi dei clienti è stata fissata a 10 tappe, ma, come vedremo, la maggior parte di essi termina dopo un numero inferiore di tappe. Per migliorare il risultato visivo, abbiamo strutturato gli stati in una matrice in cui ogni cella contiene il tipo di stato, il valore finale e la direzione della transizione ottimale. Una tale organizzazione può essere visivamente piacevole, compattare gli stati e condividere parte delle sequenze tra i diversi viaggi.

L’agente è libero di iniziare da ogni cella, ma nei nostri esperimenti, abbiamo imposto il vincolo di iniziare un customer journey sempre con una chiamata F2F (che è uno stato iniziale molto realistico nella maggior parte dei casi). Tuttavia, per completezza, il modello è stato addestrato anche assumendo una partenza generica da tutti gli stati di pausa (in particolare, tutti quelli sui confini). Il risultato del Q-Learning è mostrato nel diagramma successivo. In questo contesto, vogliamo considerare alcuni casi gestiti dalla politica ottimale.

    • Le pause circondano alcune celle finali di confine (ad esempio (4, 7)); pertanto, analizzarle non ha senso a meno che non siamo interessati a successi/fallimenti immediati.
    • Partendo da F2F, l’algoritmo ha trovato diverse strategie ottimali che non sono immediate da verificare. Per esempio, almeno due sequenze potenziali partono da (0, 0)
      • F2F (0,0)→Pausa (0,1)→Conferenza (1,1)→Webinar (2,1)→Pausa(2,2)→Successo
      • F2F (0,0)→Pause (1,0)→Conferenza (1,1)→F2F (1,2)→Pause(2,2)→Successo
    • La differenza tra le due sequenze è l’azione scelta dopo l’invito a una conferenza. Considerando le ricompense previste, l’algoritmo ha suggerito di invitare il cliente a un webinar (ad esempio, per un follow-up più dettagliato). Tuttavia, il rappresentante può ottenere lo stesso risultato con una visita F2F. Lo stato finale è un successo in entrambi i casi. Tuttavia, in quest’ultimo caso, la ricompensa finale è minore perché è necessario assegnare una fascia oraria, spendendo un po’ di tempo in viaggio, e il cliente ha meno flessibilità. Se l’obiettivo della visita è, ad esempio, confermare un’ipotesi, un webinar può essere molto più efficiente (sia in termini di tempo che di denaro). Pertanto, l’algoritmo ha suggerito tale politica.

    • Quando un viaggio virtuale parte da una cella generica (escluse quelle terminali), raggiunge sempre lo stato di successo che soddisfa il doppio vincolo Max(Ricompensa) e Min(Lunghezza del percorso). Tale stato finale è spesso il più vicino a quello di partenza, a causa dei numerosi viaggi nell’analisi. Come discusso nelle sezioni precedenti, la formazione collaborativa sfrutta le diverse esperienze per unificare diversi viaggi, unendo i rami che si sovrappongono. Per esempio, considerando gli stati di partenza (1, 13) e (3, 11), entrambi si concludono nello stato di successo (4, 14) condividendo parte delle sequenze di transizione.

Conclusioni e ulteriori sviluppi

Questo post mostra come sia possibile applicare le tecniche standard di apprendimento per rinforzo per ottimizzare dinamicamente il customer journey.

Riferimenti

    • S. Sutton, A. G. Barto, Reinforcement Learning, Second Edition, A Bradford Book, 2018.
    • J. Williams, Simple statistical gradient-following algorithms for connectionist reinforcement learning, Machine learning 8.3-4, 1992 pp 229-256.
    • S. Sutton, et al. Metodi di gradiente di politica per l’apprendimento di rinforzo con approssimazione di funzioni, Advances in neural information processing systems. 2000.
    • J. C. H. Watkins, P. Dayan, Q-Learning, Machine Learning, Kluwer Academic Publishers, maggio 1992, volume 8, numero 3-4, pagg. 279-292.
    • Sugiyama, Statistical Reinforcement Learning: Modern Machine Learning Approaches, Chapman & Hall, 2015.
    • Bonaccorso, Mastering Machine Learning Algorithms, Packt Publishing, Birmingham, 2018.
    • Van Hasselt, A. Guez, D. Silver, Deep reinforcement learning with double q-learning, Thirtieth AAAI conference on artificial intelligence. 2016
    • N. Lemon, P. C. Verhoef, Understanding customer experience throughout the customer journey, Journal of Marketing 80.6, 2016, pp 69-96
    • Richardson, Using customer journey maps to improve customer experience, Harvard Business Review 15.1, 2010
    • W. Wirtz, Multi-channel-marketing, Grundlagen–Instrumente–Prozesse, Wiesbaden, 2008
    • S. Sutton et al., Policy gradient methods for reinforcement learning with function approximation, Advances in neural information processing systems, 2000
    • Mnih et al., Asynchronous methods for deep reinforcement learning, International conference on machine learning, 2016.

Note

[1] Non abbiamo introdotto esplicitamente il concetto di valore nel contesto dell’apprendimento per rinforzo. Tuttavia, per i nostri scopi, è sufficiente dire che il valore di uno stato St è la ricompensa attesa ottenibile dall’agente seguendo una politica – eventualmente ottimale – a partire da St.

[2] Per motivi pratici, non abbiamo incluso alcun reale customer journey. Tutti i dati sono stati simulati, considerando le azioni reali e le reazioni previste.


Se ti piace l’articolo, puoi sempre fare una donazione per supportare la mia attività. Basta un caffè!


Condividi questa pagina:
0 0 votes
Article Rating
Subscribe
Notificami
guest

0 Comments
Inline Feedbacks
View all comments
0
Mi piacerebbe sapere cosa pensi, perchè non commenti?x