Passa ai contenuti principali

Windows 8.1: Text to Speech, SSML e i marker

Nel precedente post abbiamo parlato di Text to Spech e abbiamo accennato alla possibilità di utilizzare un file nel formato SSML (http://www.w3.org/TR/speech-synthesis/) grazie al metodo SpeakSsmlFromUriAsync della classe SpeechSynthesizer:

Public Async Function PlaySSML() As Task
    Dim synth = New SpeechSynthesizer()
    Dim ssmlString = Await LoadSSMLFile("SSML.xml")
    Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
    MediaElement.SetSource(stream, stream.ContentType)
    MediaElement.Play()
End Function

La funzione LoadSSMLFile() si occupa di leggere il file dal disco e restituire la stringa del contenuto.

Tra le molteplici funzionalità offerte dal formato SSML c’è quella di poter inserire, all’interno del file XML, dei marcatori (marker) che possono essere segnalati l nostro codice e che ci permettono di sincronizzare l’interfaccia in maniera opportuna.

Immaginiamo, ad esempio, un libro per bambini in cui la storia, raccontata dalla voce del tablet, viene affiancata con delle immagini. Queste immagini possono essere sincronizzate, appunto, utilizzando dei marker.

Il file SSML potrebbe essere del tipo:

<?xml version="1.0"?>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
                   http://www.w3.org/TR/speech-synthesis/synthesis.xsd">
  <mark name="Primo disegno"/>
    <p>C'era una volta</p>
  <mark name="Secondo disegno"/>
    <p>in un regno lontano lontano</p>
  .
  .
  .
  <mark name="Fine"/>
  <p>E vissero tutti felici e contenti</p>
</speak>

Poichè è il MediaElement ad occuparsi dell’esecuzione dello stream di text to speech, è il MediaElement a segnalare il raggiungimento dei marker.

In particolare ci basterà gestire l’evento merkerReached dello stesso MediaElement e agire di conseguenza sull’interfaccia.

Private Sub MediaElement_MarkerReached(sender As Object,
                                       e As TimelineMarkerRoutedEventArgs) Handles MediaElement.MarkerReached
    ' Possiamo gestir ela visualizzazione delle immagini
    ' in base alla propriet Marker dell'argomento e
End Sub

Tutto molto semplice……se funzionasse!!!

Il problema è che, pur gestendo lo stream del Text to Speech i marker (la collezione Markers della classe SpeechSynthesisStream è valorizzata correttamente), questi non sono compatibili con quelli gestiti dal MediaElement.
Non si sa se tale scelta sia voluta o sia un bug che verrà corretto, in ogni caso, per poter gestire i marker nel MediaElement siamo costretti a crearli a partire dal quelli dello stream del Text to Speech.

La cosa più semplice è creare un extension method che gestisce il tutto:

Imports Windows.Media.SpeechSynthesis

Public Module MediaElementExtensions

    <Extension()>
    Public Sub SetSpeechSynthesisSource(control As MediaElement, stream As SpeechSynthesisStream)
        If control Is Nothing Then Throw New NullReferenceException("MediaElement")
        control.SetSource(stream, stream.ContentType)
        If stream.Markers IsNot Nothing Then
            For index = 0 To stream.Markers.Count() - 1
                Dim marker = stream.Markers(index)
                control.Markers.Add(New TimelineMarker() With {.Text = marker.Text,
                                                               .Time = marker.Time,
                                                               .Type = marker.MediaMarkerType})
            Next
        End If
    End Sub
End Module

In sostanza, impostiamo la sorgente del MediaElement in modo “convenzionale” e, successivamente, scorriamo i marker dello stream generato dallo SpeechSynthesizer e per ognuno di questi creiamo un marker gestibile dal MediaElement (TimelineMarker) e lo aggiungiamo alla collezione Markers.

In questo modo, possiamo scrivere:

Public Async Function PlaySSML() As Task
    Dim synth = New SpeechSynthesizer()
    Dim ssmlString = Await LoadSSMLFile("SSML.xml")
    Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
    MediaElement.SetSpeechSynthesisSource(stream)
    MediaElement.Play()
End Function

 

Commenti

Massimiliano ha detto…
Come posso far pronunciare una domanda del tipo "Come stai ?" ?

Nel senso che dalle prove fatte, il carattere ? non viene preso in considerazione...

Grazie
Massimo Bonanni ha detto…
Onestamente non ho provato, in Windows 8.1, ad utilizzare frasi interrogative in Italiano perche' non essendo disponibile il language pack (e la relativa voce) non riuscirei a capire se la pronuncia e' corretta o meno.
Da quello che mi risulta, il formato SSML supporta le interrogative. E' da vedere se l'implementazione attualmente presente su Windows 8.1 fa altrettanto con tutte le funzionalita' esposte dal SSML.
Un modo alternativo che mi viene in mente per ottenere frasi interrogative e' utilizzando il tag e lavorando sul pitch cercando di ottenere l'intonazione della domanda.

Post popolari in questo blog

MVP Reconnect …… ovvero quando entri nella “famigghia” resti sempre nella “famigghia”!!!

Ma di che “famigghia” stiamo parlando!!!!

Fermi tutti, non si tratta di robe strane o sette segrete o affari malavitosi….stiamo parlando della grande famiglia dei Microsoft MVP.

Per chi non sapesse cosa sono i Microsoft MVP, vi consiglio di fare un giro sul sito ufficiale del programma (link), ma, volendolo spiegare in pochisime parole, si tratta di un riconoscimento che Microsoft da a persone che si distinguono per il loro impegno, aiutando gli altri ad ottenere il massimo grazie alle tecnologie Microsoft. Si tratta di persone, non dipendenti Microsoft, che mettono la loro passione, il loro tempo, la loro buona volontà per la divulgazione e la condivisione della conoscenza. Non necessariamente (come qualcuno erroneamente sostiene, evidentemente non conoscendo le basi del programma) si tratta di professionisti nel termine letterale del termine ma si tratta comunque di un gruppo di persone che sacrifica un pò del suo tempo (e, a volte, vi assicuro neanche pò!!!) per la sua passione.

Pe…

Template di progetto per sviluppare applicazioni WPF con Intel® RealSense™

E’ disponibile, nella gallery di Visual Studio, la prima versione del mio template di progetto per applicazioni WPF scritte in C# che permette di realizzare applicazioni con l’SDK di Intel® RealSense™.Il template si può scaricare direttamente all’interno Visual Studio utilizzando il tool “Extensions and Updates”oppure all’indirizzo https://visualstudiogallery.msdn.microsoft.com/1c36ecfd-8c00-4aee-b20c-a1726ab6424dIl template esegue le seguenti operazioni per voi:Aggiunge la reference all’assembly libpxcclr.cs.dll (nelle due distinte versioni per x86 e x64);Aggiunge lo script di post build per copiare la libreria libpxccpp2c.dll dalla cartella dell’SDK alla cartella bin del vostro progetto.Una volta creato il progetto dovete rimuovere la configurazione di compilazione AnyCPU (che non ha più senso) dalla vostra solution e sarete pronti per sviluppare con Intel® RealSense™.Ovviamente dovete installare l’SDK che potete scaricare all’indirizzo https://software.intel.com/en-us/intel-realsen…

Nuova versione del Band SDK

E’ di ieri l’annuncio del rilascio della nuova versione dell’SDK per il Microsoft Band.
Si tratta della versione 1.3.10417 (la precedente e, prima della serie, era la 1.3.10219 preview).
Maggiori informazioni, download dell’SDK per le tre piattaforme Windows Phone, iOS e Android all’indirizzo http://developer.microsoftband.com/.
Allo stesso indirizzo potrete trovare anche la documentazione.
Nei mesi scorsi mi sono gia’ occupato della precedente versione e questi sono i post che ne parlano:
Microsoft Band SDK Preview - First LookMicrosoft Band SDK Preview - ”Hello Band”Microsoft Band SDK Preview - Accesso ai sensoriMicrosoft Band SDK Preview - TileMicrosoft Band SDK Preview - NotificheMicrosoft Band SDK Preview - Personalizzazione
Gli argomenti trattati e il codice proposto dovrebbe, ad una prima lettura delle nuove funzionalita’ inserite, essere ancora valido e funzionante ma nei prossimi giorni prendero’ in esame tutti gli argomenti dei precedenti post e vedremo cosa cambia e cosa e’ …