Il modello sequenziale di Keras: un esempio di utilizzo.

Aprile 6, 2022 1 Di Ruggero Grando

LA CORRELAZIONE TRA LE VARIABILI DEL DATASET

Per capire meglio le correlazioni tra le variabili del dataset possiamo utilizzare l’indice di correlazione R per ranghi di Spearman mostrato nell’immagine seguente:

Grafico di correlazione Spearman — Fig. 10
(Indice di correlazione R dei ranghi di Spearman)

Leggendo il grafico possiamo capire quanto le caratteristiche del dataset possano essere correlate tra loro. Leggendo il grafico presente in figura 10, vediamo, come la variabile “Age” risulta mediamente correlata con il numero di volte che la paziente è rimasta incinta (Pregnancies). Questa osservazione è desunta da un colore azzurro – scuro della scala presente a destra del grafico. Inoltre, si vede come la caratteristica “Age” sia mediamente correlata con la variabile “Outcome” e quindi con la presenza del diabete. Questo significa, che l’età, nell’ambito dei dati osservati, è mediamente correlata con la presenza del diabete. Tale osservazione era già stata estrapolata in un grafico a violino precedente. Allo stesso modo, possiamo vedere come la concentrazione di Glucosio “Glucose” sia mediamente correlata con la presenza del diabete. Nel grafico, tale correlazione è rappresentata con un colore tendente all’azzurro scuro della scala presente a destra del grafico. Ovviamente, queste considerazioni valgono su questo dataset di dati osservati appartenti alla popolazione dei Pima Indians.

Avendo caricato la libreria Scipy e la classe pearson possiamo verificare numericamente il coefficiente di pearson con l’aiuto del seguente codice.

18 correl = dataset.corr()
19 print(correl)

Il risultato delle righe 18 e 19 è il seguente:

Coefficiente di correlazione tra le variabili del dataset. — Fig. 11
(Coefficiente di correlazione tra le variabili del dataset).

Come indicato, dai risultati presenti nella figura 11, vi è una correlazione maggiore tra le variabili concentrazione di Glucose, Age, BMI, Pregnancies e la variabile Y Outcome. Risultano interessanti anche altre correlazioni e in particolare quella tra Age e Pregnancies o Insulin e Skin tickness. La correlazione più alta è quella relativa alla variabile Age e la variabile Pregnancies uguale a 0,544 ma comunque minore di 0,70 dove si avrebbe, in tal caso, una situazione di multicollinearità.

Ma cosa significa multicollinearità?

Facciamo un breve esempio. Consideriamo le variabili X1 e X2 rispettivamente indicanti la prima, il reddito lordo e la seconda il reddito netto. Y rappresenta la nostra variabile di spesa o meglio il nostro output. X1 e X2 sono fortemente correlate e il calcolo della regressione di Y su X1 e X2 darebbe dei dati non significativi.

Pagina Precedente / Pagina Successiva

No votes yet.

Please wait...

CategoriaArticoli

Tagesempio di utilizzo del modello sequenziale Keras Keras example of sequential model Keras Machine Learning modello sequenziale Keras

Crypto_1_Backtester

ML_Keras_Example_1

Info sull'autore

Ruggero Grando

Da anni sono un "appassionato" di informatica e in particolare del mondo GNU/Linux. Ho iniziato nel lontano 1998 come collaboratore di DADA s.p.a. per la testata SuperEva e nello specifico ho scritto numerosi articoli per il canale "Overclock dei processori". Nel 2001 ho dato il via, al sito Megaoverclock (https://www.megaoverclock.it) e per sei anni, ho contribuito alla diffusione della pratica dell'overclocking delle CPUs. Nello stesso periodo ho realizzato un versione beta di un software per la gestione di uno zoo in linguaggio Java, un prototipo di un sistema di raffreddamento per microprocessori e collaborato con alcune riviste nazionali del settore informatico. Nel 2011 ho lanciato il sito The Megalinux (https://www.megalinux.it) e ho scritto diversi articoli con l'obiettivo di promuovere la cultura del free sofware. Infine, negli ultimi anni, mi sono dedicato alla conoscenza del mondo della blockchain e delle cryptovalute sviluppando alcuni algoritmi in linguaggio Python per i sistemi di trading.

1 commento

Gianfranco ha detto:

Aprile 17, 2022 alle 9:48 pm

Utile

Rispondi

Lascia un commento Annulla risposta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Il modello sequenziale di Keras: un esempio di utilizzo.

LA CORRELAZIONE TRA LE VARIABILI DEL DATASET

Info sull'autore

1 commento

Lascia un commento Annulla risposta

Informativa Estesa