# <center> **Generación de datos aleatorios** </center>
## <font size=4> **Elements of Machine Learning 2025** </font> <font color=gray size=4> -- Alan Reyes-Figueroa </font>

In [1]:
import numpy as np             # cálculo numérico
import scipy as sp
import scipy.stats as st       # estadística

import matplotlib.pyplot as plt  # graficación
import seaborn as sns            # graficación

In [2]:
import warnings
warnings.filterwarnings('ignore')

En este notebook vamos a usar la librería de $\texttt{scipy.stats}$ para generar datos aleatorios. Vamos a considerar el caso de varias variables aleatorias conocidas, algunas discretas y otras continuas.

## Ejemplo Bernoulli

In [3]:
np.random.seed(12345)       # siempre es adecuado establecer una semilla para efectos de replicabilidad.

In [4]:
# Generar una muestra de una variable Bernoulli Ber(0.5)
# de tamaño N = 1000

N = 1000
p = 0.5
sample = np.random.choice(2, p=[1-p,p], size=N)

In [None]:
sample.shape

In [None]:
sample[:36]

In [None]:
plt.figure()
plt.hist(sample)
plt.show()

In [None]:
(sample==0).sum() / N

In [None]:
(sample==1).sum() / N

In [9]:
# Otra forma

N = 1000
p = 0.5
sample2 = st.bernoulli.rvs(p, size=N)

In [None]:
plt.figure()
plt.hist(sample2)
plt.show()

In [None]:
print((sample2==0).sum())
print((sample2==1).sum())

## Ejemplo Uniforme

In [None]:
# Generar una muestra de una variable Uniforme U[a,b]
# de tamaño N = 5000

N = 5000
a = 8
b = 18
sample = a + (b-a)*st.uniform.rvs(size=N)

In [None]:
sample.shape

In [None]:
print(sample.min())
print(sample.max())

In [None]:
bns = b - a + 1
plt.figure()
plt.hist(sample, bins=bns)
plt.show()

In [None]:
bins = np.arange(a, b+1)
bins

In [None]:
x, y = np.histogram(sample, bins=bins)

In [None]:
print(x.shape, y.shape)

Graficamos a continuación la función de densidad (se obtiene dividiendo el histograma dentro del número de datos $N$).

También graficamos la función de distribución (esta se obtiene haciendo la suma acumulada del histograma y dividiendo entre $N$).

In [None]:
plt.figure()
plt.plot(y[:-1], x/N, '--', label='mass')
plt.plot(y[:-1], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# imprimiendo el valor exacto de la probabilidad para cada x
for i in range(a, b):
    print(i, ((sample >= i) & (sample < i+1)).sum() / N)

## Ejemplo Binomial

In [None]:
# Generar una muestra de una variable Binomial Bin(k, p)
# de tamaño N = 10000

N = 10000
k = 25
p = 0.5
sample = np.random.binomial(k, p=p, size=N)

In [None]:
sample.shape

In [None]:
sample[:44]

In [None]:
bns = sample.max() - sample.min() + 1
plt.figure()
plt.hist(sample, bins=bns)
plt.xlim([0,k])
plt.show()

In [None]:
bins = np.arange(sample.min(), sample.max()+1)
x, y = np.histogram(sample, bins=bns)

In [None]:
plt.figure()
plt.plot(y[1:], x/N, '--', label='mass')
plt.plot(y[1:], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# imprimiendo el valor de probabilidad para cada x
for i in range(0, k+1):
    print('%02d %5.5f %5.5f' % (i, (sample==i).sum() / N, sp.special.binom(k, i)/(2**k)))

In [None]:
sample.mean()    #media empírica

In [None]:
k*p              #media teórica

In [None]:
error = np.abs(sample.mean() - k*p) / (k*p)
print(error)
print('error = {}%'.format(error * 100))

## Ejemplo Geométrica

In [None]:
# Generar una muestra de una variable Binomial Bin(k, p)
# de tamaño N = 10000

N = 10000
p = 0.25
sample = np.random.geometric(p=p, size=N)

In [None]:
sample.shape

In [None]:
sample[:44]

In [None]:
bns = sample.max() - sample.min() + 1
plt.figure()
plt.hist(sample, bins=bns)
plt.show()

In [None]:
bins = np.arange(sample.min(), sample.max()+1)
x, y = np.histogram(sample, bins=bns)

In [None]:
plt.figure()
plt.plot(y[1:], x/N, '--', label='mass')
plt.plot(y[1:], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# imprimiendo los valores de probabilidad
for i in range(1, sample.max()+1):
    print(i, (sample==i).sum() / N)

In [None]:
sample.mean()   #media empírica

In [None]:
1/p             #media teórica

In [None]:
error = np.abs(sample.mean() - 1/p) * p
print(error)
print('error = {}%'.format(error * 100))

## Ejemplo Gamma

In [None]:
# Generar una muestra de una variable gaussiana N(mu, sigma)
# de tamaño N = 10000

N = 10000
a = 2      # parámetro de forma
b = 5      # parámetro de localización
sample = np.random.gamma(a, b, size=N)

In [None]:
sample.shape

In [None]:
sample[:44]

In [None]:
bns = int(3.3*(1 + np.log(N)))
print(bns)
plt.figure()
plt.hist(sample, bins=bns)
plt.show()

In [None]:
x, y = np.histogram(sample, bins=bns)

In [None]:
plt.figure()
plt.plot(y[1:], x/N, '--', label='mass')
plt.plot(y[1:], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# densidad aproximada
plt.figure()
sns.distplot(sample, kde=True)
plt.show()

## Ejemplo Possion

In [None]:
# Generar una muestra de una variable Poisson(lambda)
# de tamaño N = 10000

N = 10000
lamb = 7      # parámetro de forma

sample = np.random.poisson(lamb, size=N)

In [None]:
sample.shape

In [None]:
sample[:44]

In [None]:
print(sample.min(), sample.max())

In [None]:
bns = sample.max() - sample.min() + 1
print(bns)
plt.figure()
plt.hist(sample, bins=bns)
plt.show()

In [None]:
x, y = np.histogram(sample, bins=bns)

In [None]:
plt.figure()
plt.plot(y[1:], x/N, '--', label='mass')
plt.plot(y[1:], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# densidad aproximada
plt.figure()
sns.distplot(sample, kde=True)  #, kde_kws={'bw':0.25})
plt.show()

## Ejemplo LogNormal

In [None]:
# Generar una muestra de una variable logNormal logN(mu, sigma)
# de tamaño N = 10000

N = 10000
mu  = np.log(100)    # parámetro de localización
sig = 1              # parámetro de escala
sample = np.random.lognormal(mu, sig, size=N)

In [None]:
sample.shape

In [None]:
sample[:44]

In [None]:
#bns = int(3.3*(1 + np.log(N)))
bns = 100
print(bns)
plt.figure()
plt.hist(sample, bins=bns)
#plt.xscale('log')
plt.show()

In [None]:
x, y = np.histogram(sample, bins=bns)

In [None]:
plt.figure()
plt.plot(y[1:], x/N, '--', label='mass')
plt.plot(y[1:], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# densidad aproximada
plt.figure()
sns.distplot(sample, kde=True)
plt.show()

In [None]:
logsample = np.log10(sample)

In [None]:
#bns = int(3.3*(1 + np.log(N)))
bns = 100
print(bns)
plt.figure()
plt.hist(logsample, bins=bns)
#plt.xscale('log')
plt.show()

In [None]:
x, y = np.histogram(logsample, bins=bns)

In [None]:
plt.figure()
plt.plot(y[1:], x/N, '--', label='mass')
plt.plot(y[1:], x.cumsum()/N, '-', label='distribution')
plt.legend()
plt.show()

In [None]:
# densidad aproximada
plt.figure()
sns.distplot(logsample, kde=True)
plt.show()

Tarea para la próxima clase:

Para las siguientes distribuciones, investigar: 
*  qué forma tiene (cómo se ve la densidad o la función de distribución), 
*  de qué parámetros depende, 
*  para qué se utiliza la distribución (para modelar qué tipo de fenómenos).

Discretas:  Uniforme, Bernoulli, Binomial, Geométrica, Poisson.

Continuas: Uniforme, Exponencial, Erlang, Gamma, Beta, Normal, logNormal.