Explora cómo los modelos de lenguaje representan palabras como puntos en un espacio de alta dimensión. Usa PCA, t-SNE o UMAP para proyectarlos y encontrar estructura semántica.
scatter_plot Proyección PCA, t-SNE, UMAP
search Búsqueda de vecinos semánticos
upload_file Carga tus propios embeddings
Un embedding es una representación numérica densa de una palabra, frase o token. Un modelo convierte texto en vectores de cientos o miles de dimensiones, donde la distancia entre vectores refleja relaciones semánticas.
PCA reduce dimensionalidad preservando la varianza máxima. Es rápido y determinista, ideal para ver estructura global. Las primeras 3 componentes capturan los ejes de mayor separación entre conceptos.
t-SNE agrupa puntos cercanos en el espacio original conservando estructura local. Revela clusters de palabras similares. No preserva distancias globales: dos clusters separados no implican que sean conceptualmente lejanos.
UMAP preserva mejor la estructura global que t-SNE y es más rápido. Mantiene tanto la proximidad local como las relaciones entre grupos. Es el estándar moderno para explorar espacios de embedding.
En un espacio bien entrenado, rey − hombre + mujer ≈ reina. Esta aritmética de vectores surge de la estructura estadística del corpus. Selecciona palabras en el Projector y observa sus vecinos más cercanos.