Instructions to use Finisha-F-scratch/Nelya-v1 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Finisha-F-scratch/Nelya-v1 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Finisha-F-scratch/Nelya-v1")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Finisha-F-scratch/Nelya-v1")
model = AutoModelForCausalLM.from_pretrained("Finisha-F-scratch/Nelya-v1")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Finisha-F-scratch/Nelya-v1 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Finisha-F-scratch/Nelya-v1"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Finisha-F-scratch/Nelya-v1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Finisha-F-scratch/Nelya-v1

SGLang

How to use Finisha-F-scratch/Nelya-v1 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Finisha-F-scratch/Nelya-v1" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Finisha-F-scratch/Nelya-v1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Finisha-F-scratch/Nelya-v1" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Finisha-F-scratch/Nelya-v1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Finisha-F-scratch/Nelya-v1 with Docker Model Runner:
```
docker model run hf.co/Finisha-F-scratch/Nelya-v1
```

Nelya-v1

File size: 9,220 Bytes

---
license: other
license_name: nelya-restrictive
license_link: LICENSE
datasets:
- Clemylia/Charlotte-nekolien-SLM
language:
- fr
pipeline_tag: text-generation
tags:
- LLM
- Neko-LLM
- Nekolien
- Créativité
- Nelya
- conlangs 
library_name: transformers
---

# 📚 Documentation Modèle : Nelya-v1

![Nelya](http://www.image-heberg.fr/files/17635771902143655966.webp)

## 💎 Introduction

Bienvenue à la documentation technique de **Nelya-v1**, un Large Language Model (LLM) de $\mathbf{2}$ milliards de paramètres. Nelya-v1 est un modèle expérimental et de recherche, spécialisé dans la **génération de texte dans une langue inventée, le Nekolien**. Il est conçu pour explorer les frontières de la linguistique artificielle et de l'apprentissage structurel.

---

## 🛠️ Vue d'Ensemble Technique

Nelya-v1 est le produit d'un entraînement *from scratch* par Clemylia, exploitant les capacités d'accélérateurs de pointe pour valider l'architecture LLM.

### Caractéristiques Principales

| Caractéristique | Valeur | Note Technique |
| :--- | :--- | :--- |
| **Nom Complet** | Nelya-v1 (Base Lamina-large) | Dérivé du *Lamina-large-2b-pretrain*. |
| **Taille** | $\mathbf{2}$ Milliards de Paramètres | Classification **LLM** (Large Language Model). |
| **Architecture** | Transformer Décodeur Seul | Optimisée pour la génération de texte séquentielle. |
| **Langue de Sortie** | **Nekolien** (Langue Inventée) | Le modèle génère du texte selon les règles grammaticales apprises du Nekolien. |
| **Ressources** | Entraîné sur **TPU** (Google Colab Gratuit) | Optimisation maximale des ressources pour l'entraînement à grande échelle. |

### 🔍 Sortie Actuelle du Modèle (État de Recherche)

Les exemples de génération confirment que Nelya-v1 a réussi à apprendre les **suffixes** (`-lia`, `-a`), la **syntaxe de base** (`di la`, `eta`), et les **schémas de répétition/affirmation** propres à son *fine-tuning*.

* **Exemples :** `La capitalia chimica di la mondia eta la mondia.`
* **Observation :** Le modèle excelle dans la création de phrases grammaticalement cohérentes en Nekolien, mais tombe souvent dans des **boucles autoreférentielles** (`...mondia in la mondia...`) ou des **tâches tautologiques** (affirmation d'une vérité vide).

---

## 🔒 Licence et Utilisation (Nelya-Restrictive)

**ATTENTION :** Nelya-v1 n'est **PAS** un modèle *open-source* classique. L'utilisation est régie par la **Licence Nelya-Restrictive** déposée par Clemylia.

| Clause Clé | Interdiction Stricte | Sanction Spécifique |
| :--- | :--- | :--- |
| **Propriété** | Revendiquer la propriété du modèle ou du Nekolien. | Droits d'auteurs artistiques sur le Nekolien. |
| **Redistribution/Copie** | Copie ou distribution non autorisée du modèle. | Amende de $\mathbf{50€}$ à $\mathbf{200€}$ pour malveillance. |
| **Fine-Tuning** | Modification ou *fine-tuning* du modèle (sauf par l'équipe Clemylia). | Interdiction totale. |

**👉 L'utilisation du modèle implique l'acceptation inconditionnelle de la Licence Nelya-Restrictive.**

---

## 🚀 Utilisation et Paramètres de Décodage

Nelya-v1 est destiné à être utilisé comme générateur de texte dans le pipeline standard `transformers`.

### Recommandations de Décodage

Pour explorer le Nekolien, il est crucial de jouer avec les paramètres :

| Paramètre | Recommandation | Objectif |
| :--- | :--- | :--- |
| **`do_sample`** | `True` (Échantillonnage) | Nécessaire pour obtenir des phrases variées en Nekolien. |
| **`temperature` ($\tau$)** | $\mathbf{0.7 \rightarrow 0.9}$ | Une valeur élevée encourage l'originalité et les combinaisons nouvelles, tout en maintenant un semblant de structure (contrairement à Charlotte-2b). |
| **`max_length`** | Court ($\mathbf{< 100}$ tokens) | Le modèle peut tomber dans des boucles de répétition si la longueur est trop grande. |
| **`repetition_penalty`** | $\mathbf{> 1.1}$ | Peut aider à briser les boucles de répétition fréquentes (`...mondia in la mondia...`). |

---

## 👩‍💻 Support et Contact

Nelya-v1 a été entièrement créé par **Clemylia** dans le cadre de la recherche personnelle et du développement de LLM.

* **Soutien :** Veuillez adresser toute question technique ou demande de licence explicite directement à l'équipe de Clemylia.
* **Encouragements :** Merci de respecter l'investissement et l'innovation derrière ce projet ! 💖

# 🩷 Inférence et Utilisation 🌸

**Exemple de code d'inférence fonctionnel** :

```
# ==============================================================================
# 1. INSTALLATION ET IMPORTS
# ==============================================================================
# Nous n'avons besoin que des bibliothèques de base pour l'inférence
!pip install -q transformers torch

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# ==============================================================================
# 2. DÉFINITION DES CONSTANTES ET CHARGEMENT
# ==============================================================================
MODEL_NAME = "Clemylia/Nelya-v1" # Votre modèle finetuné
# Utiliser "auto" pour charger le modèle sur le GPU si disponible, sinon sur CPU
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

print(f"Chargement du modèle {MODEL_NAME} sur {DEVICE}...")

# Chargement du tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

# Chargement du modèle. Utiliser torch_dtype=torch.bfloat16 si votre environnement
# (GPU T4) le supporte et que le modèle a été entraîné ou sauvegardé dans ce format.
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.bfloat16 if DEVICE == "cuda" else None,
    device_map="auto"
)

# ==============================================================================
# 3. PRÉPARATION DE LA REQUÊTE ET GÉNÉRATION
# ==============================================================================

# La question simple génerique (nous utilisons le format Chat utilisé lors du fine-tuning)
QUESTION = "Ti eta ?"

# Formatage de la question dans le format de conversation attendu par le modèle
# <|user|>...</s><|assistant|>
prompt = f""### Instruction:{QUESTION}### Response:"

# Tokenization du prompt
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)

# Génération de la réponse
print("\n--- Génération de la réponse ---")

# Paramètres de génération standard
output_tokens = model.generate(
    **inputs,
    max_new_tokens=150,      # Limite la longueur de la réponse
    do_sample=True,          # Utiliser l'échantillonnage pour une réponse plus créative
    temperature=0.7,         # Contrôle le caractère aléatoire
    top_k=50,
    eos_token_id=tokenizer.eos_token_id, # Arrêt à la fin de séquence
)

# ==============================================================================
# 4. DÉCODAGE ET AFFICHAGE DU RÉSULTAT
# ==============================================================================
# Décoder le résultat, en ignorant le prompt initial et le token de padding/spécial
generated_text = tokenizer.decode(output_tokens[0], skip_special_tokens=True)

# Nettoyage pour n'afficher que la réponse de l'assistant
# On cherche le début de la réponse de l'assistant après le prompt formaté
assistant_prefix = "### Response:"
if assistant_prefix in generated_text:
    # Retirer le prompt initial et les balises de fin
    clean_response = generated_text.split(assistant_prefix)[-1].strip()
else:
    # Si le formatage n'a pas été parfait (ce qui arrive)
    clean_response = generated_text.replace(QUESTION, "").strip()


print(f"\n🧠 Réponse de {MODEL_NAME} :\n")
print(clean_response)
print("\n-------------------------------")

# ==============================================================================
# 5. UTILISATION OPTIONNELLE DE PIPELINE (plus simple)
# ==============================================================================
print("\nTest rapide avec le pipeline (méthode simplifiée) :")

generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer
    # device=0 if DEVICE == "cuda" else -1 # REMOVED: Conflicts with device_map="auto"
)

# Le pipeline gère souvent bien le formatage par défaut pour les modèles Chat/Instruction
# On utilise la même question, sans le formatage manuel
result = generator(
    QUESTION,
    max_new_tokens=150,
    do_sample=True,
    temperature=0.7
)
print(result[0]['generated_text'])
```

**Reponses renvoyés (exemples)** : 

1) La pus grana avst ecrita avst ecrita *La annia la Jalla.

2) Quelia eta la monetallia di la miel ? La symbolia di la mondia di la roallia eta la mondia

3) La collora di la humia apstournia.

4) Quelia eta la fruica di la e la e la e? 
La collora di la mondia eta la poteé la pi poteé la l'éiella la roria

----

**Durer d'entraînement d'un LLM de cette envergure** : 300 heure sur TPU + nombreux fine-tuning de plusieurs heures sur GPU t4.

**Variante du nekolien de ce modèle** : Nekolien original/centre.

Nelya-v1 respecte les bases de l'académie nekolienne :
https://neko-lexicon-archives.lovable.app/