Linee Guida della Wiki AI Lab

Da Wiki AI.

Obiettivo della wiki

Tracciare il percorso di ricerca "collettivo" dei partecipanti allo stage AI LAB. Come normalmente, durante il lavoro di ricerca individuale, una persona si appunta paper, concetti, link che ha trovato interessanti e utili per la comprensione di un dato argomento, così, questa Wiki, traccia il lavoro di ricerca di tutti i componenti, in modo che rimanga per gli altri e per il futuro.

Ogni contenuto scritto deve valere il tempo del collega che lo sta leggendo - quindi essere più diretto e illuminante per i temi di ricerca correnti rispetto alla ricerca su Wikipedia, su Web o sulla domanda chiesta a GPT. I contenuti possono essere brevi a piacimento, fatti per lasciare una traccia, ma comunque contestualizzati nei vari progetti di ricerca attualmente in atto nel laboratorio,

Generale

Gli utenti devono essere loggati per poter aggiungere contenuti

Scrittura di contenuti

Contenuti Vietati

  • I contenuti non devono essere generati con ChatGPT o altri modelli di linguaggio:
    • parole come "sfida significativa", "sfide o limitazioni", frasi troppo lunghe, pagine costruite in stile troppo divulgativo, troppe sezioni e intestazioni, sono evidenti segni dell'utilizzo di ChatGPT. Le sezioni scritte con ChatGPT devono essere rimosse e l'autore notificato.
  • Il copia/incolla da altre fonti, a parte di citazioni particolarmente importanti e dense di significato
  • Quindi, i contenuti non devono essere neanche essere una mera traduzione del corrispondente articolo su Wikipedia

Questo non significa che non si debbano usare GPT o Wikipedia ovviamente, sighifica che bisogna leggere e filtrarne i contenuti in modo da scrivere solo il "nocciolo" della questione e in maniera critica.

Stile di scrittura

  • I contenuti devono essere scritti a mano
  • I contenuti devono dimostrare un approccio "pratico" alla ricerca, evidenziando in maniera schematica e diretta -SOLO- i concetti più importanti ai fini della ricerca, presupponendo nel lettore una conoscenza dei concetti di base.
  • Data un'entità, i concetti interessanti sono quelli che la differenziano dalle altre entità simili, quindi, per esempio per i modelli, sono i benchmark, la tipologia di utilizzo, l'architetture su cui si basano.
  • I concetti che vengono menzionati, se non sono auto-evidenti come "rete neurale", "modello", "azienda", sono oggetto di studio e meritano un articolo nella wiki, devono quindi essere scritti con le doppie parentesi quadre creando quindi una pagina interna.
  • Il livello di profondità dev'essere buono, ma senza ricorrere a troppe formule o codice. In questo si differenzia da Wikipedia
  • Molto meglio scrivere meno evidenziando il "succo" o il contributo differenziale di una determinata entità, che scrivere un intero paragrafo di informazioni generiche e rapidamente desumibili da N altre pagine internet

Link

  • Come detto, i concetti non auto-evidenti, se legati all'Intelligenza Artificiale, dovrebbero essere già compresi nel momento della scrittura dell'articolo, o devono essere comunque indicati come concetti meritevoli di essere capiti e studiati successivamente. Come linea guida, un utente che legge la Wiki dovrebbe, seguendo i link presenti in ogni articolo, riuscire a comprendere tutto ciò di cui si parla
  • Link Interni: nel momento in cui si scrive un articolo, i concetti interessanti devono essere creati come link. E' possibile, nella casella di ricerca, vedere se il concetto è stato giá scritto, e in quel caso il link si visualizzerà come già attivo. Se al momento della scrittura dell'articolo principale, si ottengono già delle informazioni sul concetto, è bene riempire la pagina del concetto utilizzato con delle informazioni, seppur inizialmente minimali, o integrarla con le informazioni aggiuntive che si sono ottenute rispetto al contenuto corrente della pagina
  • Link Esterni: per ogni concetto, modello, benchmark, è necessario indicare, in una seziona "Links" a fondo pagina:
    • la homepage ufficiale del progetto
    • il/i paper di riferimento - se ci sono più versioni includere i paper a tutte le versioni
    • E' possibile per alcune entità menzionate linkare direttamente solo alla homepage del progetto, per esempio se si menziona un determinato dataset e non si ha necessità/tempo/voglia di creare una pagina interna ad hoc con degli esempi dal dataset perchè basta una frase. Esempio: "Lakh MIDI Dataset: Dataset di file MIDI per la ricerca musicale" nella homepage

Esempi

Come scrivere un articolo su un Modello di Linguaggio Specifico

  • Non si scrive Nessuna introduzione ai modelli di linguaggio, sono un concetto noto
  • E' open source o proprietario?
  • Data di creazione e eventuali date delle versioni successive
  • Chi l'ha creato
  • Numero di parametri
  • E' pensato per un determinato "task", per esempio per il coding?
  • E' stato creato da fine tuning di un altro modello?
  • Note sull'Architettura. Usa un modello di Attention Particolare? Encoder/Decoder Only, se Transformer?
  • E' multilingua?
  • Link:
    • Homepage del progetto, in formato "aperta quadra" + link + "Homepage del Progetto" + "chiusa quadra"
    • Paper Originale, in formato "aperta quadra" + link al paper + "Paper Llama (2/2/2023)" + "chiusa quadra"
    • Paper V2, in formato "aperta quadra" + link al paper + "Paper Llama 2 (2/8/2023)" + "chiusa quadra"
    • Link a eventuali Benchmark

Come scrivere un articolo su un concetto di AI

  • Descrizione sintetica del concetto, con eventuali link interni (anche se vuoti) a concetti che vengono presupposti per comprenderlo.
  • Esempi, per esempio per le scaling laws, per chiarire il concetto a chi legge. Il concetto dev'essere chiaro leggendo
  • Link:
    • Paper Originale, in formato "aperta quadra" + link al paper + "Paper Hoffmann 2023" + "chiusa quadra"
    • Eventuali altri paper relativi al concetto
    • Link a tutorial o corsi che si ha visto e che si è ritenuti interessanti per capire il concetto

Come scrivere un articolo su un benchmark

  • Cosa misura
  • Con che metrica viene misurato
  • Uno/Due esempi dal benchmark
  • Link:
    • Paper Originale, in formato "aperta quadra" + link al paper + "Paper Hoffmann 2023" + "chiusa quadra"
    • Eventuali altri paper relativi al benchmark, per esempio puntanti a paperswithcode o huggingface per vedere la classifica

Come scrivere un articolo su un paper

  • Data di pubblicazione
  • Ipotesi di ricerca
  • Che cosa vuole dimostrare
  • Come lo dimostra
  • Esempi
  • Che dataset/benchmark utilizza
  • Link:
    • Paper Originale, in formato "aperta quadra" + link al paper + "Paper Hoffmann 2023" + "chiusa quadra"
    • Eventuali altri paper relativi al pepers, per esempio puntanti a github, paperswithcode o huggingface per vedere la classifica
    • Eventuali link in cui sia possibile testare il paper