Darimana sumber data dari AI ChatGpt?

machine learning
machine learning

Darimana sumber data ChatGpt? www.kolonginfo.com. Apakah sobat kolonginfo.com penasaran dari mana sumber data dari Chat Gpt? Setelah admin kulik, admin kolonginfo mendapatkan informasi bahwa modelling dari AI Chat Gpt bersumber dari beberapa sumber Open dataset, Text corpora, User interactions, dan Human-curated data.

Sumber data ChatGPT

Beberapa contoh kumpulan data sumber terbuka (Open Dataset) yang biasanya digunakan untuk melatih dan mengembangkan model bahasa AI pada Chat Gpt adalah meliputi:

Common Crawl (Perayapan Umum): Organisasi nirlaba yang menyediakan kumpulan data perayapan web skala besar yang dapat digunakan untuk berbagai tugas pemrosesan bahasa alami (NLP). Dapat diakses di https://commoncrawl.org/

Wikipedia: Sebuah ensiklopedia online gratis yang berisi sejumlah besar data teks dalam berbagai bahasa.

OpenSubtitles: Kumpulan subtitle untuk film dan acara TV, yang dapat digunakan untuk melatih model bahasa untuk memahami dan menghasilkan dialog bahasa alami.

BookCorpus: Kumpulan lebih dari 11.000 buku yang dapat digunakan untuk melatih model bahasa untuk memahami bahasa alami.

Google News: Kumpulan artikel berita dari berbagai sumber, yang dapat digunakan untuk melatih model bahasa untuk memahami peristiwa terkini dan topik berita.

Kumpulan data sumber terbuka ini biasanya tersedia untuk umum secara online dan dapat diunduh serta digunakan oleh peneliti dan pengembang untuk melatih dan mengembangkan model bahasa AI. Baca artikel lain terkait AI dan machine learning.

Sumber referensi chatgpt

Baca Juga:  Underfitting dan Overfitting pada Pemodelan Data