Jump to content

Wikimedia Indonesia/Hibah Riset Wikidata 2024/FROG: Framework of Open GraphRAG/Laporan

From Meta, a Wikimedia project coordination wiki

Judul Riset

[edit]

FrOG: Framework of Open GraphRAG

Tim Peneliti

[edit]
  • Ketua: Fariz Darari - Universitas Indonesia - fariz@ui.ac.id
  • Jaycent Gunawan Ongris - Universitas Indonesia - jaycent.gunawan@ui.ac.id
  • Eduardus Tjitrahardja - Universitas Indonesia - eduardus.tjitrahardja@ui.ac.id
  • Fajar Juang Ekaputra - WU Vienna - fajar.ekaputra@wu.ac.at

Pendahuluan

[edit]

Latar Belakang

[edit]

Kemajuan pesat dalam Model Bahasa Besar (Large Language Models atau LLM) telah membawa perubahan signifikan dalam bidang temu kembali informasi (Information Retrieval atau IR), yang memungkinkan aplikasi canggih seperti ChatGPT, Gemini, dan Copilot untuk melakukan berbagai tugas seperti tanya jawab (Question Answering atau QA) dan peringkasan. Meskipun LLM menunjukkan kemampuan linguistik yang luar biasa berkat pengetahuan yang terinternalisasi selama pelatihan[1], model-model ini menghadapi beberapa tantangan.

Motivasi utama penelitian ini muncul dari keterbatasan yang melekat pada LLM, seperti kesulitan dalam memperbarui basis pengetahuan secara dinamis, kurangnya transparansi dalam proses pengambilan keputusan, dan kecenderungan untuk menghasilkan informasi yang tidak akurat atau "berhalusinasi"[2]. Meskipun teknik Retrieval-Augmented Generation (RAG) telah diusulkan untuk mengatasi masalah ini dengan menggabungkan mekanisme temu kembali informasi eksternal sehingga mengurangi ketergantungan pada memori parametrik LLM [2], metode RAG konvensional yang menggunakan dense retriever seperti DPR seringkali kurang memiliki interpretabilitas karena representasi vektor yang buram dan dapat menyebabkan fragmentasi konteks saat melakukan segmentasi dokumen [3].

Untuk mengatasi keterbatasan tersebut, penelitian ini mengusulkan penggunaan Knowledge Graphs (KGs) dalam kerangka kerja RAG. KG mengorganisasi fakta-fakta sebagai entitas yang saling terhubung, memungkinkan proses penalaran yang transparan melalui operasi graf (Abu-Rasheed et al., 2022). Kami memperkenalkan FrOG: Framework of Open GraphRAG, sebuah sistem RAG sumber terbuka (open-source) yang mengintegrasikan KG untuk proses temu kembali informasi dan penalaran. FrOG dirancang untuk meningkatkan ketertelusuran (traceability) dan akurasi jawaban tanpa memerlukan proses fine-tuning LLM yang mahal. Repositori sistem ini dapat diakses di Framework-of-Open-GraphRAG/FROG.

Pendekatan GraphRAG yang diusulkan, khususnya dalam implementasi awal menggunakan FrOG, dapat diuji dan divalidasi secara efektif menggunakan knowledge graph seperti Wikidata. Wikidata, sebagai salah satu KG berskala besar, terbuka, kolaboratif, dan terstruktur, menyediakan basis data faktual yang kaya dan terhubung yang dapat dimanfaatkan untuk menyediakan informasi eksternal yang akurat dan dapat diverifikasi. Struktur graf pada Wikidata memungkinkan penelusuran relasi antar entitas secara eksplisit, yang membantu mengatasi keterbatasan LLM dalam hal aktualitas pengetahuan dan transparansi proses penjawaban. Kemampuannya untuk diakses melalui kueri SPARQL juga memungkinkan integrasi yang lebih terkontrol dan terarah dalam pipeline RAG. Dengan demikian, Wikidata menjadi platform yang ideal untuk mendemonstrasikan bagaimana integrasi KG dapat meningkatkan kualitas dan keandalan sistem tanya jawab berbasis LLM.

Rumusan Permasalahan

[edit]

Masalah mendasar yang ingin diatasi dalam penelitian ini adalah keterbatasan yang ada pada LLM dan pendekatan RAG konvensional. LLM, meskipun canggih, seringkali kesulitan untuk mengakses pengetahuan terbaru, kurang transparan dalam proses penalarannya, dan rentan terhadap generasi informasi yang salah atau halusinasi [2]. Di sisi lain, RAG standar yang menggunakan dense passage retrieval (DPR) dari korpus teks menghadapi tantangan dalam hal interpretabilitas dari representasi vektor dan risiko fragmentasi konteks yang dapat mengganggu pemahaman holistik [3]. Kurangnya interpretabilitas dan potensi ketidakakuratan ini menghambat keandalan LLM dan sistem RAG dalam aplikasi yang membutuhkan presisi dan verifikasi tinggi.

Berdasarkan latar belakang dan masalah tersebut, penelitian ini berfokus untuk menjawab pertanyaan-pertanyaan berikut:

  1. Bagaimana arsitektur GraphRAG dapat diimplementasikan secara efektif menggunakan komponen-komponen sumber terbuka (open-source)?
  2. Model Bahasa Besar atau Large Language Model (LLM) mana yang paling optimal untuk mendukung arsitektur GraphRAG yang diusulkan?
  3. Komponen sistem mana dalam arsitektur GraphRAG yang memberikan kontribusi paling signifikan terhadap akurasi generasi jawaban?

Batasan Pembahasan

[edit]

Penelitian ini memiliki batasan-batasan sebagai berikut:

  1. Fokus utama penelitian adalah pada tugas tanya jawab faktual (factoid question answering).
  2. Seluruh sistem, termasuk LLM dan perangkat pendukung lainnya, dibangun menggunakan komponen sumber terbuka (open-source) untuk memastikan transparansi dan reproduktifitas.
  3. Evaluasi sistem dilakukan pada knowledge graph spesifik, yaitu Wikidata dan DBpedia sebagai KG terbuka, serta Curriculum KG sebagai representasi KG lokal/enterprise.
  4. Eksperimen LLM terbatas pada beberapa model sumber terbuka yang tersedia dan relevan dengan arsitektur yang dikembangkan (misalnya, Qwen2.5 7B, Mistral 7B, Mistral NeMo 12B, LLaMA 3.1 8B, sebagaimana telah diuji dalam hasil penelitian).
  5. Pendekatan yang diadopsi tidak melibatkan proses fine-tuning LLM yang memerlukan sumber daya komputasi besar, melainkan fokus pada in-context learning.
  6. Metrik evaluasi utama yang digunakan untuk mengukur performa adalah Jaccard Similarity antara hasil eksekusi kueri SPARQL yang dihasilkan oleh sistem dan kueri ground truth.
  7. Dukungan multibahasa pada Pipeline v2 diuji secara spesifik untuk bahasa Indonesia sebagai studi kasus awal.

Penelitian Sebelumnya

[edit]

Tinjauan literatur singkat mencakup beberapa area kunci yang relevan dengan penelitian ini:

  • Semantic Web dan Knowledge Graphs (KG): Konsep Semantic Web bertujuan membuat konten Web dapat dipahami oleh mesin, dan KG merupakan implementasi praktis dari prinsip ini. Diperkenalkan oleh Google pada tahun 2012, KG merepresentasikan informasi sebagai graf dengan entitas sebagai node dan hubungan semantik sebagai edge. Format standar seperti RDF (Resource Description Framework) digunakan untuk mendeskripsikan entitas dan hubungan ini dalam bentuk triple (subjek, predikat, objek) [4]. Data RDF dapat dikueri menggunakan SPARQL, sebuah bahasa kueri yang sintaksnya mirip SQL.
  • Large Language Models (LLM): LLM adalah jaringan saraf dalam (deep neural networks) yang dilatih pada korpus teks masif untuk memahami dan menghasilkan bahasa yang mirip manusia. Dibangun di atas arsitektur Transformer [5], yang mencakup mekanisme encoder, decoder, dan attention, LLM telah menunjukkan peningkatan signifikan dalam berbagai tugas NLP. LLM dapat dikategorikan menjadi encoder-only (misalnya, BERT [6]), decoder-only (misalnya, GPT[7]), dan encoder-decoder (misalnya, T5[8]).
  • Retrieval-Augmented Generation (RAG): RAG, yang diperkenalkan oleh Lewis [2], mengatasi keterbatasan LLM dengan menggabungkan memori parametrik (pengetahuan internal LLM) dengan memori non-parametrik eksternal (basis pengetahuan). RAG mengambil informasi yang relevan dari basis pengetahuan eksternal berdasarkan kueri pengguna, kemudian menggunakan LLM untuk menghasilkan respons dari konten yang diambil tersebut. Kerangka kerja RAG asli menggunakan korpus teks sebagai basis pengetahuannya dan Dense Passage Retrieval (DPR) untuk menemukan bagian teks yang relevan (Karpukhin et al., 2020).
  • GraphRAG: GraphRAG adalah varian RAG yang menggunakan KG sebagai basis pengetahuan eksternalnya, mengambil elemen graf yang relevan untuk menjawab kueri pengguna [9]. Dibandingkan RAG berbasis teks, GraphRAG menawarkan keunggulan dalam menangkap hubungan yang lebih kaya antar entitas, merepresentasikan pengetahuan secara lebih efisien, dan mendukung pemahaman konteks yang lebih luas. Metode pengambilan dalam GraphRAG dapat dikategorikan sebagai non-parametrik (menggunakan heuristik dan algoritma graf), berbasis LLM, atau berbasis GNNs (Graph Neural Networks)[9]. Pendekatan lain adalah query-based GraphRAG, yang secara langsung melakukan kueri ke KG menggunakan bahasa seperti SPARQL atau Cypher, di mana kueri tersebut dapat digenerasi secara manual, semi-otomatis, atau melalui model. Penelitian terkini cenderung memanfaatkan deep learning dan LLM, seperti SGPT [10], sementara pendekatan lain, yang sejalan dengan penelitian ini, mengandalkan in-context learning tanpa memerlukan pelatihan model LLM secara ekstensif [11].

Metode

[edit]

Metode penelitian ini bertujuan untuk mengembangkan pipeline tanya-jawab (question-answering) di atas Knowledge Graphs (KG). Pipeline ini dirancang untuk menerima pertanyaan sebagai masukan, mengambil informasi relevan dari KG, dan menghasilkan jawaban sebagai keluaran. Pendekatan yang digunakan dibangun sepenuhnya menggunakan komponen sumber terbuka (open-source), termasuk semua perangkat dan Model Bahasa Besar (Large Language Models atau LLM), untuk menjamin transparansi, reproduktifitas, dan adaptabilitas. Dalam penelitian ini, dua versi pipeline yang berbeda dieksperimenkan, dengan arsitektur pipeline pertama lebih sederhana dibandingkan yang kedua.

Arsitektur Pipeline

[edit]

Dua arsitektur pipeline utama dikembangkan dan dievaluasi dalam penelitian ini.

Pipeline v1

[edit]

Pipeline awal ini (selanjutnya disebut Pipeline v1) difokuskan pada tanya-jawab di atas Wikidata. Pipeline ini sepenuhnya mengandalkan LLM generatif dalam menentukan sumber daya (entitas dan properti) yang sesuai dan menyusun kueri SPARQL melalui mekanisme in-context learning. Arsitektur Pipeline v1 diilustrasikan pada Gambar 1 dan langkah-langkah utamanya adalah sebagai berikut:

  1. Ekstraksi Entitas: LLM mengidentifikasi entitas-entitas kunci yang disebutkan dalam pertanyaan pengguna.
  2. Pengambilan ID Entitas: Untuk setiap entitas yang diekstraksi, sistem melakukan pencarian berbasis kata kunci menggunakan API Wikidata, mengambil 5 kandidat teratas beserta URI, label, dan deskripsinya.
  3. Disambiguasi dan Seleksi Entitas: LLM menentukan entitas yang paling sesuai berdasarkan konteks pertanyaan pengguna dan deskripsi entitas yang diambil.
  4. Generasi Kueri SPARQL: Berdasarkan entitas spesifik yang diperoleh, LLM menghasilkan kueri SPARQL. Daftar 100 properti yang paling sering digunakan di Wikidata disediakan sebagai referensi.
  5. Eksekusi Kueri dan Generasi Jawaban: Kueri SPARQL dieksekusi terhadap endpoint Wikidata Query Service (WDQS). Hasilnya (dalam format JSON) kemudian digunakan bersama dengan pertanyaan awal untuk menginstruksikan LLM menghasilkan jawaban dalam bahasa alami.

Gambar 1 memberikan ilustrasi arsitektur Pipeline v1.

Gambar 1. Arsitektur pipeline awal (Pipeline v1)

Pipeline v2

[edit]

Pipeline yang diperluas ini (selanjutnya disebut Pipeline v2) memperkenalkan dukungan multibahasa dan mengintegrasikan basis data vektor eksternal untuk mengambil properti dan kelas yang relevan dalam proses generasi kueri SPARQL. Pendekatan ini menghilangkan kebutuhan untuk menyertakan seluruh set sumber daya dalam prompt LLM, yang dapat menurunkan performa. Pipeline v2 juga meningkatkan fleksibilitas dan skalabilitas dengan mendukung KG terbuka maupun KG enterprise (lokal). Untuk meningkatkan akurasi, terutama untuk pertanyaan sederhana satu hop (one-hop questions), kami menggabungkan mekanisme pengambilan berbasis teks menggunakan triple yang diverbalisasi. Arsitektur keseluruhan Pipeline v2 ditunjukkan pada Gambar 2, dengan komponen-komponen utama sebagai berikut:

  1. Translasi: Pertanyaan pengguna dideteksi bahasanya. Jika bukan bahasa Inggris, pertanyaan akan diterjemahkan ke bahasa Inggris menggunakan pustaka googletrans di Python untuk kompatibilitas dengan KG target.
  2. Penautan Entitas (Entity Linking): Tahap ini mengintegrasikan ekstraksi entitas, pengambilan entitas spesifik KG, dan disambiguasi entitas. LLM (dengan few-shot prompting) mengekstraksi dan memberi peringkat entitas. Kemudian, untuk setiap entitas, kandidat entitas spesifik KG (beserta URI) diambil melalui API (untuk KG terbuka seperti Wikidata atau DBpedia Lookup) atau pencarian semantik (untuk KG enterprise). Akhirnya, disambiguasi entitas memilih entitas KG yang paling relevan.
  3. Pengambilan Informasi (Retrieval): Metode pengambilan dibedakan berdasarkan tipe pertanyaan:
    • Pertanyaan Sederhana: Untuk pertanyaan yang dapat dijawab dengan informasi satu hop (misalnya, "Kapan Lionel Messi lahir?"), sistem menggunakan pengambilan teks. Entitas KG yang relevan diidentifikasi, tetangga langsungnya diambil, dan triple yang dihasilkan diverbalisasi menjadi kalimat (template: {s}'s {p} is {o}). Pertanyaan pengguna dan triple verbal ini di-encode untuk pencarian semantik. Jika skor similaritas melebihi ambang batas, jawaban langsung diberikan; jika tidak, sistem beralih ke generasi kueri SPARQL.
    • Pertanyaan Kompleks: Untuk pertanyaan yang mungkin memerlukan pengambilan multi-hop atau kueri agregat (misalnya, "Berapa banyak anak Lionel Messi?"), kueri SPARQL digenerasi oleh LLM. Sistem terlebih dahulu mengambil sumber daya (properti dan kelas) yang relevan menggunakan pencarian semantik berdasarkan entitas yang telah ditautkan. Pertanyaan dipecah menjadi n-gram dan LLM menyarankan kandidat properti tambahan. Kueri SPARQL kemudian digenerasi menggunakan few-shot dan chain-of-thought prompting, lalu dieksekusi.
  4. Generasi Jawaban: Data hasil pengambilan dari KG (seringkali berupa URI) diubah menjadi respons bahasa alami. URI diresolusi menjadi label yang dapat dibaca manusia menggunakan kueri SPARQL. Kemudian, LLM generatif menghasilkan respons bahasa alami, dengan instruksi eksplisit untuk menjawab dalam bahasa asli pengguna ("Answer in {user’s language} language").

Gambar 2 memberikan ilustrasi arsitektur pipeline yang telah ditingkatkan.

Gambar 2. Arsitektur pipeline yang ditingkatkan (Pipeline v2)

Basis Pengetahuan (Knowledge Bases)

[edit]

Kerangka kerja dievaluasi menggunakan dua KG terbuka dan satu KG enterprise (lokal).

  1. Wikidata: Wikidata[12] adalah basis pengetahuan kolaboratif yang menyimpan informasi dalam struktur mirip RDF dan dapat diakses melalui SPARQL. URI dan label properti diambil melalui SPARQL dan disimpan dalam basis data vektor luring untuk generasi kueri. Untuk entitas dan kelas, API Wikidata digunakan.
  2. DBpedia: DBpedia [13] adalah KG RDF terbuka yang berasal dari Wikipedia, juga mendukung kueri SPARQL. URI dan label properti serta kelas diekstrak menggunakan Ontologi T-Box DBpedia (cakupan terbatas pada sumber daya di bawah http://dbpedia.org/ontology/). Untuk pengambilan entitas, DBpedia Lookup digunakan.
  3. Curriculum KG: Kami menggunakan Curriculum KG [14] sebagai representasi KG lokal/enterprise. KG ini berisi informasi tentang kurikulum Ilmu Komputer di Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI). KG diekstrak dari buku panduan kurikulum publik menggunakan GLiNER [15]. Dataset asli (dalam bahasa Indonesia) diproses lebih lanjut, diterjemahkan ke bahasa Inggris, dan dikonversi menjadi triple RDF. Semua sumber daya (properti, kelas, dan entitas) disimpan dalam basis data vektor luring untuk memfasilitasi pencarian semantik.

Dataset Penelitian

[edit]

Untuk KG terbuka (Wikidata dan DBpedia), digunakan dataset QALD-9-Plus [16]. Sementara untuk KG lokal, dataset tanya-jawab berbasis KG kustom digenerasi menggunakan generator dataset yang dikembangkan sendiri.

  1. QALD-9-Plus: Evaluasi pada Wikidata dan DBpedia menggunakan dataset QALD-9-Plus [16], sebuah benchmark KGQA (Knowledge Graph Question Answering) multibahasa yang mencakup 10 bahasa, termasuk Inggris. Dataset ini memiliki dua bagian: latih (408 pertanyaan) dan uji (150 pertanyaan). Untuk evaluasi, digunakan bagian latih dengan penyempurnaan (memfilter kueri yang menggunakan sumber daya di luar prefiks dbo: atau mengembalikan satu sumber daya atau nilai numerik). Setiap entri DBpedia dicocokkan dengan entri Wikidata yang setara. Dataset ini kemudian di-downsample menjadi 14 entri untuk in-context learning dan 65 untuk evaluasi sistem menggunakan teknik similaritas kosinus untuk memilih pertanyaan yang beragam.
  2. Generator Dataset Berbasis KG: Untuk mendukung KG lokal dan sifat agnostik KG dari kerangka kerja ini, disediakan generator dataset semi-otomatis. Sistem ini mendukung generasi empat tipe pertanyaan, seperti dijelaskan pada Tabel 1, dan juga memungkinkan pembuatan kueri dengan klausa COUNT. Keluaran dari sistem ini adalah dataset yang terdiri dari tiga kolom: pertanyaan dalam bahasa alami, kueri SPARQL yang sesuai, dan kategori pertanyaan. Lima langkah utama untuk menghasilkan pertanyaan adalah: (a) Seleksi entitas; (b) Random walk pada KG berdasarkan kategori pertanyaan; (c) Penyelesai label sumber daya (mengambil label bahasa alami untuk properti dan entitas); (d) Pembentukan kueri SPARQL menggunakan template berdasarkan kategori pertanyaan; (e) Generasi pertanyaan bahasa alami dari kueri SPARQL dan label sumber daya menggunakan LLM (dengan zero-shot prompt template)[17].
Category Triple Pattern
Simple 1 { s p ?o }
Simple 2 { ?s p o }
Complex 1 { ?s p1 o1 . ?s p2 o2 }
Complex 2 { ?s p1 ?o1 . ?o1 p2 o2 }

Tabel 1. Tipe Pertanyaan yang Didukung oleh Generator Dataset Berbasis KG

Metrik Evaluasi

[edit]

Performa sistem dievaluasi dengan membandingkan hasil eksekusi kueri SPARQL yang digenerasi terhadap hasil eksekusi kueri ground truth. Metrik evaluasi utama yang digunakan adalah Jaccard Similarity, yang didefinisikan untuk dua himpunan A dan B sebagai berikut:

Dalam implementasi, hasil eksekusi kueri SPARQL asli mempertahankan urutan baris, terutama jika kueri menyertakan klausa ORDER BY. Untuk memastikan perbandingan yang adil, hasil eksekusi prediksi maupun ground truth diubah menjadi himpunan (set) sebelum menerapkan Jaccard Similarity. Transformasi ini memastikan bahwa urutan baris tidak mempengaruhi evaluasi. Selain itu, setiap baris diperlakukan sebagai sebuah tuple, di mana elemen-elemen di dalamnya diurutkan secara alfabetis untuk menjaga konsistensi. Dengan demikian, A dan B dalam persamaan di atas merepresentasikan himpunan tuple. Ilustrasi skema evaluasi ini ditunjukkan pada Gambar 3.

Gambar 3. Skema evaluasi menggunakan Jaccard Similarity

Linimasa penelitian

[edit]
Tanggal Kegiatan
31 Agustus 2024 Submisi ISRITI 2024
11 November 2024 Submisi Camera Ready ISRITI 2024
11 Desember 2024 Presentasi Daring ISRITI 2024
24 Desember 2024 Presentasi (Sidang) Hasil Riset sebagai Skripsi
18 Februari 2025 Kunjungan ke Markas Wikimedia (Demo Hasil)
7 Maret 2025 Submisi ESWC TEXT2KG 2025
April 2025 Notifikasi Acceptance dan

Submisi Camera Ready ESWC TEXT2KG 2025

Hasil dan Pembahasan

[edit]

Penelitian ini telah menghasilkan dan mengevaluasi dua versi pipeline untuk generasi kueri SPARQL dari pertanyaan dalam bahasa alami, dengan fokus pada Pipeline v2 yang menunjukkan performa superior.

Evaluasi Pipeline dan Model LLM

[edit]
Konfigurasi Jaccard Similarity
Pipeline v1 w/ Mistral 7B (API) 0.473
Pipeline v1 w/ Mistral 7B (Local) 0.554
Pipeline v1 w/ Mistral NeMo 12B (Local) 0.581
Pipeline v2 w/ Mistral NeMo 12B (Local) 0.677

Tabel 2. Perbandingan Hasil Eksperimen Awal Pipeline v1 dan Pipeline v2

Eksperimen awal membandingkan Pipeline v1 dan Pipeline v2. Pipeline v2 yang menggunakan model Mistral NeMo 12B (Lokal) mencapai skor Jaccard Similarity tertinggi sebesar 0.677, lebih baik secara signifikan dibandingkan semua konfigurasi Pipeline v1 (skor tertinggi Pipeline v1 adalah 0.581 dengan model yang sama). Peningkatan ini disebabkan oleh penambahan komponen seperti verbalization-based retrieval pada Pipeline v2. Oleh karena itu, Pipeline v2 diadopsi sebagai dasar untuk eksperimen selanjutnya.

Configuration Knowledge Base Jaccard Similarity
Mistral NeMo 12B Wikidata 0.423
LLaMA 3.1 8B Wikidata 0.427
Qwen2.5 Coder 7B Wikidata 0.428
Qwen2.5 7B Wikidata 0.458
Mistral NeMo 12B DBpedia 0.450
LLaMA 3.1 8B DBpedia 0.444
Qwen2.5 Coder 7B DBpedia 0.442
Qwen2.5 7B DBpedia 0.517
Mistral NeMo 12B Curriculum KG 0.805
LLaMA 3.1 8B Curriculum KG 0.778
Qwen2.5 Coder 7B Curriculum KG 0.778
Qwen2.5 7B Curriculum KG 0.805

Tabel 3. Hasil Evaluasi Pipeline v2

Pada Pipeline v2, dilakukan evaluasi terhadap empat model LLM yang di-host secara lokal: Mistral NeMo 12B, LLaMA 3.1 8B, Qwen2.5 Coder 7B, dan Qwen2.5 7B. Pengujian dilakukan pada tiga basis pengetahuan (Knowledge Base/KG) yang berbeda: turunan QALD-9-Plus untuk Wikidata dan DBpedia, serta Curriculum KG. Secara konsisten, model Qwen2.5 7B menunjukkan performa terbaik di ketiga dataset tersebut, dengan skor Jaccard Similarity 0.458 pada Wikidata, 0.517 pada DBpedia, dan 0.805 pada Curriculum KG (setara dengan Mistral NeMo 12B pada KG ini).

Selain itu, kami juga menguji kemampuan multibahasa Pipeline v2 dengan Qwen2.5 7B pada Wikidata QALD-9-Plus yang telah diterjemahkan ke dalam bahasa Indonesia, yang skor Jaccard Similarity-nya menurun menjadi 0,362. Hal ini menunjukkan bahwa meskipun model tersebut dapat menangani kueri multibahasa, akurasinya menurun akibat parafrasa yang disebabkan oleh proses penerjemahan. Meskipun ada keterbatasan ini, hasilnya tetap mengonfirmasi kemampuan multibahasa sistem, khususnya dalam bahasa Indonesia.

Keunggulan Qwen2.5 7B diatribusikan pada data pra-pelatihan yang lebih ekstensif (18 triliun token) dibandingkan model lain, yang meningkatkan pemahaman linguistik dan informasi faktual. Uniknya, sebaliknya, Qwen2.5 Coder 7B, yang lebih terspesialisasi pada kode, menunjukkan performa lebih rendah karena kurangnya pemahaman bahasa alami yang mendalam untuk tugas ini. Mistral NeMo 12B juga menunjukkan performa yang kuat, kemungkinan karena jumlah parameternya yang lebih besar (12B).

Analisis Berdasarkan Basis Pengetahuan (Knowledge Base): Dua faktor utama dari sisi KG yang mempengaruhi performa sistem teridentifikasi:

  1. Representasi URI: KG dengan URI yang mengikuti konvensi bahasa alami (seperti DBpedia dan Curriculum KG) cenderung menghasilkan performa model yang lebih baik karena memudahkan proses entity linking dan property retrieval.
  2. Ukuran dan Homogenitas: KG yang lebih besar dan beragam (misalnya Wikidata, DBpedia) meningkatkan kompleksitas kueri, sementara KG yang lebih kecil dan homogen (seperti Curriculum KG) menyederhanakan cakupan kueri sehingga meningkatkan performa.

Studi Ablasi Komponen Pipeline: Studi ablasi dilakukan pada Pipeline v2 menggunakan model Qwen2.5 7B untuk mengukur kontribusi masing-masing komponen utama: verbalization, chain-of-thought (CoT), few-shot examples, dan ontology retrieval.

  • Ontology Retrieval: Terbukti sebagai komponen paling krusial. Penghapusannya menyebabkan penurunan performa yang sangat signifikan di semua KG, khususnya pada Curriculum KG (skor turun dari 0.805 menjadi 0.183, dan menjadi 0.000 jika verbalisasi juga dihilangkan). Ini menunjukkan pentingnya pengambilan kelas dan properti yang relevan untuk konstruksi kueri yang akurat.
  • Few-Shot Examples: Juga menunjukkan dampak positif yang besar. Penghapusan contoh few-shot menyebabkan penurunan performa yang nyata di semua dataset (misalnya, Wikidata dari 0.458 menjadi 0.342; DBpedia dari 0.517 menjadi 0.410; Curriculum KG dari 0.805 menjadi 0.724). Komponen ini esensial untuk mengadaptasi model LLM generik ke kebutuhan spesifik dataset.
  • Verbalization: Dampaknya bervariasi. Komponen ini penting untuk KG kompleks seperti Wikidata (penurunan dari 0.458 menjadi 0.334 tanpa verbalisasi) dan DBpedia (penurunan minor), namun justru menurunkan akurasi pada Curriculum KG yang lebih sederhana (peningkatan dari 0.805 menjadi 0.949 tanpa verbalisasi). Ini mengindikasikan verbalisasi sebaiknya diterapkan secara selektif.
  • Chain-of-Thought (CoT): Memberikan manfaat pada KG kompleks seperti Wikidata dan DBpedia (penurunan skor jika CoT dihilangkan), namun memiliki dampak minimal atau bahkan sedikit menurunkan performa pada Curriculum KG yang lebih sederhana.

Secara keseluruhan, hasil penelitian menunjukkan bahwa Pipeline v2 dengan model Qwen2.5 7B, yang didukung oleh komponen krusial seperti ontology retrieval dan few-shot examples, mampu menghasilkan kueri SPARQL dengan akurasi yang baik. Pemilihan dan konfigurasi komponen seperti verbalisasi dan CoT sebaiknya disesuaikan dengan karakteristik basis pengetahuan yang digunakan.

Kesimpulan dan Saran

[edit]

Kesimpulan

[edit]

Penelitian ini berhasil mengembangkan FrOG, sebuah sistem Retrieval-Augmented Generation (RAG) berbasis knowledge graph (KG) dengan komponen sumber terbuka. Pipeline v2, yang disempurnakan dengan verbalization-based retrieval dan vector-based ontology retrieval, menunjukkan peningkatan fleksibilitas dan performa.

Model Qwen2.5 7B teridentifikasi sebagai yang terbaik, mencapai skor Jaccard Similarity signifikan: 0.458 (Wikidata), 0.517 (DBpedia), dan 0.976 (Curriculum KG), didukung oleh data pelatihan yang beragam. Sistem FrOG juga menunjukkan potensi multibahasa, termasuk untuk bahasa Indonesia (akurasi 0.362). Studi ablasi mengonfirmasi bahwa komponen class and property retrieval adalah yang paling krusial. Sementara itu, verbalisasi ditemukan dapat mengurangi akurasi pada KG yang lebih sederhana. Penelitian ini berhasil menjawab pertanyaan riset utama terkait pengembangan arsitektur FrOG, identifikasi LLM terbaik, dan penentuan komponen paling berpengaruh.

Saran

[edit]

Pengembangan selanjutnya disarankan untuk fokus pada:

  1. Fine-tuning model LLM spesifik untuk tugas generasi SPARQL.
  2. Pembangunan pipeline native yang dioptimalkan untuk bahasa Indonesia.
  3. Eksplorasi LLM yang lebih besar, dengan tetap memperhatikan aspek efisiensi.
  4. Implementasi classifier untuk penggunaan verbalisasi yang lebih adaptif.
  5. Adopsi backend penyimpanan KG persisten (seperti Jena atau GraphDB) guna meningkatkan skalabilitas dan robustisitas sistem.

Publikasi dan Produk Akhir

[edit]

Berikut adalah pranala repositori kerangka kerja FrOG yang disimpan di Github.

  1. Repositori Github: Pranala Github

Berikut adalah daftar publikasi ilmiah yang telah dihasilkan atau diterima untuk publikasi dari rangkaian penelitian yang dilakukan:

  1. Judul: Towards an Open NLI LLM-based System for KGs: A Case Study of Wikidata
    • Status: Telah dipublikasikan (Desember 2024)
    • Publikasi: Proceedings of the International Seminar on Research of Information Technology and Intelligent Systems (ISRITI) 2024.
    • DOI/URL: Pranala IEEE
    • Video presentasi: Pranala video presentasi di YouTube
    • Keterangan: Publikasi ini merupakan studi pendahuluan yang menjadi dasar bagi pengembangan penelitian "FrOG: Framework of Open GraphRAG".
  2. Judul: FrOG: Framework of Open GraphRAG
    • Status: Telah dipublikasikan (Maret 2025)
    • Publikasi: ESWC LLM-TEXT2KG 2025 (Workshop/Track pada European Semantic Web Conference).
    • DOI/URL: Pranala publikasi
    • Keterangan: Penelitian ini memperkenalkan FrOG, sebuah sistem GraphRAG terbuka yang mengintegrasikan Retrieval-Augmented Generation (RAG) dengan knowledge graphs (KG) untuk tanya jawab (Question Answering atau QA). Penelitian ini memanfaatkan Model Bahasa Besar (Large Language Models atau LLM) sumber terbuka untuk menghasilkan kueri SPARQL pada Wikidata, DBpedia, dan KG Lokal. Ini merupakan hasil utama dari penelitian yang diajukan dalam hibah ini.

Referensi

[edit]
  1. Roberts, Raffel (2020). "How much knowledge can you pack into the parameters of a language model?". arXiv preprint arXiv:2002.08910. 
  2. a b c d Lewis, Perez (2021). "Retrieval-augmented generation for knowledge-intensive NLP tasks". Advances in Neural Information Processing Systems, 33. 
  3. a b Karpukhin, Teucher (2020). "Dense passage retrieval for open-domain question answering". arXiv preprint arXiv:2004.04906. 
  4. Allemang, Hendler (2011). "Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL". Elsevier Science & Technology. 
  5. Vaswani, Shazeer (2017). "Attention is all you need". Advances in neural information processing systems, 30. 
  6. Devlin, Chang (2018). "BERT: Pre-training of deep bidirectional transformers for language understanding". arXiv preprint arXiv:1810.04805. 
  7. Radford, Wu (2019). "Language models are unsupervised multitask learners". OpenAI blog, 1. 
  8. Raffel, Shazeer (2019). "Exploring the limits of transfer learning with a unified text-to-text transformer". arXiv preprint arXiv:1910.10683. 
  9. a b Peng, Zhu (2024). "Graph retrieval-augmented generation: A survey". arXiv preprint arXiv:2402.10212. 
  10. Rony, H (2022). "SGPT: A generative approach for SPARQL query generation from natural language questions". IEEE Access, 10. 
  11. Emonet, Bolleman (2024). "LLM-based SPARQL query generation from natural language over federated knowledge graphs". arXiv preprint arXiv:2401.03960. 
  12. Vrandecic, D (2014). "Wikidata: A free collaborative knowledge base". Commun. ACM, 57. 
  13. Bizer, C (2009). "Dbpedia – a crystallization point for the web of data. Journal of Web Semantics". 7(3):154–165. 
  14. Mandolang, D (2024). "https://github.com/danielcm585/curriculum-knowledge-graph". 
  15. Zarantiana, U (2023). "GLiNER: Generalist model for named entity recognition using bidirectional transformer". 
  16. a b Perevalov, A (2022). "QALD-9-Plus: A multilingual dataset for question answering over DBpedia and Wikidata translated by native speakers. In 2022 IEEE 16th International Conference on Semantic Computing (ICSC)". 
  17. Both, A (2024). "Towards LLM-driven natural language generation based on SPARQL queries and RDF knowledge graphs". In TEXT2KG/DQMLKG@ESWC.