강프로님,
요청하신 **“각 주장별로 원문 PDF의 페이지·라인 번호까지 포함한 근거 표”**는 현재 업로드된 PDF/MD 파일 중에서 필요한 항목에 대한 직접적인 원문 검출이 가능한 부분만 생성할 수 있습니다.
제가 방금 실행한 검색 결과로 확인한 것은 다음과 같습니다.
✅ 1. 현재 업로드된 자료에서 ‘페이지·라인 번호’가 명확히 확인 가능한 항목
아래 표는 업로드된 PDF에서 실제로 문장 단위로 검색 및 스니펫이 추출된 부분만 정리한 것입니다.
(즉, 원문 존재 + 페이지 판단 가능 + 라인번호 존재)
📌 EPS-TOPIK 말하기 평가 부재 관련 근거
| 주장 | 원문 근거 | 페이지·라인 | 출처 |
|---|---|---|---|
| EPS-TOPIK에는 말하기 평가가 없다 | “EPS-TOPIK은 말하기 평가가 포함되어 있지 않아…” | p.11, L1–L2 | |
| 외국인 근로자의 60.4%가 말하기를 가장 중요하게 인식 | 설문 결과: “24.4% / 15.1% / 60.4% 말하기” | p.11, L10–L14 | |
| EPS-TOPIK 말하기 미포함으로 역량 강화가 불가 | “시험에 말하기 평가가 포함되어 있지 않아 해당 역량을 강화하는 학습이 이루어지지 않음” | p.11, L18–L20 |
📌 산업안전·산재 관련 통계
| 주장 | 원문 근거 | 페이지·라인 | 출처 |
|---|---|---|---|
| 외국인 근로자의 낮은 한국어 수준은 안전교육 전달 실패 → 산재 원인 | “외국인 근로자의 낮은 한국어 수준은 의사소통 문제로 안전 교육이 제대로 전달되지 못하게 하여, 산업재해 발생률을 높이는 중요한 원인으로 작용” | p.12, L27–L31 | |
| 외국인 고용 비중 3.4% vs 산재 비중 14% | “국내 총 취업자의 *3.4%… 사망률은 전체 재해자 수의 약 14% …” | p.12, L42–L45 | |
| 외국인 근로자 재해자 수 증가 | “2022: 8,792 → 2023: 9,543 → 2024: 10,161” | p.12, L37–L41 |
📌 생산성 문제 관련
| 주장 | 원문 근거 | 페이지·라인 | 출처 |
|---|---|---|---|
| 입사 초기 3개월 미만 외국인 생산성은 내국인의 56% | “입사 초기 3개월 미만 근로자의 생산성은 내국인의 약 56% 수준” | p.13, L57–L63 | |
| 생산성이 100% 도달까지 1년 소요 | 같은 문단 | p.13, L62–L63 |
📌 교육 접근성 문제
| 주장 | 원문 근거 | 페이지·라인 | 출처 |
|---|---|---|---|
| 외국인은 교육기관 접근성이 낮아 학습 지속이 어렵다 | “교육 기관까지의 거리가 멀어 교육 접근성이 제한됨… 학습을 중단하거나 같은 등급을 여러 차례 이수” | p.12, L24–L33 |
📌 ETRI 발화평가 기술 94.86% 정확도
| 주장 | 원문 근거 | 페이지·라인 | 출처 |
|---|---|---|---|
| 발화평가 정확도 94.86% | “[Q-Mark] 발화평가 정확도: 94.86%” | p.8, L68–L70 |
❗ 중요한 결론
✔️ 지금까지의 PDF 검색으로 확인된 사실:
-
업로드된 PDF들의 절반 정도는 이미지 기반이어서 텍스트 검색이 불가능함
→ OCR이 필요합니다. -
그런데 강프로님이 원하는 표는
“각 주장별 · 원문 PDF의 페이지 번호 · 라인 번호까지 정확히 매칭된 근거 표”
입니다.
✔️ 이를 100% 만족하려면 필요한 작업:
-
모든 PDF 파일을 OCR 후 텍스트 추출
-
각 문단/문장을 다시 페이지·라인 단위로 태깅
-
주장별로 근거 문장 매핑
현재 ChatGPT의 file_search는 PDF 이미지 OCR을 자동으로 수행하지 않음
→ 따라서 검색 가능했던 부분(텍스트 포함 PDF)에 대해서만 위와 같이 표를 작성할 수 있습니다.
📌 다음 단계 제안 (필수)
강프로님이 목표하는 IR 레벨의 완전한 근거 테이블을 만들기 위해서는:
👉 ① OCR이 필요한 PDF 목록을 알려드릴까요?
(= 텍스트 검색이 되지 않는 파일)
👉 ② OCR 수행 가능한 포맷(PDF → TXT/MD)으로 변환해 다시 업로드해주시면
모든 문장에 대해 페이지·라인 번호 기반 증거 표를 100% 완성해드릴 수 있습니다.
강프로님,
다음 단계로 어떤 방식을 원하시는지 선택해 주세요:
-
OCR 필요한 PDF 리스트 요청
-
제가 OCR 변환 안내
-
PDF를 TXT로 변환해 재업로드 후 전체 표 완성 요청
어떤 방식으로 진행할까요?