SCIgen
SCIgen은 문맥 자유 문법을 사용하여 넌센스 컴퓨터 과학 학술 논문을 생성하는 논문 생성기 프로그램이다. 프로그램에서 사용하는 원시 데이터는 CiteSeer에서 다운로드한 컴퓨터 과학 논문 모음집에서 추출했고, 학술 논문의 구성 요소인 그래프, 다이어그램, 문헌 인용 등이 자동으로 생성된다. 개발자는 MIT 소속 과학자였으며, 개발 목적은 정합성보다는 즐거움 최대화에 있었다. 최초 공개는 2005년이었으며, 원래의 목적은 학술 대회에 제출한 논문이 제대로 평가받는지를 확인하기 위함이었다. 생성기가 공개된 후, 전 세계적으로 가짜 학술 논문을 제출하는 사기가 발생하기 시작했으며, SCIgen을 사용하여 생성된 최소한 122건의 논문이 적발되었다. 2015년 슈프링어에서는 SCIgen으로 생성한 논문을 검증하는 프로그램인 SciDetect를 공개했다.
| 저장소 | |
|---|---|
| 프로그래밍 언어 | Perl |
| 언어 | 영어 |
| 종류 | 논문 생성기 |
| 라이선스 | GNU GPL |
| 웹사이트 | https://pdos.csail.mit.edu/archive/scigen/ |
SCIgen은 문맥 자유 문법을 사용하여 넌센스 컴퓨터 과학 학술 논문을 생성하는 논문 생성기 프로그램이다. 프로그램에서 사용하는 원시 데이터는 CiteSeer에서 다운로드한 컴퓨터 과학 논문 모음집에서 추출했고, 학술 논문의 구성 요소인 그래프, 다이어그램, 문헌 인용 등이 자동으로 생성된다. 개발자는 MIT 소속 과학자였으며, 개발 목적은 정합성보다는 즐거움 최대화에 있었다.[1] 최초 공개는 2005년이었으며, 원래의 목적은 학술 대회에 제출한 논문이 제대로 평가받는지를 확인하기 위함이었다. 생성기가 공개된 후, 전 세계적으로 가짜 학술 논문을 제출하는 사기가 발생하기 시작했으며, SCIgen을 사용하여 생성된 최소한 122건의 논문이 적발되었다.[2] 2015년 슈프링어에서는 SCIgen으로 생성한 논문을 검증하는 프로그램인 SciDetect를 공개했다.[2]
출력 예시
[편집]이 프로그램으로 생성된 《Rooter: A Methodology for the Typical Unification of Access Points and Redundancy》라는 논문의 초록은 다음과 같다.[3]
Many physicists would agree that, had it not been for congestion control, the evaluation of web browsers might never have occurred. In fact, few hackers worldwide would disagree with the essential unification of voice-over-IP and public/private key pair. In order to solve this riddle, we confirm that SMPs can be made stochastic, cacheable, and interposable.
많은 물리학자들은 혼잡제어가 개발되지 않았다면 웹 브라우저의 평가가 불가능할 것이라는 데 동의한다. 반면 세계의 일부 해커는 VoIP와 공개 키/비밀 키 쌍의 통합에 반대할 것이다. 이 문제를 해결하기 위하여 논문에서는 SMP가 추계적, 캐시 가능함, 겹침 가능함을 확인하였다.
사회적 영향
[편집]2005년에는 SCIgen으로 생성된 논문인 《Rooter: A Methodology for the Typical Unification of Access Points and Redundancy》가 WMSCI(World Multiconference on Systemics, Cybernetics and Informatics)라는 학술대회에 게재 승인되었고, 논문의 저자들에게도 발표할 기회가 주어졌다. SCIgen의 개발자들은 웹사이트에 사기 사건을 공개했고, 슬래시닷에서 기사화된 이후 더 널리 알려졌다. 해당 논문을 WMSCI에 제출한 것은 망신을 주기 위한 의도적인 사건이었다. SCIgen의 개발자들은 해당 학술대회가 저품질 논문을 승인하고 여러 학자들에게 무작위로 논문 모집 메일을 전송하였다고 주장했다. WMSCI 측에서는 초청을 취소했으나, SCIgen 팀은 학술대회가 열리는 호텔을 방문했으며, WMSCI 학술대회 옆쪽에서 자신들이 직접 생성한 "트랙"의 발표를 진행했다. 2000년부터 2005년까지 WMSCI는 IEEE의 스폰서를 받고 있었다.[4] 이 사건이 알려진 후, IEEE에서는 2006년부터 2008년까지 학술대회의 주최자였던 Nagib Callaos의 스폰서 계약을 중단했다.
SCIgen 웹사이트에서는 다음과 같이 밝혔다.
One useful purpose for such a program is to auto-generate submissions to conferences that you suspect might have very low submission standards. A prime example, which you may recognize from spam in your inbox, is SCI/IIIS and its dozens of co-located conferences (check out the very broad conference description on the WMSCI 2005 website).— About SCIgen[5]
이러한 프로그램의 유용한 목적 중에는 아무 논문이나 받아 준다고 의심이 가는 학술대회에 자동적으로 논문을 제출하는 것이 있습니다. 매우 적절한 예시로, 아마도 이메일의 스팸함에서 보셨다시피 SCI/IIIS 및 같이 개최되는 여러 학술대회가 있습니다(WMSCI 2005 웹사이트의 매우 긴 학술대회 설명을 참조하십시오.).
Stan Kelly-Bootle이 2005년 ACM Queue에 기고한 글에서는 Rooter 논문의 여러 문장 자체는 매우 믿을만하기 때문에 당시의 학술 사기 문헌 자동 감지 시스템에서는 제대로 확인할 수 없을 것이라고 했다. 또한 전문용어의 적절한 사용으로 인하여 사람이 직접 읽더라도 그럴듯하게 받아들일 수 있으며, 생성된 논문의 부정합성은 개발자들의 제한된 지식으로 인한 것이라고 했다. 기고문에서 내린 결론은 올바르지 않은 문건을 걸러낼 수 있는 신뢰 가능한 필터는 여러 전문가의 주의깊은 동료평가라는 것이었다.[6]
프랑스 그르노블 대학교의 시릴 라베(Cyril Labbé)는 2010년 논문에서 구글 학술 검색의 h 지수 계산 알고리즘의 취약점으로 SCIgen으로 생성한 문서들이 서로간을 상호 참조하여 학술적 링크 팜을 형성한다는 것을 제시했다. 이 방식을 사용하여 가상의 인물 "Ike Antkare"를 알베르트 아인슈타인보다 더 상위권에 배치시킬 수 있었다.[7]
2021년에 출판된 243건의 SCIgen으로 생성된 논문을 분석한 연구에 의하면, 컴퓨터 과학에서 논문 백만 편당 75편(< 0.01%)이 SCIgen으로 생성되었으며, 기계적으로 생성되었음이 밝혀진 논문 중 극히 일부만 조치가 취해졌다고 했다.[8][9]
슐랑게만
[편집]세계의 약탈적 학회를 검증하기 위해서 헤르베르트 슐랑게만(Herbert Schlangemann)이라는 가명을 사용하여 여러 논문이 제출되었다. 해당 가명은 스웨덴에서 제작된 단편 영화 《Der Schlangemann》에서 따 왔다.
- 2008년에는 논문 모집 스팸메일에 대응하기 위해서 SCIgen을 사용하여 《Towards the Simulation of E-Commerce》라는 가짜 논문을 생성했다. 해당 논문은 IEEE가 공동 후원하고 중국 우한에서 개최된 학술대회인 2008 International Conference on Computer Science and Software Engineering(CSSE 2008)에 게재 승인되었다. 또한 가상으로 생성된 이력서의 경력을 바탕으로 논문 저자는 세션 체어로도 초대받았다.[10] 공식적인 리뷰는 다음과 같다. "이 논문은 협동적 기술과 전통적 통신을 제시한다. 논문의 결론으로는 수륙양용성 알고리즘을 사용하여 무작위적 알고리즘의 최적화는 불가능함을 제시한다. 무작위적 알고리즘은 Kumar, Raman이 제안한 VoIP 분석용 클라이언트-서버 알고리즘으로 _(n) 시간복잡도로 수행된다. 논문 저자들은 DHT의 시각화에 필요한 중요한 특징을 식별했고 이들을 주의깊게 푼석했다. 향후 연구 방향으로는 아이디어를 더 설득력 있게 개발하고, 더 논리적으로 주장하고, 더 명확한 연결을 제시해야 한다." 해당 논문은 IEEE Xplore에도 잠시 동안 게재되었으나, 곧 삭제되었다. 학술대회를 다룬 이야기는 헤르베르트 슐랑게만의 블로그에 게재되었고[11] 슬래시닷[12] 및 Heise에서도 다루어졌다.[13]
- 2009년에는 《PlusPug: A Methodology for the Improvement of Local-Area Networks》라는 논문이 역시 IEEE가 공동 후원하고 중국 우한에서 개최된 2009 International Conference on e-Business and Information System Security (EBISS 2009)에 게재 승인되었다.[11]
슐랑게만의 두 "논문"은 학술대회 논문집에서 게재 철회되었고, 학술대회 조직위원회와 키노트 발표자의 이름이 웹사이트에서 삭제되었다.
학술대회와 저널
[편집]- Rob Thomas: 《Rooter: A Methodology for the Typical Unification of Access Points and Redundancy》, 2005년 WMSCI
- 마티아스 우슬라어(Mathias Uslar)의 논문이 IPSI-BG 학회에 제출되었다.[14]
- 겐코 귈란(Genco Gülan) 교수는 3rd International Symposium of Interactive Media Design에 가짜 논문을 제출했다.[15]
- 표트르 트리포노프(Peter Trifonov) 교수는 2009년에 배명진 교수가 주도하는 대한민국의 학회인 GESTS International Transaction on Computer Science and Engineering에서 논문 모집 스팸 메일을 받고 SCIgen으로 생성한 《Decoupling Telephony from a* Search in Reinforcement Learning》 논문을 제출했다. 논문은 게재 승인되었고 게재료 250달러를 청구했다.[16][17]
- 뉴스타파에서는 WASET 취재 과정에서 SCIgen으로 제작한 논문을 학회에 투고하였고, 해당 논문은 게재가 승인되어 학회 발표에 참여했다.[18]
- 2013년에 발표된 과학계량학 논문에서는 IEEE 및 슈프링어에서 출판된 최소한 85건의 논문이 SCIgen에서 생성된 것이라고 주장했다.[19] 이 논문의 연구 결과로 최소한 120건의 SCIgen으로 생성된 논문이 게재 철회되었다. 장난의 의도를 가지고 있었던 이전에 제출된 논문과는 달리, 해당 논문의 저자는 대부분 중국인이었으며 SCIgen으로 생성한 논문을 사용하여 실적을 부풀리기 위한 목적이었다.[20]
- 이란의 샤리프 공과대학교 학생들은 엘스비어의 Journal of Applied Mathematics and Computation에 가짜 논문을 출판했다.[21] 저자의 가명으로 모살라네자드(MosallahNejad)를 사용했으며, 페르시아어로 "무장한 종족에서"를 뜻하지만 페르시아인의 인명에서는 잘 사용되지 않는다. 저널 측에서 가짜 논문임을 확인한 후 논문이 게재 철회되었다.[22]
- 미하일 겔판트(Михаил Гельфанд)는 2008년 8월에 러시아어 저널인 Журнал научных публикаций докторантов и аспирантов에 Rooter(Корчеватель)라는 논문의 러시아어 기계번역본을 제출했다. 그는 해당 저널이 동료 평가를 거치지 않고 있으며, 러시아의 준박사학위 과정생들이 "승인된" 저널에 출판하기 위한 용도로 게재료 4000루블을 받는다고 주장했다.[23][24][25][26]
같이 보기
[편집]참조
[편집]- ↑ SCIgen - An Automatic CS Paper Generator
- ↑ 가 나 Bohannon, John (2015년 3월 27일). “Hoax-detecting software spots fake papers” (영어). 《Science | AAAS》. 2020년 9월 28일에 확인함.
Rather than being created as pranks, it seems that many of the fake papers were coming from China where they were "bought by academics and students" to pad their publication records, says the lead researcher behind the investigation, Cyril Labbé, a computer scientist at Joseph Fourier University in Grenoble, France.
- ↑ Stribling, Jeremy; Aguayo, Daniel; Krohn, Maxwell. “Rooter: A Methodology for the Typical Unification of Access Points and Redundancy” (PDF).
- ↑ Heinrich Zankl: Der Science-Generator- ein geniales Publikationsprogramm. In W.Hömberg, E.Roloff (Herausgeber): Jahrbuch der Marginalistik IV: Lit-Verlag. Münster . 2016 S. 60–67. ISBN 978-3-643-99793-7
- ↑ “SCIgen - An Automatic CS Paper Generator”. MIT.
- ↑ Stan Kelly-Bootle (July–August 2005). “Call that gibberish?”. 《ACM Queue》 3 (6): 64. doi:10.1145/1080862.1080884.
- ↑ “Les rapports de recherche du LIG” (PDF). Rr.liglab.fr. 2014년 5월 15일에 확인함.
- ↑ Cabanac, Guillaume; Labbé, Cyril (2021년 5월 25일). “Prevalence of nonsensical algorithmically generated papers in the scientific literature” (영어). 《Journal of the Association for Information Science and Technology》 72 (12): 1461–1476. doi:10.1002/asi.24495. ISSN 2330-1635. S2CID 236374033.
- ↑ Noorden, Richard Van (2021년 5월 27일). “Hundreds of gibberish papers still lurk in the scientific literature” (영어). 《Nature》 594 (7862): 160–161. Bibcode:2021Natur.594..160V. doi:10.1038/d41586-021-01436-7. PMID 34045760. S2CID 235232305.
- ↑ “CSSE Conference Program” (PDF).
- ↑ 가 나 “The official Herbert Schlangemann Blog, The whole story behind the paper "Towards the Simulation of E-Commerce"” (영어).
- ↑ kdawson (2008년 12월 24일). “Software-Generated Paper Accepted At IEEE Conference” (영어). 《Slashdot》 (VA Linux Systems). 2025년 3월 1일에 확인함.
- ↑ Peter-Michael Ziegler (2008년 12월 26일). “Dr. Herbert Schlangemann - oder die Geschichte eines pseudowissenschaftlichen Nonsens-Papiers” (독일어). 《Heise Online》 (Heise Zeitschriften Verlag). 2025년 3월 1일에 확인함.
- ↑ “Mathias Uslar's paper.”. 2009년 6월 15일에 원본 문서에서 보존된 문서.
- ↑ “About Genco Gulan's paper.”. 2007년 10월 12일에 원본 문서에서 보존된 문서. 2025년 2월 28일에 확인함.
- ↑ “Decoupling Telephony from a* Search in Reinforcement Learning” (PDF). 2019년 8월 2일에 원본 문서 (PDF)에서 보존된 문서.
- ↑ “배명진 'GESTS' 학회, 가짜논문 통과 시킨 후 등록비 250달러 요구”. 《국제신문》. 2018년 5월 23일. 2025년 3월 1일에 확인함.
- ↑ “'가짜학문' 제조공장의 비밀”. 《뉴스타파》. 2018년 7월 19일. 2025년 3월 17일에 확인함.
- ↑ “Duplicate and Fake Publications in the Scientific Literature : How many SCIgen papers in Computer Science?” (PDF). Hal.archives-ouvertes.fr. 2025년 3월 1일에 확인함.
- ↑ “Publishers withdraw more than 120 gibberish papers”. 《Nature》. 2014년 2월 24일. 2025년 3월 1일에 확인함.
- ↑ Rohollah Mosallahnezhad. “Cooperative, Compact Algorithms for Randomized Algorithms” (PDF). 2009년 12월 29일에 원본 문서 (PDF)에서 보존된 문서.
- ↑ Rohollah Mosallahnezhad (2007), “REMOVED: Cooperative, compact algorithms for randomized algorithms”, 《Applied Mathematics and Computation》, doi:10.1016/j.amc.2007.03.011
- ↑ “Mon ordinateur écrit mieux que le tien!” (캐나다 프랑스어). 《Agence Science-Presse》. 2009년 9월 8일. 2025년 3월 1일에 확인함.
- ↑ “Rooter invades Russia”. 《SCIgen》. 2009년 1월 8일. 2014년 4월 3일에 원본 문서에서 보존된 문서. 2011년 10월 4일에 확인함.
- ↑ Malozemov, Sergei (2008년 10월 7일). Группа отечественных ученых поставила эксперимент — смешала сложные термины случайным образом, а полученный текст отослала в один из научных журналов (러시아어). 《NTV》. 2025년 3월 1일에 확인함.
- ↑ “Feedback”. 《New Scientist》. 2009년 8월 15일.